쎄링의 IT 로그인

요인분석의 정의 및 목적 본문

사회과학조사방법론

요인분석의 정의 및 목적

serings 2023. 1. 19. 13:39
반응형

1. 요인분석

  요인분석은 변수들 간의 상호 연관성(공분산, 상관관계)를 분석해서 이들 간에 공통적으로 작용하고 있는 내재된 요인을 추출하여 전체자료를 대변할 수 있는 변수의 수를 줄이는 기법이다. 요인분석은 연관성(상관관계)이 높은 변수(요인)들이 가지고 있는 공통성을 중심으로 하나의 동질적인 요인으로 묶어주는 것이다. 예를 들어, '나는 좋은 성품을 가졌다', '나는 자랑할 것이 많다', '나는 나에 대하여 만족한다' 등은 '자존감'을 '교우관계가 원만하다'. '모임에 있어 주도권을 갖는다', 등은 '외향성'이라는 공통적인 요인을 내재하고 있다. 또한 '자존감'과 '외향성' 등의 요인들은 이보다 상위의 개념인 '개인성향' 이라는 공통적인 요인을 내포하고 있을 수 있다. 이러한 요인화 과정을 밟아가며 다양한 자료가 축약된 정보로 요약되어 감을 알 수 있다.

 

변수와 요인
변수와 요인

 

  요인분석을 이용하면 여러 개의 변수 형태로 주어진 많은 정보를 몇 개의 핵심적인 내재요인으로 축약하여 나타냄으로써 정보에 대한 이해와 추가분석을 용이하게 할 수 있다. 즉, 요인분석은 과다한 정보로 인한 문제를 해결해 주고, 자료의 성격을 쉽게 파악할 수 있도록 도와준다.

  이러한 요인분석의 기본개념은 여러 개의 변수들 간의 연관성(공분산)을 분석하여 변수 간에 내재된 공통된 정보를 몇 개의 대표적인 요인으로 추출하여 설명하는 것이다. 그러나 이러한 과정에서 원래 변수들이 가지고 있는 정보를 가능한 한 많이 설명할 수 있도록 효과적으로 요인을 추출해야 한다. 즉, 입력변수들이 가지고 있는 정보의 손실을 최소화하면서 전체를 가장 효과적으로 대변할 수 있도록 요인을 추출해야 한다. 

  요인분석을 사용하는 구체적인 목적 몇가지를 들면 다음과 같다. 첫째, 연구나 모형개발에서 사용되는 변수의 수를 줄여 몇 개의 핵심적인 요인만으로 모형을 구성하고 설명하기 위하여 요인을 분석한다. 일반적으로 가장 좋은 모형은 최소한의 변수나 요인으로 가장 많은 내용을 설명하는 모형이다. 따라서 모형개발과 관련된 변수들이 많을 경우 가능한 한 이들의 공통적인 특성을 요약한 몇개의 대표적인 요인들을 추출하여 사용함으로써 보다 효과적인 모형을 개발할 수 있다. 

  둘째, 정보와 지식을 보다 용이하게 그리고 효과적으로 전달하기 위해서 요인분석을 한다. 즉, 많은 변수들이 가지고 있는 정보를 함축하는 몇 개의 공통적인 요인을 추출하여 설명함으로써 보다 용이하게 설명할 수 있다. 예를 들어, 대학수학능력시험점수는 대학에 입학하여 대학교육을 받고 이해할 수 있는 능력이 어느 정도인가를 나타내는 척도로 사용된다. 이것은 학생의 여러가지 능력을 종합해서 하나의 점수로 요약한 일종의 요인으로 볼 수 있다. 

  그렇다고 정확하게 평가하고자 너무 많은 요인을 추출하는 것도 문제가 있다. 특히, 요인분석 결과 요인의 수가 지나치게 많으면 요인 축의 회전과 추출된 요인에 대한 해석이 상대적으로 어려워지기 때문에 정보와 지식을 효과적으로 전달할 수 없다. 따라서 많고도 복잡한 자료를 요약하여 몇 개의 정확하고 함축적인 정보, 즉 요인으로 표현하고자 하는 것이 요인분석의 목적이라고 할 수 있다. 

2. 요인분석을 위한 자료

  요인분석을 위해서 요인분석에 사용되는 자료를 다음 몇 가지 사항을 만족시켜야 한다. 첫째, 요인분석에서 사용되는 입력변수들은 모두 등간척도나 비율척도로 측정한 양적변수이어야 한다. 따라서, 서열척도나 명목척도록 측정한 변수는 요인분석에서 사용해서는 안 된다. 또한 입력변수로 사용되는 변수들은 가능한 한 같은 종류 그리고 동일한 크기의 척도를 사용해서 측정된 값을 가지고 있어야 바람직하다. 

  둘째, 각 입력변수 값들, 즉 관찰치들은 서로 독립적이며 정규분포를 이루어야 하며 변수별로 분산은 모두 동일하다는 가정을 만족시켜야 한다. 또한 사용되는 관측지(응답자)의 수는 최소한 변수 수의 3배 이상은 되어야 요인분석이 가능하다.

  셋째, 요인분석에 사용되는 입력변수들 간에는 어느 정도 수준 이상의 상관관계가 있어야 한다. 서로 관계가 없는 변수들로부터 이들에게 공통적으로 내재하는 요인을 추출한다는 것은 어려울 뿐아니라 추출된 요인도 신뢰성 측면에서 크게 의미가 없기 때문이다. 

  그러나 변수들 간의 상관관계가 높은 경우에는 상관관계가 높은 변수들끼리 서로 묶어 요인으로 추출함으로써 변수의 수를 줄일 수 있다. 그러나 변수들 간의 상관관계가 있다고 해도 상관관계가 낮다면 요인을 추출하기 어려울 뿐만 아니라 요인이 추출된다 해도 요인으로서 큰 의미가 없을 수 있다.

  그러면 변수들 간의 상관관계가 어느 정도 되어야만 요인분석을 실시할 수 있고 또 의미가 있는가? 즉 변수들 간의 상관관계가 어느 정도 되어야 의미 있는 요인분석을 실시할 수 있는가? 단순한 자료나 상관계수행렬만으로 요인분석이 가능한지 여부를 쉽게 파악할 수는 없다. 

반응형