쎄링의 IT 로그인

연구조사방법론 - 분산분석의 개념 본문

사회과학조사방법론

연구조사방법론 - 분산분석의 개념

serings 2023. 1. 14. 02:02
반응형

1. 분산분석의 개념

1) 분산분석의 정의

  분산분석(ANOVA : analysis of variance)은 집단 간 평균의 차이를 검정하는 분석방법이다. 일반적으로 집단이 2개인 경우에는 t검정으로 집단 간 평균 차이를 검정할 수 있다. 그러나 집단이 3개 이상인 경우 t검정으로 집단 간 평균 차이를 한 번에 분석하기는 어렵다. 이처럼 집단이 3개 이상인 경우에 집단 간 평균 차이를 동시에 비교 검정할 수 있는 방법이 바로 분산분석이다. 즉 분산북석은 3개 이상의 집단 간 평균이 서로 다른지를 검정하는 분석방법이다. 

  분산분석은 3개 이상의 집단 간의 평균들이 서로 차이가 있는지를 분석하는 방법이다. 집단 간 평균들이 서로 다르다는 것은 평균들이 서로 멀리 떨어져 퍼져 있는 정도를 나타내는 분산이 매우 크다는 것을 의미한다. 집단의 평균들이 서로 멀리 떨어져 있어 이들의 분산이 크면 클수록 집단 간의 평균들이 서로 다름을 알 수 있다. 즉, 집단 간 평균들의 분산이 클수록 평균들이 서로 다르다. 따라서 집단 평균들의 분산으로 집단 간 평균들이 서로 어느 정도 다른지를 파악할 수 있다. 

  그러면 집단 평균들의 분산이 어느 정도 커야만 집단 간 평균들이 서로 다르다고 판단할 수 있는가? 일반적으로 분산의 크기는 측정단위에 따라 크게 달라진다. 또한 측정 대상이 무엇이냐에 따라 분산의 크기를 판단하는 기준이 달라진다. 따라서 단순하게 숫자로 나타난 분산값만으로 분산의 크기 정도를 판단하기는 어렵다. 단순히 숫자로 표시된 분산값만으로는 집단 간 평균들이 서로 어느 정도 다른지를 판단하기는 어렵다. 

  평균값들의 차이를 정확하게 파악하기 위해서는 분산의 크기 정도를 평가할 수 있는 상대적인 기준이 필요하다. 

 

분산분석 해석

 

  분산분석을 좀 더 구체적으로 설명하면 위의 그림과 같다. 행정학과와 경영학과 그리고 경제학과에서 통계학 시험을 치른 후 학년별로 학생들을 분류하여 그 들의 점수분포를 그래프로 나타낸것이다. 그림에서 보듯이 행정학과의 각 학년별 분산은 경영학과와 같으나, 학년별 평균은 경영학과와 다르다. 따라서 경영학과는 행정학과와 학년별 분산은 같으나 평균은 다르며, 반면에 경제학과와는 학년별 평균 점수는 같으나 분산이 서로 다르다. 이러한 경우 경영학과는 학년별로 통계학 시험의 점수에 차이가 있다고 할 수 있는가? 행정학과와 경제학과는 어떠한가? 경영학과의 경우 학년별로 평균 점수는 분명하게 차이가 있다고 판단할 수 있다. 즉, 대부분의 3학년은 2학년보다 점수가 높고, 대부분의 2학년은 1학년보다 점수가 높다. 따라서 학년을 알면 그 학생의 성적에 대하여 짐작할 수 있다. 그러나 행정학과와 경제학과의 경우 학년별 평균의 차이가 경영학과에 비하여 명확하지 않다. 왜냐하면 행정학과의 경우 학년별 평균이 서로 크게 다르지 않기 때문이고, 반면에 경제학과의 경우에는 학년별 평균의 차이는 있으나 학년 내 분산이 크기 때문이다. 따라서 행정학과와 경제학과의 경우 성적분포를 나타내는 분포그래프들 간에는 서로 겹치는 부분이 많다. 즉, 2학년 중에는 3학년보다 성적이 좋은 학생이 많고, 1학년보다도 성적이 좋지 못한 학생들도 적지 않다.

요약하면, 경영학과는 학년에 따라 성적이 명확하게 구분되나 행정학과와 경제학과는 학년에 따라 성적이 명확하게 구분되지 않는다. 따라서 경영학과는 학년별 평균이 통계적으로 유의하게 다르다고 할 수 있으나, 행정학과와 경제학과의 경우에는 학년별 평균이 통계적으로 유의할 정도로 다르다고 판단하기 어렵다.

  집단별 평균값의 차이가 크면 클수록, 즉 집단의 평균들이 서로 떨어져 있어 집단 간 분산이 크면 클수록 집단 간 평균차이가 명확하여 그 차이가 통계적으로 유의하다고 판단할 수 있다.

  반면에 경영학과와 경제학과를 비교해 보면, 두학과의 학년별 평균점수가 동일하므로 각 학과의 학년별 평균이 통계적으로 유의하게 다른지에 대한 판단은 학년별 점수의 분포인 집단 내 분산으로 판단하게 된다. 즉, 집단 내 분산이 클수록 집단별 평균 차이가 통계적으로 유의하게 다를 가능성이 낮아지고, 반대로 집단 내 분산이 작을수록 집단별 평균이 통계적으로 유의하게 다를 가능성이 높아지게 된다. 

  위의 설명을 종합하면, 집단 간 평균의 차이에 대한 검정이 단순히 평균들의 차이에 따라 결정되는 것이 아니라, 집단 간 평균들의 분산과 집단 내 관측치들의 분산을 비교하여 집단 간 평균차이를 검정한다. 즉, 분산값들을 이용해서 집단 간 평균 차이를 검정하게 됨으로써 이를 분산분석이라 한다. 

 

 

<참고문헌>

이훈영교수의 연구조사방법론, 이훈영, 도서출판 청람.

사회과학조사방법론, 채서일, 비앤엠북스.

  
반응형