군더더기 없는 기계학습 백과사전

분산분석(ANOVA)에서 분산을 보는 이유 본문

Machine Learning/통계이론 훑어보기

분산분석(ANOVA)에서 분산을 보는 이유

Jay김 2020. 4. 21. 07:05

분산분석을 처음 접해보는 사람들에게 떠오르는 의문점일 것이다. 여러분은 관측 개체(Observation)들이 평균에서 떨어진 정도를 분산으로 측정하는 것으로 대략 이해하고 있을 것이다. 그런데 두 개 이상의 집단 평균을 비교할 때 왜 집단 내 및 집단 간 분산(Variance)을 비교해야 하는지 의문이 들것이다. 이를 직관적으로 이해할 수 있도록 접근하겠다. 해당 예시는 이해를 돕기 위한 극단적인 예시다.

당신이 여러 명의 무작위로 모집된 남성들을 대상으로 몸무게를 연구하고 있다고 해보자. 이 모임에는 3가지 집단이 포함되어 있다.

근육질의 운동선수들 

평범한 직장인들

몸무게가 얼마 안 나가는 승마 선수들

남성들을 이름순으로 3개 집단으로 나눴다고 해보자. 그러면 3개 집단에선 몸무게는 다음과 같을 것이다.

A. 80, 51, 72, 91, 54, 62,...

B. 62, 90, 48, 78, 50, 72,...

C. 98, 85, 52, 65, 74, 43,...

그럼 보다시피 집단 내 분산이 집단 간 분산보다 큰 것을 관찰할 것이다. 여기서 좀 헷갈린다면 집단 내 분산은 각 집단의 몸무게 평균에서 구성원들의 각자 몸무게가 떨어진 정도이고, 집단 간 분산은 전체 몸무게 평균에서 각 집단의 평균 몸무게가 떨어진 정도라는 것을 다시 떠올려보자.

이제 남성들을 직종에 따라서 3개 집단으로 나눴다고 해보자.

A. 80, 85, 91, 89, 93, 83,...

B. 50, 54, 49, 47, 52, 53,...

C. 72, 74, 69, 65, 69, 70,...

이제 반대로 집단 간 분산이 집단 내 분산보다 큰 것을 볼 수 있을 것이다. 

여러분은 이제 집단을 의미 있게 나눔으로써 발생하는 집단 내 및 집단 간 분산의 비율 차이를 직관적으로 이해할 수 있을 것이다. 말 그대로 분산분석의 줄임말인 ANOVA는 이를 수학적으로 분석할 수 있도록 도와준다.

[Copyright ⓒ 블로그채널 무단전재 및 재배포 금지]

Comments