군더더기 없는 기계학습 백과사전

통계 표본이 커진다고 편향이 작아질까? 본문

Machine Learning/통계이론 훑어보기

통계 표본이 커진다고 편향이 작아질까?

Jay김 2020. 7. 8. 22:14

꼭 그렇지만은 않다. 

대표적으로 리터러리 다이제스트(The Literary Digest)지에서 실시한 대선 여론 조사의 사례가 있다. 1936년에 진행된 해당 여론 조사는 프랭클린 델라노어 루즈벨트와 알프레드 모스만 랜던 중 누가 대선에서 승리할까 묻는 설문 조사였는데 당시 1000만 명에게 보내진 설문 조사에서 236만 명이나 되는 응답이 왔고 랜던의 앞도적인 승리가 예상되었다. 그러나 현실에서는 전체 득표율에서 루즈벨트가 62%나 가져가 버렸고, 48개 주 중에서 46개를 가져가는 대승리를 거두는 반대 상황이 연출되었다. 

리터러리 다이제스트지가 이처럼 커다란 실수를 저지른 이유는 표본의 크기를 너무 신뢰하고 표본의 타당성을 간과했기 때문인데, 이는 표본이 수집된 곳이 설문 조사 응답을 얻기 쉬운 3가지 종류의 응답자들에게 제한되었기 때문이다.

  1. 리터러리 다이제스트지 독자들
  2. 자동차 소유자
  3. 전화 가입자

1936년 당시 기준으로 이 인구는 전체 인구에 비해 압도적으로 부유한 계층이 속해있었고, 이들은 보수 성향의 공화당 지지자일 확률이 높았기 때문에 당연히 랜던 지지율이 높았다. 이는 표본의 편향으로 이어졌고 리터러리 다이제스트지가 대선 결과 예상 오류를 범하는 원인이 되었다.

이뿐만 아니라 통계 수집 과정에서 사용하는 도구 자체에 내재된 편향으로도 당신의 통계는 손쉽게 편향될 수 있다. 예를 들어 의료 목적으로 남자들의 평균 몸무게를 재고 있다고 하자. 이때 체중계가 2kg 낮게 몸무게를 측정하면 당연히 전 인구가 표본이라도 편향은 사라지지 않는다. 

Comments