Machine Learning/통계이론 훑어보기

P 값 (P-value)의 직관적인 이해를 위한 요약글

Jay김 2020. 4. 18. 06:09

모종의 이유로 오랜만에 수업 이후 거들떠보지도 않았던 확률론이나 수리 통계학 책을 꺼내들며 갑자기 P-값을 찾는 분들이 있을지도 모른다고 생각한다. 혹은 P-값을 더 깊이 이해하기 위해 예를 들은 설명을 찾는 분들도 있을 것이라고 생각한다. 특히 전자의 경우에는 인터뷰 문제에 포함되는 사례도 있을 듯하다. 그리고 그게 사실이라면 독자는 비교적 다급해 눈에 들어오는 공식이 없어 답답할 것이다. 다만 그런 경우라면 그저 정의를 교과서에서 읽는 것 마냥 설명하는 것에 그치는 수준으로 끝나지 않을 것이다. 혹시 P-값을 직장에서 설명해야 하는 경우가 존재하는 직업을 구하고 있다면, 통계학적 지식이 상대적으로 적은 클라이언트와 접촉할 일이 많을 것이다. 이런 상황에 대비할 수 있는 사람을 고용할 수 있도록 기업들이 요구하는 능력 중 하나는 본인의 지식을 자신보다 지식수준이 낮은 사람과 공유할 수 있는 능력일 것이다. 해당글이 그런 분들에게 특히 도움이 되길 바란다.

P-값과 유의확률 판단의 직관적인 이해를 위해 필자가 제시하는 한 가지 예다.

당신에게 동전이 하나 주어졌다고 하자. 당신은 이 동전을 친구와의 내기에 사용할 것인데 동전에 아무런 조작이 가해졌는지 모르는 상황이다. 이를 판단하기 위해 동전을 1000번 던져서 결과를 관측한다고 해보자.

이때 귀무가설 혹은 영가설 (Null Hypothesis) $H_0$는 동전에 아무런 편향이 없는 것이다. 즉, 앞면($H$) 뒷면($T$)이 나올 확률이 동일하게 1/2이라는 것이다. 반면, 대립 가설 (Alternative Hypothesis) $H_1$은 동전에 편향이 있다는 것이다. 즉, 한쪽 면이 나올 확률이 더 높다는 것이다.

  • $H_0: P(H) = 1/2$
  • $H_1: P(H) \neq 1/2$

귀무가설이 사실이라는 가정하에 동전을 1,000번 던져본다. 만약 동전에 편향이 없다면 당신은 양쪽 면을 대략 500번씩 관측할 것이다. 정확하게 500번 등장할 필요는 없다. 동전을 던지는 사건들은 (당신의 손가락이 갈수록 아프다는 사실을 무시하면) 서로 영향을 주지 않는 독립 사건이기 때문에 계속 앞면 뒷면 나올 확률은 던질 때마다 동일하게 1/2일 것이다.

어라? 그런데 앞면이 200번, 뒷면이 800번 나왔다. 이때 P-값은 굉장히 낮게 나올 것이다. 이게 무엇을 의미할까? P-값 그 자체는 귀무가설이 사실이라는 가정하에서 해당 관측이나 앞면 100번 뒷면 900번 같이 더한 편향이 보이는 관측을 볼 확률을 말한다. 다르게 말하면, 인구에서 샘플을 랜덤 하게 뽑는 것처럼 동전을 1000번 던지는 샘플 실험을 했을 때 나온 결과를 볼 확률을 의미한다. 이게 낮다는 의미는 동전에 편향이 없다는 가정하에서 이런 결과를 관측할 확률이 낮다는 것이다. 이 사실은 당연히 여러분의 직관과 일맥상통할 것이라고 생각한다. 이 동전에 조작을 가하지 않았다는 가정하에 이런 현상을 볼 확률이 낮다는 것이다.

다음으로, 임의로 설정해놓은 유의 수준 $\alpha$와 비교하여 당신은 귀무가설을 수용(fail to reject the null hypothesis) 혹은 기각(reject the null hypothesis)할 것이다. 일반적으로 유의 수준은 $\alpha = 0.05$을 사용할 것이다. 예를 들어, P-값이 0.001이 나온다면 당신은 동전에 편향이 없다는 귀무가설을 기각할 것이다.

다만 몇 가지 주의할 점이 있다. 앞서 설명한 바에서 알 수 있듯이 귀무가설을 기각했다고 곧 대립 가설이 증명된 것이 아니다. 이건 어디까지나 확률적으로 분석한 결과이기 때문이다. 또한 유의 수준이라는 단어는 당신의 실험에서 학계의 주목이 요구되는 유의미한 (significant) 결과가 나왔다는 소리가 아니다! 단어 의미를 착각하지 않도록 주의하자!

이 방법론을 제시한 로널드 피셔도 0.05라는 값도 본인이 임의로 고른 것이라고 한다. 이걸 간과하고 0.05라는 문턱에만 매달리면 어떻게 될까? 연구자들이 P-값에만 주목하고 이게 유의 수준보다 낮게 나오도록 똑같은 실험을 반복하면서 마음에 드는 결과물만 골라내는 등 데이터를 조작한 결과물만 발행하는 행위를 P-해킹이라고 부른다. 학과를 거르지 않는 그 화려한 몇몇 결과물은 다음과 같다. 

  • 2012년, 제약 회사 암젠(Amgen)의 연구진이 53개의 암 연구 중 10개 이하의 사례만 재현한 것으로 보고함.
  • 2014년 백테스트[각주:1] 과적합(overfitting)이 계산 금융의 새로운 논란거리로 대두됨. 이론상 괜찮아 보이는 투자 펀드와 전략이 실전에서 실패하는 주원인으로 추측됨.
  • 2015년 재현성 프로젝트 (Reproducibility Project)에 따르면, 원 저자에게 자세한 방법론 상담을 받았음에도 불구하고 100개의 심리학 연구 중 39개만 재현 가능한 것으로 확인됨.
  • 2015년 연방준비제도(Federal Reserve)에서 발행한 연구에 따르면 67개의 경제 연구 결과 중 29개만 재현 가능한 것으로 확인됨.
  • 2018년 재현성 프로젝트에 따르면, 28개의 고전 및 현대 심리학 연구 결과 중 14개만 성공적으로 재현됨.

출처: https://mathscholar.org/2019/04/p-hacking-and-scientific-reproducibility/

필자가 미네소타 대학교 심리학과 대학원생에게 듣은 바로는 하다못해 이젠 아예 유명 심리학 저널들에선 유의 수준 (Significance)이라는 단어에 아예 학을 떼고 논문을 바로 거절해버리는 모양이다.

추가로 읽으면 좋은 글:

http://scienceon.hani.co.kr/540289

[Copyright ⓒ 블로그채널 무단전재 및 재배포 금지]

  1. 역사적인 시장 기록을 이용해 투자 전략을 세우는 방법 [본문으로]