일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 인공지능 겨울
- Bayes Theorem
- Stack
- 확률
- p-value
- p 값
- AI Winter
- 인공지능
- 인공신경망
- 퍼셉트론
- Neural Network
- 딥러닝
- 편향
- 컴퓨터 조립
- 분산분석
- 컴퓨터
- 30 Day Challenge
- 조건부 확률
- Bayes Rule
- 베이즈 정리
- 통계
- ANOVA
- LeetCode
- 심층학습
- knn
- AI
- Today
- Total
군더더기 없는 기계학습 백과사전
베이즈의 정리 (Bayes Rule) 예제 풀이 본문
확률 이론 혹은 수리통계학을 접하는 분들은 반드시 베이즈 정리를 접하게 된다. 영어로는 Bayes Rule 혹은 Bayes' Theorem이라고 부르기도 한다. 그러나 인터뷰 문제에서 만약 해당 이론을 간접적으로 접하게 된다면 단순히 수식을 풀어서 증명하는 것을 이해하는 정도로는 그쳐서는 안 될 것이다. 여러분의 이해를 돕기 위해 한 가지 사용 예시를 써본다.
온라인에서 많이 접하게 되는 베이즈 정리에 대한 이해가 요구되는 기출 문제다. 데이터 과학자 전화 인터뷰에서 자주 나오는 문제였다는데 아직도 비슷한 문제는 나오고 있을 것이라고 믿는다. 살짝 문장이 애매모호해 다양한 진지한 분석들을 봤다. 가장 단순한 풀이부터 제일 복잡한 풀이까지 천천히 접해보자.
당신은 지금 시애틀행 비행기를 기다리고 있다. 시간을 때우기 위해 당신은 시애틀에 사는 3명의 친구에게 전화를 건다. 각각의 친구에게 당신은 현재 시애틀에서 비가 오는지 묻는다.
3명 모두 "비가 오고 있다"라고 답한다.
3명의 친구는 모두 동일하게 1/3의 확률로 거짓말을 하고 2/3의 확률로 진실을 말한다.
지금 시애틀에 정말로 비가 오고 있을 확률은 얼마인가?
"뭐 이딴 친구가 다 있어?" 싶겠지만 문제풀이로 들어가보자. 현재 필자가 찾아본 바 이 문제가 물어보는 바에 대해서 온라인에는 3가지 해석이 존재한다.
1. 지금 셋 다 진실을 말하고 있을 확률은 무엇인가?
세 친구의 발언이 독립 사건이라는 가정 하에 많은 사람들이 처음에 다음과 같이 답변을 했을 것이라고 생각한다.
$$\frac{2}{3} \times \frac{2}{3} \times \frac{2}{3} = \frac{8}{27}$$
다음과 같은 답변을 한 사람들은 십중팔구로 전화 인터뷰 이후로 아무런 연락이 없었다고 한다. (...)
엄밀히 따지자면 우린 지금 저 셋이 전부 진실을 말하고 있는지 거짓말을 말하고 있는지 모르고, 셋이 거짓말을 하든 말든 지금 시애틀에서 진짜로 비가 오는지에 대한 확률을 반영하지는 못하기 때문이라고 생각한다.
2. 최소한 한 명이 진실을 말하고 있을 확률은 무엇인가?
"최소한 한명이 진실을 말할 확률은 곧 시애틀에 진짜로 비가 오고 있을 확률이다, "라는 생각에서 발생하는 풀이이다. 풀이는 간단하다. 전체 확률 공간에서 셋 다 거짓말을 하고 있을 확률을 빼면 된다.
$$1-\frac{1}{3} \times \frac{1}{3} \times \frac{1}{3} = \frac{26}{27}$$
이 답변 또한 엄밀히 말하자면 문제의 본질을 살짝 회피하는 경향이 보인다.
3. 셋 다 동일한 "그렇다" 답변을 했다는 사실이 주어졌을 때 시애틀에서 비가 오고 있을 확률은 얼마인가?
베이즈 정리가 잘 기억이 나지 않는가? 우리가 확실히 알고 있는 몇 가지 식부터 확인하고 다시 차근차근 떠올려보자.
베이즈 정리 복습
일단 조건부 확률의 정의부터 떠올려보자. 독립 사건이 아닌 사건 $A, B$가 주어졌다고 해보자.
$$P(A|B) = \frac{P(A \cap B)}{P(B)}$$
해당 식에서 우린 다음 공식을 구할 수 있다.
$$P(A|B)P(B) = P(A \cap B)$$
사건 $B$ 에도 똑같이 적용시켜 우리는 다음과 같은 관계를 성립시킬 수 있다.
$$P(A|B)P(B) = P(A \cap B) = P(B|A)P(A)$$
여기에서 우리는 베이즈 정리를 정리하는 공식을 유도해 낼 수 있다.
$$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$$
여기서 한 발자국 더 나아가면 다음과 같은 공식을 구할 수 있다. 이게 우리가 사용하고자 하는 공식이다. $P(A^c)$는 $P(A)$의 여집합을 뜻한다. 그러니까 $P(A^c) = 1-P(A).$
$$P(A|B) = \frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|A^c)P(A^c)}$$
잠깐만. 분모가 이해가 되지 않는 분들이 있다면, 하나씩 $P(B|A)P(A) = P(A \cap B)$라는 사실을 떠올린 뒤 벤 다이어그램을 그려 정말 $P(B)$인지 아닌지 확인해보자. 엄밀히 따지자면 정식 증명이 아니지만 말이다.
문제풀이
몇 가지 확률을 정의해보자.
$P({y,y,y})$: 셋 다 "그렇다"라고 답변할 확률을 뜻한다.
$P(R)$: 시애틀에서 비가 올 확률을 말한다. 우리는 이 수치를 모른다.
그럼 우리가 구하고자 하는 확률은 다음과 같다.
$$P(R|y,y,y) = \frac{P(y,y,y|R)P(R)}{P(y,y,y|R)P(R) + P(y,y,y|R^c)P(R^c)} \quad (1)$$
부위별로 나누어 이해해보자.
$P(y,y,y|R)$: 비가 올 때 셋 다 "그렇다" 답할 확률을 말한다. 그러니까 셋 다 진실을 말할 확률이 된다. 첫 번째 풀이에 따르면 8/27이다
$P(y,y,y|R^c)$: 비가 안 올 때 셋 다 "그렇다" 답할 확률을 말한다. 그러니까 셋 다 거짓을 말할 확률이 된다. 이는 두 번째 풀이에 따르면 1/27이다.
그럼 이제 $(1)$에 위의 두 확률 값을 대입해 다음과 같이 해답을 구할 수 있다. 해당 공식은 공약수로 분자 분모 나눠서 약분을 한 상태다.
$$P(R|y,y,y) = \frac{8P(R)}{8P(R) + P(R^c)}$$
$$P(R|y,y,y) = \frac{P(R)}{P(R) + P(R^c)/8}$$
이쯤 되면 뭔가 의문점이 들 것이다. $P(R)$을 모르는데 답을 어떻게 구해? 필자가 들은 바에 의하면 해당 사실을 언급하면 인터뷰하는 사람이 사전 분포가 필요하다고 말하면 알려준다고 한다. (...)
이제 베이즈 정리 사용에 좀 더 익숙해졌길 바란다.
[Copyright ⓒ 블로그채널 무단전재 및 재배포 금지]
'Machine Learning > 통계이론 훑어보기' 카테고리의 다른 글
교차검증(Cross Validation)이란 (0) | 2020.08.10 |
---|---|
통계 표본이 커진다고 편향이 작아질까? (0) | 2020.07.08 |
조건부 확률을 파이썬에서 사용해보자 (0) | 2020.05.02 |
분산분석(ANOVA)에서 분산을 보는 이유 (0) | 2020.04.21 |
P 값 (P-value)의 직관적인 이해를 위한 요약글 (0) | 2020.04.18 |