군더더기 없는 기계학습 백과사전

민감도(Sensitivity)와 특이도(Specificity) 본문

Machine Learning/통계이론 훑어보기

민감도(Sensitivity)와 특이도(Specificity)

Jay김 2020. 8. 15. 16:56

혼동 행렬을 완성하면 두 가지 지표를 계산할 수 있다. 

민감도(Sensitivity)

우리의 예에서 민감도는 실제로 심장 질환이 있는 사람 중에 올바르게 분류된 사람들의 비율이다.

이는 곧 참 양성과 거짓 음성으로 분류된 개체 중 참 양성의 비율을 뜻한다.

특이도(Specificity)

우리의 예에서 특이도는 실제로 심장 질환이 없는 사람 중에 올바르게 분류된 사람들의 비율이다.

이는 곧 거짓 양성과 참 음성으로 분류된 개체 중 참 음성의 비율을 뜻한다.

예시

앞의 글에서 만들었던 혼동 행렬을 가져와보자. 해당 혼동 행렬은 랜덤 포레스트를 환자 데이터에 적용해 얻은 혼동 행렬이다.

앞서 정의한대로 민감도와 특이도를 구하면 각각 142/(142+29) = 0.83와 110/(22+110) ≒ 0.83.이다. 이는 곧 심장 질환이 있는 사람중 83%가 제대로 분류되었고, 심장 질환이 없는 사람중 대략 83%가 랜덤 포레스트 알고리즘에 의해 제대로 분류되었음을 의미한다.

마찬가지로 K 최근접이웃의 알고리즘의 혼동 행렬을 이용해 민감도와 특이도를 구하면 대략 0.63 과 0.60이다.

그럼 랜덤 포레스트와 K 최근접이웃 알고리즘의 성능 비교를 해보자. 민감도와 특이도에서 둘 다 램덤 포레스트가 앞선다. 이는 심장 질환이 있는 양성 개체와 심장 질환이 있는 음성 개체들을 상대로 램덤 포레스트가 더 분류를 잘함을 의미한다. 그러나 항상 이렇게 두 수치에서 동시에 우위가 있지는 않다. 애초에 단순히 혼동 행렬뿐만 아니라 민감도와 특이도를 더해서 사용하는 이유도 더 정교한 비교를 하기 위해서이다.

StatQuest. “Machine Learning Fundamentals: Sensitivity and Specificity”  YouTube,  Joshua Starmer, 15 Aug. 2020, https://www.youtube.com/watch?v=vP06aMoz4v8

예를 들어 로지스틱 회귀분석을 해서 민감도와 특이도가 각각 0.81과 0.85가 나왔다고 하자. 그렇다면 무슨 기준으로 알고리즘을 선택해야 할까? 이에 따르면 랜덤 포레스트가 심장 질환이 있는 사람을 분류하는데 좀 더 우세를 보이고 로지스틱 회귀분석이 심장 질환이 없는 사람을 분류하는데 좀 더 우세를 보인다. 만약 우리에게 심장 질환이 있는 (양성 개체) 사람을 찾아내는게 더 중요하다면 랜덤 포레스트를 사용할 것이고, 그 반대라면 (음성 개체) 로지스틱 회귀분석을 사용할 것이다.

그럼 이제 3x3 혼동 행렬에서 민감도와 특이도를 어떻게 계산하는지 다뤄보겠다. 2x2 보다 큰 혼동 행렬에 대해선 혼동 행렬 전체에 대해 적용되는 수치가 존재하지 않는다. 대신 각 개체에 대해서 따로 계산해야 한다. 그러니까 앞의 글에서 만들었던 UBD, 엑스맨, R2B에 대한 선호도 예측을 정리한 혼동 행렬에서 각각 따로 민감도와 특이도를 계산해야 한다.

일단 UBD에 대하여 민감도를 계산해보자. UBD를 선호할 것으로 올바르게 예측된 관객은 총 12명이다. 이들은 참 양성(True Positive)에 해당된다. 이와 다르게 실제로는 UBD를 선호하지만 엑스맨과 R2B를 선호할 것이라고 예측된 관객은 총 112+83 = 195 명이다. 따라서 민감도는 12 / (12 + 195) = 0.06이다. UBD에 대한 민감도는 엑스맨과 R2B보다 UBD를 선호하는 관객 중 단 6%가 올바르게 분류되었음을 의미한다.

이게 UBD에 대하여 특이도를 계산해보자. 총 23 + 77 + 92+ 17 = 209명의 참 음성이 존재한다. 엑스맨과 R2B를 UBD보다 선호할 것이라고 올바르게 분류된 관객들이다. 총 102 + 93 = 195명의 거짓 양성이 존재한다. 실제로는 엑스맨과 R2B를 UBD보다 선호하지만 UBD를 선호할 것이라고 예측된 관객들이다. 따라서 특이도는 209 / (209 + 195) = 0.52이다. UBD에 대한 특이도는 엑스맨과 R2B를 UBD보다 선호하는 관객들 중 52%가 올바르게 분류되었음을 의미한다.

이 계산법은 엑스맨과 R2B에 대해서도 마찬가지로 적용된다. 직접 계산해보고 다음 답을 확인해보기 바란다.

답:

더보기

엑스맨 민감도: 0.11, 특이도: 0.52

R2B 민감도: 0.09, 특이도: 0.59

 

[Copyright ⓒ 블로그채널 무단전재 및 재배포 금지]

Comments