Cohen's kappa
- the kappa as a measure of agreement between 2 individuals
- the kappa statistic is a measure of how closely the instances classified by the machine learning classifier matched the data labeled as ground truth
- Kappa = (observed accuracy - expected accuracy)/(1 - expected accuracy)
- 대략 0.75 이상이면 훌륭하고, 0.4 이상만 되도 우수하다고 볼 수 있다고 함.
- Kappa is an important measure of classifier performance, especially on imbalanced data set.
- it measures how much better the classier is comparing with guessing with the target distribution.
- 데이터 집합이 밸런스가 맞지 않을 경우, 대충 찍어서 맞추어도 성능(정확도)이 좋은 것으로 나오는 상황에 대한 대응을 하는 차원에서의 평가지표로 이용된다고 볼 수 있음.
Case Study
특정 이벤트를 Positive class로 전제할 때, ...
- 서비스 도메인의 특징: (이벤트 신호를 놓치더라도 다시 이벤트 신호를 살펴볼 기회가 있는 상황에서는) 실제 정상 신호를 이벤트라고 판단하는 것(FPR, 거짓긍정률)을 막는 게 양치기 소년 효과를 막기 위해서 더 중요함. 따라서, 현실적으로는 Specificity (참 부정률)이 높아져야 함. 즉, 실제 정상이면 정상이라고 판단해야지, 이벤트로 오판하면 시스템 전체의 신뢰도가 무너질 수 있음.
- 물론, 이론적으로는 실제 이벤트를 이벤트라고 판단(리콜=민감도=참 긍정률)하고, 이베트라고 예측했을 때 이벤트가 정말 맞을 확률(정밀도)가 높은게 이벤트를 잘 맞춘다는 평가치(=F1 기준)가 될 것임.
- 참 긍정률 TPR = Sensitivity(민감도) = Recall(재현율) ; 실제 이벤트를 얼마나 잘 구별했나? (실제의 전체 이벤트 중에서 이벤트가 일어났음을 정확히 판단할 확률)
- 참 부정률 TNR = Specificity(특이도) ; Normal을 얼마나 잘 구별했나? (실제 전체의 정상 신호 중에서 정상이라고 정확히 판단할 확률)
- 예시: 어떤 검사방법의 적합성을 평가하는 방법으로 민감성과 특이성의 개념을 사용할 때,
- 민감성이란 (전체 질병을 가진 사람 중에서, 실제) 질병이 있는 사람을 양성(질병이 있다고)으로 검출하는 능력. 즉 A/(A+B)
- 특이성이란 (전체 질병이 없는 사람 중에서, 실제) 질병이 없는 사람을 음성(질병이 없다고)으로 검출하는 능력. 즉 Y/(X+Y)
- Kappa ; 우연에 의하지 않은 관찰된 일치율 / 우연에 의하지 않은 최대 일치율 ; 0.8 이상이면 좋다고 함.
- F-Score: Precision과 Recall의 조화평균 = 2*(Precision*Recall)/(Precision+Recall)
- 정확도 Accuracy ; 전체 데이터 중에서 정확히 맞춘 것만 따지기.
- 정밀도 Precision ; 이벤트라고 예측된 것 중에 진짜 이벤트가 들어있을 확률
- Precision과 Recall을 재미있게 설명한 블로그 (2016.06)
- 전체 선물로 받은 것 중에서 정확히 기억한 것의 비율 = recall = sensitivity
- (실제로는 10개를 선물 받았었는데) 무언가 기억해낸 5개 중에서, 3개가 정확할 경우의 recall = 3/10 = 30%
- --> 전체 10개 중에서 몇 개나 기억해냈는가
- 기억해 낸 것 중에서 정확하게 기억해 낸 것의 비율 = precision
- (실제로는 10개를 선물 받았었는데) 무언가 기억해낸 5개 중에서, 3개가 정확할 경우의 precision = 3/5 = 60%
- 이 때의 5개는 선물 받았다고 추정해 낸 Postive 추정값.
- --> 내가 기억해 낸(예측한) 정밀도가 어떠한가
댓글 없음:
댓글 쓰기