본문 바로가기

Data Analysis/Statistic Analysis

모델 성능 평가 / Accuracy vs Precision, and Recall

Accuracy, Precision, Recall은 머신러닝의 분류 모델(Classification Model)의 Distance Metric이다. 그 중 분석 결과를 해석할 때, Accuracy와 Precison의 개념은 자주 헷갈린다. Distance Metric을 명확히 알고 있어야 해석이 쉬워진다. 해석이 쉽다기 보다는, 필수적이다.

 

쉽게 접근하는 Distance Metric 개념 설명

  • 정확도(Accuracy): 측정값이 목표치(참 값)와 가까운 정도. 전체 정답률.
  • 정밀도(Precision): 측정을 반복했을 때, 측정값들 간에 가까운 분포 정도. 측정의 재현성의 정도. Positive 정답률.

정확도(Accuracy)와 정밀도(Precision)는 통계학에서는 타당도(Validity), 신뢰도(Reliability)라는 용어로 사용된다.  아래 그림으로 보면 조금 더 직관적이다.

빨간색 과녁의 중앙이 목표치라면, 검정색은 측정값이다. 빨간색 과녁의 중앙에서 검정색 측정치의 거리가 가까울수록 정확도(Accuracy)가 높고 타당도(Validity)가 높다. 빨간색 과녁의 중앙과의 거리와는 관계없이 검정색 측정치끼리의 거리가 오밀조밀 모여있을수록 정밀도(Precision)이 높고 신뢰도(Reliability)가 높다. 

 

 


통계학적인 관점에서의 Distance Metric 개념 설명

조금 통계학적인 관점에서 Recall을 포함한 세가지 개념을 설명해보겠다. 직관도 좋지만, 모델 결과를 해석할 때, 계속해서 등장하는 개념이므로 정확한 해석을 하고 모델을 선택할 수 있도록 개념을 명료하게 알아야 한다. 아래는 Y가 이진일 때의 confustion matrix이다. 

    실제 정답
    True False
분류 결과 True True Positive False Positive
False False Negative True Negative

표. Confusion Matrix

 

True Positive (TP) : 실제 True인 정답을 True라고 예측 (정답)

False Positive (FP) : 실제 False인 정답을 True라고 예측 (오답)

False Negative (FN) : 실제 True인 정답을 False라고 예측 (오답)

True Negative (TN) : 실제 False인 정답을 False라고 예측 (정답)

 

정확도 ( Accuracy ) = ( TP + TN ) / ( TP + FN + FP + TN ) : True를 True라고 예측하고, False를 False라고 예측한 것들의 비율

정밀도 ( Precision ) = TP / ( TP + FP ) : 모델이 True라고 분류한 것 중에서 실제 True인 것들의 비율

재현율 ( Recall ) = TP / ( TP + FN ) : 실제 True인 것들 중에서 모델이 True라고 예측한 것들의 비율

 

Precision과 Recall은 모두 실제 True인 정답을 모델이 True라고 예측한 경우에 대해 관심이 있으나, 모델 관점에서(Precision) 접근했느냐, 실제 True인 데이터 관점에서(Recall) 접근했느냐에 대한 차이만 있다. Precision과 Recall은 서로 상호 보완적이며, 두 지표 모두 높을 수록 좋은 모델이다. 하지만, 가설 검증의 Type 1 Error, Type 2 Error 를 설정하는 관점에서 봤을 때, 두 지표는 서로 Trade - Off 관계이다. 따라서 동일 모델에 대해서 Critical Region의 설정에 따라 두 지표를  동시에 높일 수 있는 방법은 없다. 모델 해석 시 두 지표를 조금 더 높게 가지고 싶다면, 결국 모델을 수정해야 하는 것이다. 한편, 재현율은 통계학에서 Sensitivity, 그리고 nDCG에서는 hit rate로 많이 표현된다. 

 

 

어떤 지표를 선택할 것인가

실제 데이터가 어떻게 구성되었느냐에 따라, 모델 성능 평가 지표를 다르게 선택한다. Accuracy만이 아닌 Precision, Recall까지 고려를 해서 만들어놓은 메트릭을 많이 사용하는 편이다. F1-Score 는 Precision과 Recall의 조화평균으로, 둘 중 하나만 낮게 나와도 값이 낮게 나온다. 따라서 모델의 목표에 따라 성능 평가 지표를 잘 선택하는 것이 중요하다.