
AI 모델 성능 평가 지표 소개
- AI 모델 성능 평가의 5가지 주요 지표:
- 정확도 (Accuracy)
- 정밀도 (Precision)
- 재현율 (Recall)
- F1 점수 (F1 Score)
- AUC (Area Under the Curve)
- 이 지표들은 분류(Classification) 문제에서 모델의 성능을 평가하는 데 유용하게 사용된다.
기본 용어 정리
- 기본 용어:
- True Positive (TP): 실제 Positive인 데이터를 Positive라고 정확하게 예측한 경우.
- True Negative (TN): 실제 Negative인 데이터를 Negative라고 정확하게 예측한 경우.
- False Positive (FP): 실제 Negative인 데이터를 Positive라고 잘못 예측한 경우 (Type I 오류).
- False Negative (FN): 실제 Positive인 데이터를 Negative라고 잘못 예측한 경우 (Type II 오류).
정확도(Accuracy) 설명
- 정확도 정의: 전체 데이터 중에서 모델이 얼마나 정확하게 예측했는지를 나타내는 지표이다.
- 수식:
- Accuracy = (TP + TN) / (TP + TN + FP + FN)
- 장점:
- 직관적이고 이해하기 쉽다.
- 단점:
- 데이터의 **클래스 불균형(Class Imbalance)**이 심한 경우 성능을 제대로 반영하지 못할 수 있다.
- 예시: 100개의 데이터 중 95개가 Positive이고 5개가 Negative인 경우, 모든 데이터를 Positive라고 예측하는 모델의 정확도는 95%가 되지만, 실제로는 제대로 작동하는 모델이라고 할 수 없다.
정밀도(Precision) 설명
- 정밀도 정의: 모델이 Positive라고 예측한 것 중에서 실제로 Positive인 비율을 나타내는 지표이다.
- 수식:
- Precision = TP / (TP + FP)
- 장점:
- Positive라고 예측한 것의 신뢰도를 나타낸다.
- FP를 줄이는 것이 중요한 경우에 유용하다.
- 예시: 스팸 메일 필터의 경우, 스팸 메일을 정상 메일로 잘못 분류하는 것(FP)보다 정상 메일을 스팸 메일로 잘못 분류하는 것(FN)이 더 큰 문제가 될 수 있다.
- 단점:
- FN을 고려하지 않는다. 실제 Positive인 데이터를 Negative라고 잘못 예측하는 경우에 대한 정보를 제공하지 않는다.
재현율(Recall) 설명
- 재현율 정의: 실제 Positive인 것 중에서 모델이 Positive라고 예측한 비율을 나타내는 지표이다.
- 수식:
- Recall = TP / (TP + FN)
- 장점:
- 실제 Positive인 데이터를 얼마나 잘 찾아내는지를 나타낸다.
- FN을 줄이는 것이 중요한 경우에 유용하다.
- 예시: 암 진단 모델의 경우, 암 환자를 정상으로 잘못 진단하는 것(FN)은 매우 심각한 결과를 초래할 수 있다.
- 단점:
- FP를 고려하지 않는다. Positive라고 잘못 예측하는 경우에 대한 정보를 제공하지 않는다.
F1 점수(F1 Score) 설명
- F1 점수 정의: 정밀도와 재현율의 조화 평균을 나타내는 지표이다.
- 수식:
- F1 Score = 2 * (Precision * Recall) / (Precision + Recall)
- 장점:
- 정밀도와 재현율을 모두 고려하여 모델의 성능을 균형 있게 평가할 수 있다.
- 단점:
- 정밀도와 재현율에 동일한 가중치를 부여한다. 상황에 따라 정밀도나 재현율이 더 중요한 경우가 있을 수 있으므로, 상황에 맞게 평가해야 한다.
AUC(Area Under the Curve) 설명
- AUC 정의: ROC(Receiver Operating Characteristic) 곡선 아래의 면적으로, 모델의 성능을 종합적으로 나타내는 지표이다.
- TPR (True Positive Rate): Recall = TP / (TP + FN)
- FPR (False Positive Rate): FP / (FP + TN)
- 장점:
- 임계값에 관계없이 모델의 전반적인 성능을 평가할 수 있다.
- 클래스 불균형 문제에 강하다.
- 해석:
- AUC 값이 1에 가까울수록 모델의 성능이 우수하며, 0.5에 가까울수록 무작위 예측과 유사한 성능을 나타낸다.
지표 요약 및 활용 팁
- 정확도: 데이터의 클래스 분포가 균등할 때 유용하다.
- 정밀도: FP가 중요한 경우 (예: 스팸 메일 필터).
- 재현율: FN이 중요한 경우 (예: 암 진단).
- F1 점수: 정밀도와 재현율을 균형 있게 고려해야 할 때.
- AUC: 클래스 불균형 데이터나 다양한 임계값에서의 성능을 비교해야 할 때.
- 이러한 지표들을 적절히 활용하여 AI 모델의 성능을 정확하게 평가하고 개선할 수 있다. 여러 지표를 함께 고려하여 모델의 성능을 다각도로 평가하는 것이 중요하다.