본문 바로가기
카테고리 없음

AI 모델 성능 평가 지표 소개

by 투자의나침반 2025. 3. 8.

AI 모델
AI 모델

AI 모델 성능 평가 지표 소개

  • AI 모델 성능 평가의 5가지 주요 지표:
    1. 정확도 (Accuracy)
    2. 정밀도 (Precision)
    3. 재현율 (Recall)
    4. F1 점수 (F1 Score)
    5. AUC (Area Under the Curve)
  • 이 지표들은 분류(Classification) 문제에서 모델의 성능을 평가하는 데 유용하게 사용된다.

기본 용어 정리

  • 기본 용어:
    • True Positive (TP): 실제 Positive인 데이터를 Positive라고 정확하게 예측한 경우.
    • True Negative (TN): 실제 Negative인 데이터를 Negative라고 정확하게 예측한 경우.
    • False Positive (FP): 실제 Negative인 데이터를 Positive라고 잘못 예측한 경우 (Type I 오류).
    • False Negative (FN): 실제 Positive인 데이터를 Negative라고 잘못 예측한 경우 (Type II 오류).

정확도(Accuracy) 설명

  • 정확도 정의: 전체 데이터 중에서 모델이 얼마나 정확하게 예측했는지를 나타내는 지표이다.
  • 수식:
    • Accuracy = (TP + TN) / (TP + TN + FP + FN)
  • 장점:
    • 직관적이고 이해하기 쉽다.
  • 단점:
    • 데이터의 **클래스 불균형(Class Imbalance)**이 심한 경우 성능을 제대로 반영하지 못할 수 있다.
    • 예시: 100개의 데이터 중 95개가 Positive이고 5개가 Negative인 경우, 모든 데이터를 Positive라고 예측하는 모델의 정확도는 95%가 되지만, 실제로는 제대로 작동하는 모델이라고 할 수 없다.

정밀도(Precision) 설명

  • 정밀도 정의: 모델이 Positive라고 예측한 것 중에서 실제로 Positive인 비율을 나타내는 지표이다.
  • 수식:
    • Precision = TP / (TP + FP)
  • 장점:
    • Positive라고 예측한 것의 신뢰도를 나타낸다.
    • FP를 줄이는 것이 중요한 경우에 유용하다.
    • 예시: 스팸 메일 필터의 경우, 스팸 메일을 정상 메일로 잘못 분류하는 것(FP)보다 정상 메일을 스팸 메일로 잘못 분류하는 것(FN)이 더 큰 문제가 될 수 있다.
  • 단점:
    • FN을 고려하지 않는다. 실제 Positive인 데이터를 Negative라고 잘못 예측하는 경우에 대한 정보를 제공하지 않는다.

재현율(Recall) 설명

  • 재현율 정의: 실제 Positive인 것 중에서 모델이 Positive라고 예측한 비율을 나타내는 지표이다.
  • 수식:
    • Recall = TP / (TP + FN)
  • 장점:
    • 실제 Positive인 데이터를 얼마나 잘 찾아내는지를 나타낸다.
    • FN을 줄이는 것이 중요한 경우에 유용하다.
    • 예시: 암 진단 모델의 경우, 암 환자를 정상으로 잘못 진단하는 것(FN)은 매우 심각한 결과를 초래할 수 있다.
  • 단점:
    • FP를 고려하지 않는다. Positive라고 잘못 예측하는 경우에 대한 정보를 제공하지 않는다.

F1 점수(F1 Score) 설명

  • F1 점수 정의: 정밀도와 재현율의 조화 평균을 나타내는 지표이다.
  • 수식:
    • F1 Score = 2 * (Precision * Recall) / (Precision + Recall)
  • 장점:
    • 정밀도와 재현율을 모두 고려하여 모델의 성능을 균형 있게 평가할 수 있다.
  • 단점:
    • 정밀도와 재현율에 동일한 가중치를 부여한다. 상황에 따라 정밀도나 재현율이 더 중요한 경우가 있을 수 있으므로, 상황에 맞게 평가해야 한다.

AUC(Area Under the Curve) 설명

  • AUC 정의: ROC(Receiver Operating Characteristic) 곡선 아래의 면적으로, 모델의 성능을 종합적으로 나타내는 지표이다.
  • TPR (True Positive Rate): Recall = TP / (TP + FN)
  • FPR (False Positive Rate): FP / (FP + TN)
  • 장점:
    • 임계값에 관계없이 모델의 전반적인 성능을 평가할 수 있다.
    • 클래스 불균형 문제에 강하다.
  • 해석:
    • AUC 값이 1에 가까울수록 모델의 성능이 우수하며, 0.5에 가까울수록 무작위 예측과 유사한 성능을 나타낸다.

지표 요약 및 활용 팁

  • 정확도: 데이터의 클래스 분포가 균등할 때 유용하다.
  • 정밀도: FP가 중요한 경우 (예: 스팸 메일 필터).
  • 재현율: FN이 중요한 경우 (예: 암 진단).
  • F1 점수: 정밀도와 재현율을 균형 있게 고려해야 할 때.
  • AUC: 클래스 불균형 데이터나 다양한 임계값에서의 성능을 비교해야 할 때.
  • 이러한 지표들을 적절히 활용하여 AI 모델의 성능을 정확하게 평가하고 개선할 수 있다. 여러 지표를 함께 고려하여 모델의 성능을 다각도로 평가하는 것이 중요하다.