1. 분류모델의 성과 평가
1) 분류정확도
분류모형의 성과를 판단하는 가장 기본적인 기준은 오분류 오차(mis-classification error)의 확률이다. 오분류(mis-classisfication)란 관찰치가 어느 한 집단에 속하지만, 모델은 그 관찰치를 다른 집단에 소속된 관찰치로 잘못 분류하는 것이다. 오류가 없는 분류모델은 완전하지만 현실세계에서는 그러한 분류모델의 구축은 정말 어렵다. 그 이유는 현실세계의 데이터는 '잡음(Noise)'이 존재하고 모든 사례를 정밀하게 분류하기 위해서는 필요한 모든 정보를 가지고 있어야 하지만 현실은 그렇지 않기 때문이다.
분류모델은 모든 것을 가장 우세한 집단에 속하는 것으로 분류하는 단순 규칙(naive rule)보다는 최소한 나은 분류를 해야 한다. 이러한 단순 규칙은 예측 변수의 정보를 포함시키지 않고도 단순히 각 집단에 속한 항목의 비율에 의해 결정된다.
대부분의 분류정확도(Accuracy Measures)는 정오분류표(Confusion Matrix)에 의해 측정된다. 정오분류표는 분류 모델이 특정 데이터 집합에 의해 수행한 정분류와 오분류의 요약정보를 보여주며, 정오분류표의 행과 열은 각각 실제집단와 예측집단에 대응된다.
대각선상의 2개의 칸(True Negative, True Positive)은 실제집단과 예측집단을 대앙시킨 결과로 나타난 정분류의 관찰치 개수를 보여준다. 대각선 밖의 칸들은 오분류 정보를 나타낸다.
분류행렬표는 정분류율과 오분류율의 추정치를 보여준다. 물론 이러한 값들은 정확한 추정치는 아니지만, 충분히 큰 데이터 집합을 가지고 있고 어떠한 집단도 작지 않다면 이 추청지는 충분히 신뢰할 만하다.
2) 분류기준값
대부분의 데이터마이닝 알고리즘은 두 단계에 걸쳐 사례를 분류한다. 먼저 집단 1에 속할 확률을 추정하고 나서, 이 확률값과 분류기준값(cutoff value)을 서로 비교한다. 확률값이 분류기준값(cutoff value)보다 큰 경우 그 사례는 집단 1에 속한다고 하고, 그렇지 않을 경우는 집단 0으로 분류한다. 3개 이상의 집단의 경우에는 그 사례가 가장 높은 확률을 갖는 집단에 해당 사례를 할당한다.
두 집단을 분류하는 모델의 기본 분류기준값은 0.5 이다. (모든 경우의 확률 합은 1 이고, 이를 같은 비율로 나누면 0.5 가 된다.) 따라서 한 레코드가 집단 1에 속할 확률이 0.5 보다 크면, 그 레코드는 집단 1에 속하는 것으로 분류한다. 이와는 반대로 추정된 확률이 0.5보다 작을 경우는 집단 0으로 분류한다.
분류기준값은 0.5보다 크거나 작은 값으로도 사용할 수 있다. 분류기준값을 0.5보다 크게 설정할 경우 집단 1로 분류되는 레코드의 개수는 줄어들 수 있고, 분류기준값을 0.5보다 작게 할 경우는 집단 1로 분류되는 레코드의 개수가 늘어날 수 있다.
3) 집단의 중요도가 불균등한 경우의 성과평가
C-0 집단을 정확하게 예측하는 것이 C-1 집단을 예측하는 것보다 더 중요한 경우로서, 두 집단의 중요도는 같지 않은 상황이다. 이러한 상황에서는 전체 정확도는 분류모델을 평가하기 위한 좋은 측정치가 아니다.
중요한 집단이 C-0 이라고 가정했을 때, 불균등한 경우에 대한 성과 측정치는 다음과 같다.
a. 분류모델의 민감도 (Sensitivity) : 실제 C-0 집단을 C-0 집단으로 분류할 확률, True Positive Rate 라고 한다.
b. 분류모델의 특이도 (Specificity) : 실제 C-1 집단을 C-1 집단으로 분류할 확률, True Negative Rate 라고 한다.
c. 위양성률(False Positive Rate) : C-1 집단을 C-0 집단으로 잘못 분류한 레코드의 비율
d. 위음성률(False Negative Rate) : C-0 집단을 C-1 집단으로 잘못 분류한 레코드의 비율
2. 예측모델의 성과 평가
반응변수가 연속형 변수일 경우, 모델의 성과평가는 범주형 반응변수를 찾는 분류모델과는 조금 다르다. 예측 정확도는 적합도(Goodness of Fit)와는 다르다. 전통적인 성과측정치의 목적은 데이터를 잘 적합화시키는 모형을 찾는 것인 반면, 데이터마이닝에서는 높은 예측정확도를 갖는 모델에 관심을 갖는다. R^2 와 추정치의 표준오차와 같은 측정치는 데이터에 적합한 모델을 찾는 것이 목적인 전통적 회귀모델 구축에 매우 일반적인 적합도 측정치이다. 그러나 이러한 측정치들은 새로운 사례들을 예측할 수 있는 모델의 성능을 알려주지 않는다. 예측성과에 대해서는 회귀모델의 예측정확도를 평가하는 데 사용되는 몇가지 측정치들이 있다.
a. 평균절대오처 (MAE 또는 MAD : mean absolute error / deviation)
b. 평균오차 (Average Error) : 예측결과가 평균적으로 반응변수를 과대예측하는지 또는 과소예측하는지 알려줌
c. 평균절대비율오처 (MAPE : mean absolute percentage erro) : 예측결과가 평균적으로 얼마나 실제값에서 벗어나 있는지를 백분율 점수로 나타냄
d. 평균제곱오차의 제곱근 (RMSE : root-mean-squared error) : 평가용 데이터에서 계산됨.
e. 제곱오차의 총합계 (TSS 또는 SSE : total sum of squared error)
이상의 측정치들은 모델들을 비교하고 예측정확도의 정도를 평가하기 위해 사용된다. 이 보든 평가측정치들은 극단치(Outlier)의 영향을 받는다. 극단치(Outlier)의 영향을 검토하기 위해서는 중앙값과 같은 측정치를 이용하여 평균값과 비교하거나 히스토그램 또는 오차의 박스플롯 같은 것으로 작성할 수 있다.
'숫자' 카테고리의 다른 글
3가지 유형의 단순분류기법 (0) | 2023.04.09 |
---|---|
다중 선형 회귀분석 (0) | 2023.04.08 |
데이터 탐색과 차원 축소 (0) | 2023.04.06 |
데이터마이닝 소프트웨어 (0) | 2023.04.05 |
데이터마이닝 예비 단계 (0) | 2023.04.04 |
댓글