본문 바로가기
숫자

3가지 유형의 단순분류기법

by 아이비팝2 2023. 4. 9.

Bayes Theory [그림 출처 : Medium]

1. 단순규칙

모든 예측변수 (X1, X2, ... , Xp)를 배제한 상태에서 어느 한 레코드를 m 개 집단 중의 하나로 분류하는 매우 단순한 규칙은 이 레코드를 규모가 가장 큰 집단에 속하는 것으로 분류하는 것이다. 

일반적으로 단순규칙은 좀 더 복잡한 분류모델의 성과를 평가하기 위한 기준모형으로 사용될 수 있다. 소속집단을 할당하는 것과 더불어 외부의 예측변수를 이용하는 분류모델은 분명히 단순규칙보다는 성과가 높다. 단순규칙에는 다양한 성과측정치들이 존재한다. 이 측정치들은 어떤 분류모델이 단순규칙보다 얼마나 더 좋은 성과를 내는지를 판정한다.

 

2. 단순 베이즈 분류 모델

단순 베이즈(naive Bayes) 분류 모델은 단순규칙보다는 좀 더 정교한 방법이다. 이 방법의 핵심은 좀 더 정확한 분류성과를 얻기 위해 예측변수군에 포함된 정보들을 단순규칙에 결합시키는 것이다. 어떤 집단에 속할 레코드의 확률은 해당 집단의 우세성뿐만 아니라 예측변수 X 의 정보관점에서 그 레코드에 담긴 추가정보를 기본으로 평가되는 것이다.

다른 분류 모델과는 단순 베이즈 분류 모델은 예측변수가 범주형인 경우에만 적용할 수 있다. 따라서 예측변수를 사용하기 전에 예측 변수는 범주형 예측변수로 변환하여 저장하여야 한다. 

단순 베이즈 기법은 데이터 집합이 매우 클 경우 상당히 유리하다. 

1) 조건부 확률과 피봇 테이블

분류문제의 목적은 예측변수군이 주어진 상황에서 각 집단에 속할 확률을 추청하는 것이다. 이러한 확률의 유형은 조건부 확률(conditional probability)이다. 사건 B가 주어졌을 때 사건 A가 일어날 조건부 확률은 오직 사건 B가 발생했다는 상황하에서만 사건 A가 발생할 기회를 말한다. 이는 한 사건에 대해 조건을 두는 것으로 추가적인 정보를 갖는다는 것을 의미하기 때문에 이러한 사건의 불확실성은 조건이 없는 사건의 불확실성과 비교할 때 상대적으로 줄어들게 되어 있다.

예측 변수들이 모두 범주형일 때, 소속집단의 조건부 확률을 추정하기 위해 피봇 테이블을 사용할 수 있다. 피봇 테이블은 모든 예측 변수들과 반응변수를 표로 나타낸 것이다. 

 

2) 단순 베이즈 분류모델의 장단점

단순 베이즈 분류모델은 모델이 단순하고, 계산이 효율적이다. 그리고 분류성과가 좋다는 장점이 있다. 실제로 이 기업은 예측변수의 독립성에 대한 가정이 위배될 때도 적용가능하며 더 정교한 분류모델보다 더 좋은 성과를 내기도 한다. 단순 베이즈 분류모델의 이러한 장점은 특히 예측변수의 개수가 매우 많을 때 발생한다. 그러나 이 기법은 다음과 같은 중요한 사항을 고려해야 한다.

- 단순 베이즈 분류모델은 좋은 성과를 얻기 위해 많은 수의 레코드를 필요로 한다.

- 예측변수의 범주가 학습용 데이터에서 존재하지 않을 경우 단순 베이즈는 이러한 예측 변수의 범주를 갖는 새로운 레코드가 0의 확률값을 갖는다고 가정하게 된다.

- 분석의 목적이 집단을 분류하는 것이거나 또는 어느 특정집단에 속할 확률을 기처해서 레코드의 순위를 정하는 것이라면 단순 베이즈 분류모델은 좋은 성과를 기대할 수 있다. 그러나 그 목적이 실제로는 집단에 속할 확률을 추청하는 것이라면 이 방법은 편향된 결과를 도출한다.

 

3. k-최근접이웃기법

k-최근접이웃기법(k-nearest neighbor, k-NN)의 기본은 분류하고자 하는 새로운 레코드와 유사한 학습용 데이터 집합에 있는 k개의 관찰치를 확인하는 것이다. 그 후 이러한 유사한 레코드들을 사용하여 새로운 레코드의 집단을 이들 이웃한 레코드들 중에서 우세한 집단으로 분류한다. 

k-최근접이웃기법에서 가장 중요한 것은 예측변수값에 기초하여 레코드들 사이의 거리를 어떻게 측정하는가에 있다. 거리를 계산하는 가장 일반적인 방법은 유클리디안 거리이다. 

분류할 레코드와 기존 레코드 간의 거리를 계산한 후에는 인접하는 이웃 레코드들의 집단에 기초하여 분류할 레코드에 소속 집단을 할당하는 규칙이 필요하게 된다. 가장 간단한 것이 k=1이고, 이러한 경우에는 가장 가까운 레코드를 찾아서 새로운 레코드가 가장 가까운 레코드의 소속집단과 같은 집단에 속하는 것으로 분류하게 된다. 레코드를 분류하기 위해서 단 하나의 최근접이웃 레코들을 사용한다는 이 기법은 단순하면서도 직관적인 생각으로 학습용 집합의 레코드가 많을 때 매우 효과적이다. 1-최근접 이웃모델의 오분류 오차는 각 집단의 확률밀도 함수를 정확하게 알고 있다고 가정할 때의 오류보다 크다.

1) k 선택

k > 1 인 경우는 학습용 데이터에 존재하는 잡음으로 인해 k가 큰 값을 가질수혹 발생하는 과적합화 위험을 줄여줄 수 있다. 즉 잡음의 평활화가 나타날 수 있다. 일반적으로 k가 너무 작으면 데이터의 잡음을 적합시킬 수 있다. 그러나 k가 너무 크면 k-NN 알고리즘의 가장 중요한 장점인 데이터의 지역적 구조를 파악할 수 있는 능력이 현저히 떨어지게 된다.

 

2) 정량적 반응 변수를 위한 k-NN

k-NN 알고리즘의 아이디어는 연속형 변수를 예측하는 것으로 이해될 수 있다. 집단을 결정하기 위해 근접 이웃 레코드들의 다수 집단을 선택하는 대신 예측값을 결정하기 위해 k개의 최근접이웃 레코드들의 평균 반응값을 선택한다. 대체로 평균값은 가중평균값이 사용되고 예측이 요구되는 레코드들로부터 거리가 멀어지면 질수록 이들 레코드의 반응값에 대한 가중치는 줄어들게 된다.

3) k-NN 알고리즘의 장단점

k-NN 기법의 주된 장점은 모델의 단순성과 더불어 파라미터에 대한 가정이 거의 없다는 것이다. 충분히 큰 학습용 집합이 존재할 때 이 기법의 성과는 매우 높을 수 있다. 특히 다수의 예측변수값의 조합을 통해 각 집단의 특성이 정해질 때 더욱 그러하다. 

하지만 k-NN 접근방법의 성능을 실제로 활용하는 데는 몇가지 어려움이 존재한다. 회귀모형과 같은 파라미터 기반 모델은 학습용 데이터로부터 파라미터를 추정하기 위해 시간이 필요하지 않지만, 대규모의 학습용 집합에서 최근접 이웃들을 찾는 데는 시간이 매우 많이 필요할 수 있다. 

이러한 어려움은 주성분 분석과 같은 차원축소기법을 이용하여 시간을 줄일 수 있다. 그리고 최근접 이웃을 확인하는 데 걸리는 시간을 빠르게 하기 위해 Decision Tree와 같은 상세한 데이터 구조를 사용할 수도 있다.

 

 

Bayes Theory [그림 출처 : Medium]

'숫자' 카테고리의 다른 글

로지스틱 회귀분석  (0) 2023.04.11
분류와 회귀나무  (1) 2023.04.10
다중 선형 회귀분석  (0) 2023.04.08
분류 및 예측모델의 성과평가  (0) 2023.04.07
데이터 탐색과 차원 축소  (0) 2023.04.06

댓글