본문 바로가기
숫자

판별분석

by 아이비팝2 2023. 4. 13.

선형 판별분석 [그림출처 : Toward-Datascience]

 

1. 개요

판별분석(discriminant analysis)은 분류기법 중의 하나이다. 로지스틱 회귀분석과 같이 분류(classification)와 프로파일링(profiling)에 사용되는 전통적인 통계기법이다. 판별분석은 해당 항목들이 속해있는 각 집단을  분류하기 위해 연속형 변수를 사용한다. 그리고 새로운 항목들에 대해서는 이 집단들 중에서 한 집단에 속하는 것으로 분류한다. 그리고 판별분석은 집단을 구분시켜 주는 요인들을 찾아내기 위한 활동인 프로파일링에 사용되기도 한다.

 

* 프로파일링 (profiling)

예측변수의 관점에서 각 집단 내 관찰치 간의 유사성을 찾거나 집단을 구분시켜 주는 요인을 찾는 활동이다. 예를 들어, 회사가 효과적인 광고를 위해 구매자 대상이 될 만한 집단에 대한 정보수집활동도 프로파일링에 속한다. 주로 로지스틱 회귀분석이나 판별분석 등의 통계적 분류기법을 이용하여 정보수집활동을 수행한다.

 

2. 집단으로부터 관찰치에 이르는 거리

항목들을 가장 잘 분할시키는 분리점(구분점)을 찾기 위해서는 해당 집단과 항목들 간의 거리를 측정한다. 이에 해당하는 가장 일반적인 개념은 각 항목을 해당 항목으로부터 가장 가까운 집단으로 분류하는 것이다. 이러한 경우 유클리디안 거리 법칙(Euclidean distance rule)을 이용하여 예측한다.

단일 변수에서 2개 이상의 변수로 증가하면 집단의 평균을 집단의 중심으로 사용한다. 

유클리디안 측정 방법은 몇가지 단점을 가지고 있다. 첫 번째, 거리측정이 선택변수의 측정 단위에 따라 달라진다. 둘째, 유클리티안 거리는 변수의 변동선을 고려하지 못한다.  따라서, 거리측정 시 다른 변수들의 변동성을 고려할 필요가 있다. 원래 측정단위보다 표준편차로 나눈 표준단위값을 이용하여 거리를 측정해야 한다. 셋째, 유클리디안 거리는 변수들 사이의 상관관계를 무시한다. 이는 특히 많은 변수들을 이용하여 다수의 집단을 분리하려고 할 때 중요한 고려사항이다. 변수들 간의 상관관계가 있는 경우 각 집단 사이를 판별하는 데 유용한 변수들이라 해도 이들 변수들을 함께 사용할 경우 동일한 변수들의 효과가 중복해서 나타날 수 있다.

위와 같은 문제점을 해결하기 위해서는 통계적 거리(Statistical distance) 또는 마할라노비스 거리(Mahalanobis distance)를 사용해야 한다. 

 

3. 피셔의 선형 분류함수

1936년 통계학자 피셔는 관찰치들을 여러 집단으로 분리하는 방법을 개선시키기 위해 선형 분류함수를 제안하였다. 그 개념은 집단 간의 변동성 대 집단 내의 변동성의 비율을 극대화시키는 측정 변수들의 선형 함수를 찾는 것이다. 즉 개별 집단 내에서는 매우 동질적이지만, 다른 집단과 비교할 때에는 가장 큰 차이가 나타나도록 집단을 찾아내는 것이다. 

이러한 분류함수는 개별 관찰치와 각 집단 사이의 근접성을 점수로 계산하기 위해 사용된다. 각 관철치는 가장 높은 분류점수를 가지고 있는 집단에 속한 것으로 분류한다.

 

4. 판별분석의 분류성과

판별분석은 분류점수에 대해서 2가지 중요한 가정이 있다.

첫번째 가정은 모든 집단의 측정치는 다변량 정규분포를 따른다. 이 가정이 무리 없이 충족될 때, 판별분석은 로지스틱 회귀분석 등의 다른 분류기법보다 더 나은 분석도구가 될 수 있다.

판별분석의 두번째 가정은 한 집단 내에서의 측정변수들 간의 상관관계는 다른 집단에서의 측정변수들 사이에서도 동일한 상관관계를 갖는다은 것이다. 이러한 가정은 각 집단별로 변수들 간의 상관계수 행렬을 추정하여 비교함으로써 어느 정도 확인할 수 있다. 만일 집단 사이의 상관관계가 서로 많이 다르다면 이 판별분석은 사계를 판별할 때 분류결과의 변동성이 매우 커지는 경향이 있다. 상관구조가 유의적으로 차이가 나고, 데이터 집합이 매우 클 경우의 해결방안은 2차 판별분석을 이용하는 것이다.

 

5. 판별분석의 장단점

판별분석은 데이터마이닝 기법보다는 통계적 분류방법론으로 분류되는 경향이 있다. 이에 따라 판별분석은 데이터마이닝 논문에서 빠져 있거나 매우 짧게 언급되고 있다. 그러나 판별분석은 매우 일반적인 분석방법이고 좋은 결과를 보여주고 있다. 판별분석은 모델의 적용과 결과 측면에서 다중 선형 회귀분석과 유사하다.

판별분석은 선형 회귀분석처럼 예측변수의 가중치를 최적화시킨다. 선형 회귀분석에서 설명변수의 가중치는 종속변수와의 관계에서 가중치가 결정되는 반면, 판별분석에서는 종속변수의 집단들을 분리시키는 관계에서 가중치가 결정된다.

두 기법은 정규분포에 대한 가정을 하고 있다. 판별분석의 경우 예측변수들은 다변량 정규분포를 따른다고 가정한다.  

판별분석은 계산과정이 간단하다. 특히 작은 데이터 집합에서 유용하게 사용될 수 있다. 

Linear Discriminant Analysis [그림출처 : Medium]

'숫자' 카테고리의 다른 글

군집 분석 (1)  (0) 2023.04.15
연관성 규칙  (0) 2023.04.14
신경망 모델  (0) 2023.04.12
로지스틱 회귀분석  (0) 2023.04.11
분류와 회귀나무  (1) 2023.04.10

댓글