본문 바로가기
숫자

로지스틱 회귀분석

by 아이비팝2 2023. 4. 11.

Logistic Regression [그림 출처 : wikipedia]

1. 개요

로지스틱 회귀분석(logistic regression)은 기존의 선형회귀분석의 종속변수(Y)를 범주형으로 확장한 것이다. 이 번주형 변수는 관찰치를 집단으로 구분해 주는 변수로 생각하면 된다. 

로지스틱 회귀분석은 하나의 집단에 속하지만 어느 집단인지를 모르는 새로운 관찰치에 대해서 예측변수를 이용하여 특정집단으로 분류하기 위해 사용될 수 있다. 이것은 분류(Classification)라고 한다. 또한 예측변수를 이용하여 각 집단 내의 관찰치들 간의 유사성을 찾기 위해 집단에 대한 정보를 갖고 있는 데이터에서 사용하기도 한다. 이를 프로파일링(profiling)이라 한다.

로지스틱 회귀분석은 다음과 같은 의사결정문제에 사용가능하다.

- 도서의 반납 또는 미납으로 고객 분류 (분류)

- 회사 최고 경영진을 판별하는 요인 찾기 (프로파일링)

 

로지스틱 회귀분석에서는 분석 목적을 단순화시켜서 의사결정이 이분류 형태가 되도록 연속형 데이터나 다수의 범주를 가지는 데이터를 이진 데이터로 변환하는 작업이 일반적으로 수행된다. 다중 선형 회귀분석에서처럼 독립변수 X1, X2, ..., Xk는 범주형 또는 연속형 변수이거나 두 유형을 결합한 형태의 변수이다. 다중 선형 회귀분석의 목적이 새로운 관찰치를 위한 연속형 변수 Y값을 예측하는 것이고, 로지스틱 회귀분석의 목적은 새로운 관찰치가 어떤 집단에 속할 것인지 예측하거나 새로운 관찰치를 하나의 집단으로 단순히 분류하는 데 있다.

 

로지스틱 회귀분석은 2단계의 과정으로 수행된다. 

1단계 : 각 집단에 속하는 확률의 추정치를 계산한다. 이진 변수의 경우 집단 1에 속하는 확률로서 P(Y=1)의 추청 확률을 구한다.

2단계 : 각 관찰치를 어느 한 집단으로 분류하기 이해 이러한 확률값들에 분류기준값(cutoff value)을 적용한다.

 

2. 로지스틱 회귀분석

로지스틱 회귀분석은 다양한 분야에서 사용된다.

이 기법은 특히 범주형(특히 이진형) 출력변수를 설명 또는 예측하기 위한 모델이 필요한 경우에 사용된다.

 

로지스틱 회귀분석의 숨은 개념은 아주 간단하다. 종속변수로 Y를 사용하는 대신 로짓(logit)이라는 함수를 사용한다. 

로짓을 두 단계의 중간과정을 거친다. 집단 0과 반대되는 집단 1에 속하는 확률 p를 구한다. 집단값으로서 오직 0과 1의 값을 갖는 Y와는 대조적으로 p는 [0, 1] 사이 값을 갖는다. 

 

1) 단일 예측 변수를 이용한 로지스틱 회귀분석

하나의 독립변수를 이용한 단순 로지스틱 회귀분석은 단일 독립변수 X와 종속변수 Y의 관계를 직선으로 표현하는 단순 선형 회귀 분석과 유사하다.

로지스틱 회귀분석이 범주형 반응변수의 확률을 예측하기 때문에 예측문제에만 사용된다고 할 수 있겠지만 대부분 분류 문제가 사용된다. 

 

* 분류기준값

일련의 예측변수값이 주어졌을 때, 집단 1에 속하는  각 관찰치의 확률을 예측할 수 있다. 다음 단계에서는 이러한 확률값들의 분류 기준값(cutoff value)을 정하여 각 관찰치를 두 집단 중 하나로 분류한다. 이러한 분류 기준값이 정해지면 분류기준값보다 큰 확률을 가진 관찰치는 집단 1로 분류하고, 그 반대의 경우는 집단 0으로 분류한다.

분류기준값에 따라 여러 상이한 분류 결과가 나타날 수 있다. 이로 인해 다양한 정오분류표(Confusion Matrix)가 도출된다. 이 경우 최적의 분류기준값을 얻기 위해 몇 가지 접근법이 존재한다. 두 집단의 경우 많이 사용되는  분류기준값은 0.5이다. 이론적인 근거는 관찰치의 각 집단의 확률값을 계산하여 가장 높은 확률값을 갖는 집단을 관찰치의 소속집단으로 할당하는 것이다. 이때 전체정확도가 최대가 되도록 분류기준값을 선택한다.

분류기준값을 정할 때의 위험요인은 과적합(over-fitting)문제이다. 정확도를 최대화시킬 수 있는 대안으로는 특이도(specificity)의 수준을 최소화하도록 민감도(sensitivity)를 최대화한다거나 위음성(false negative)의 수준을 최대화하도록 위양성(false positive)을 최소화하는 것 등이 있을 수 있다. 

 

2) 로지스틱 회귀분석의 추정

로지스틱 회귀분석에서는 Y와 베타(beta) 모수(parameter)의 관계는 비선형관계이다. 이러한 이유로 다중 회귀분석의 최소자승법이 아닌, 최대우도법(maximum likelihood method)를 사용하여 베타 모수를 추정한다. 이 개념은 모집단이 갖고 있는 것과 동일한 데이터를 얻을 가능성을 최대화하는 추정치를 찾는 것이다. 최대우도법은 대량 표본하에서 추정치에 대해 좋은 접근성을 보장한다.

다음은 최대우도추정량의 일반적인 특징이다.

- 일치성 (consistent): 표본의 크기가 증가함에 따라 참의 값과 다를 추정확률은 0으로 수렴한다.

- 점근적 효율성 (asymptotically efficient) : 최대 우도 추정량의 분산은 일치추정량 중에서 가능한 최소값을 갖는다.

- 점근적 정규성 분포 (asymptotically normally distributed): 표본 크기가 클수록, 다중 선형 회귀분석과 유사한 방식으로 신뢰구간을 계산하고 통계적인 검증을 할 수 있다.

 

3. 분류성과의 평가

몇가지 성과 측정치 들 중에서 가장 많이 사용되는 성과 측정치는 정오분류표(Confusion Matrix)와 리프트도표(lift chart)가 있다. 다른 분류 모델과 마찬가지로 로지스틱 회귀분석의 목적은 단지 예측변수만을 이용하여 관찰치가 속한 집단을 정확하게 분류하는 것이다. 또한 비록 전체 모델의 정확도가 다소 낮아진다고 해도 특별히 관심을 갖는 집단에 속하는 관찰치를 찾아내는 데 뛰어난 능력을 보이는 모델을 찾는 것이다.

 

4. 전체 적합도 평가

다중 선형 회귀분석에서처럼 각 예측 변수를 살펴보기 이전에 먼저 데이터에 대한 모델의 전체 적합도를 평가한다. 해당 모델이 각 집단의 차이를 설명하는 단순모델보다 더 좋은 성과를 나타내는 예측변수를 포함하는지를 살펴본다.

학습용 데이터의 정오분류표와 리프트 도표는 모델이 데이터를 얼마나 정확하게 분류하는지를 보여준다. 만약 모델이 데이터에 대해 잘 적합되면, 실제집단에서 데이터를 정확하게 분류할 수 있을 것이라 예상할 수 있다. 그러나 정오분류표와 리프트 도표는 미래의 성과 측정치를 제공해 주지 못한다. 학습용 집합의 정오분류표와 리프트 도표는 과적합문제와 데이터 입력오류 또는 작업데이터의 잘못된 선택 등으로 인해 발생하는 기술적 문제를 발견하는 용도로 사용한다.

Regression Analysis [그림 출처 : Analytic Vidhya]

'숫자' 카테고리의 다른 글

판별분석  (0) 2023.04.13
신경망 모델  (0) 2023.04.12
분류와 회귀나무  (1) 2023.04.10
3가지 유형의 단순분류기법  (0) 2023.04.09
다중 선형 회귀분석  (0) 2023.04.08

댓글