1. 개요
예측에 사용되는 가장 일반적인 모델은 다중 선형 회귀분석(multiple linear regression model)이다. 이 모델은 정량적인 종속변수(dependent variable : 출력변수) Y와 예측변수(predictor : 독립변수, 입력변수)군 X1, X2, ..., Xp 사이의 선형관계를 적합시키기 위해 사용된다. 다중 선형 회귀분석은 분석대상인 모집단에서 다음과 같은 관계가 있다고 가정한다.
Y = b0 + b1X1 + b2X2 + ... + bpXp + e
여기서 b0, b1, ..., bp는 회귀계수(coefficient)이고 e는 잔차(residual) 또는 잡읍(noise)으로서 회귀계수에 의해 설명되지 않는다. 회귀계수와 잔차의 변동성을 추정하기 위해서는 일반적으로 모집단의 표본데이터(Sample)를 사용한다.
정량적인 출력변수와 예측변수들 사이의 관계를 적합시키는 선형 회귀분석의 2가지 주된 목적은 이들 사이의 관계를 설명하거나 새로운 사례에 대해 출력값을 예측하는데 있다. 전통적인 통계적 접근방법은 첫 번째 목적(출력변수와 예측변수들 사이의 관계를 설명하는 것)에 초점을 두어왔다. 즉, 모집단에 내재된 인과관계를 이해하기 위해서 데이터를 가장 좋은 모델에 적합시키는 것이다. 그러나 데이터마이닝은 일반적으로 두번째 목적(새로운 사례에 대해 출력값을 예측)에 초점을 둔다. 두 접근 방법 사이의 중요한 차이점은 다음과 같은 이유에 근거한다.
- 전통적인 통계영역 : 제한된 데이터로부터 결론을 이끌어내고 그 결론이 얼마나 신뢰할 만한가에 중점을 두고 있다.
- 데이터마이닝 : 데이터가 일반적으로 풍부하기 때문에 모델에 대한 성과와 신뢰성은 새로운 데이터를 모델에 적용함으로써 쉽게 증명될 수 있다.
2. 설명모델 vs 예측모델의 구축
설명모델(explanatory model)과 예측모델(predictive model)의 구축은 모두 하나의 데이터집합을 이용하여 모델을 적합시킨 후, 모델의 타당성을 체크하고 모델의 성과를 평가하기 위해 새로운 데이터를 사용한다. 이러한 평가를 수행 후 다른 모델들과 비교하는 과정을 거친다. 그러나 두 모델에는 다음과 같이 몇 가지 차이점이 있다.
1) 좋은 설명모델은 데이터를 가까이 적합시키는 모델을 의미한다. 좋은 예측모델은 새로운 사례를 정확하게 예측하는 모델을 의미한다.
2) 설명모델(전통적인 통계분야로서 데이터가 적은 모델)의 경우 최상의 적합모델을 추정하기 위해서는 모집단에서 가정하는 가설적 관계에 대한 정보를 최대한 반영할 수 있도록 전체 데이터 집합을 사용한다. 예측모델인 경우(데이터마이닝 분야로서 데이터가 충분한 모델) 데이터는 일반적으로 학습용 집합과 평가용 집합으로 나뉘어 사용된다.
3) 설명모델을 위한 성과 측청은 데이터가 모델에 얼마나 근접해 있는지를, 모델이 데이터를 얼마나 잘 추정하고 있는지를 측정한다. 반면, 예측모델의 성과측정은 예측정확도, 모델이 얼마나 새로운 사례를 잘 예측하고 있는지에 의해 측정된다.
이러한 이유로 모델링 과정 시작 이전에 분석의 목적을 확실하에 인지하는 것이 매우 중요하다.
3. 회귀 방정식의 추정과 예측
회귀계수 b0, b1, b2, ..., bp와 잡음(e) 은 관심대상 모집단에서 변수 간의 관계를 결정한다. 모집단으로부터 하나의 표본을 사용하기 때문에 이 계수들은 알려져 있지 않다. 따라서 통상적으로 최소제곱법(Ordinary least squares)을 이용하여 데이터로부터 이 계수들을 추정한다. 이 방법은 실제값(Y)과 모델에 의해 예측된 값(Y-hat) 간의 차이의 제곱을 합한 후 그 값을 최소하하는 b0-hat, b1-hat, ... bp-hat 값을 찾는다.
4. 선형 회귀분석의 변수선정
1) 예측변수의 개수 줄이기
데이터마이닝에서 자주 발생하는 문제는 종속변수의 값을 예측하기 위해 회귀모델을 사용하는 경우 모델에 예측변수로 사용할 수 잇는 변수들이 많이 존재한다는 것이다. 다중 선형 회귀분석의 계산을 위해 빠른 연산능력을 갖춘 최신 알고리즘이 적용되는 상황에서 모델이 모든 변수들을 사용하려는 경향이 나타날 수 있다. 그러나 이는 바람직하지 못하고, 그 이유는 다음과 같다.
- 미래 예측을 위해 모든 보완적인 예측변수들을 포함하는 것은 비용부탐이 커지거나 실행불가능할 수 있다.
- 더 적은 개수의 예측변수들이 더 정확하게 측정될 수 있다.
- 예측변수가 많으면 많을소록 데이터에 결측치(Outlier) 발생가능성이 더 높아진다. 만역 결측치를 갖는 데이터를 삭제하거나 대체한다면 예측변수들이 많은 경우 대다수의 사례들이 삭제되거나 다른 값으로 대체될 수 있다.
- 간명성(parsimony)은 좋은 모델이 갖는 중요한 특징이다. (예측변수의) 파라마티의 개수가 적은 모델에서 예측변수의 영향력을 더 잘 이해할 수 있다.
- 많은 변수를 갖는 모델에서 발생하는 다중공선성(multicollinearity) 문제로 인해서 회귀계수의 추정치가 불안정해질 가능성이 높다.
- 종속변수와 상관관계가 없는 예측변수들을 이용하는 것은 예측의 분산성을 증가시킬 수 있다.
- 실제로 종속변수와 상관관계가 있는 예측변수를 누락시킬 경우 예측의 평균오차를 증가시킬 수 있다.
2) 예측변수 축소 방법
예측변수의 수를 줄이는 처음 단계에서는 가능한 한 전문가의 지식을 활용한다. 다양한 예측변수들이 무것을 측정 하는지와 이 변수들이 왜 반응변수를 예측하는 데 관련되는지를 이해하는 것이 매우 중요하다. 이러한 지식들을 기초로 하여 기존의 예측변수군은 직접적인 문제를 반영하는 분별력이 있는 예측변수군이 되도록 예측변수의 개수를 줄여나가야 한다.
예측변수의 수를 줄이는 다음 단계에서는 연산능력과 통계적 유의성을 이용한다. 일반적으로 모델에서 예측변수를 줄이는 방법으로 2가지가 있다. 하나는 모든 가능한 예측변수의 조합을 이용하여 회귀모델을 적합화시킴으로써 최적의 예측변수들로 구성된 일부 집합을 찾는 전역탐색(전수조사) 방법이고, 다른 다하는 모델들 중의 일부 집합을 이용한 탐색 방법이 있다.
'숫자' 카테고리의 다른 글
분류와 회귀나무 (1) | 2023.04.10 |
---|---|
3가지 유형의 단순분류기법 (0) | 2023.04.09 |
분류 및 예측모델의 성과평가 (0) | 2023.04.07 |
데이터 탐색과 차원 축소 (0) | 2023.04.06 |
데이터마이닝 소프트웨어 (0) | 2023.04.05 |
댓글