1. 개요
데이터분석에 데이터마이닝을 적용할 경우, 데이터베이스의 수많은 변수들과 마주치게 된다. 이러한 경우 일부 변수들 사이에 높은 상관관계가 존재할 가능성이 있다. 분류(Classification), 예측(Prediction) 모델에서 서로 높은 상관관계가 있는 입력 변수들, 또는 출력 변수와 관련이 없거나 낮은 입력 변수들을 포함시킬 경우 과적합화(Over-Fitting) 현상이 나타날 수 있다. 이로 인하여 모델의 정확도와 신뢰도가 떨어질 수 있다. 또한 일부 모델에서는 변수가 증가함에 따라 연산처리에 대한 부담이 커지게 된다. 즉 불필요한 변수들을 모델에 적용할 경우 이러한 변수들을 수집하고 처리하는 데 비용이 증가할 수 있다. 따라서 정확도를 떨어뜨리지 않고 이러한 차원을 축소하는 과정을 수행해야 한다.
2. 데이터 요약
1) 데이터 탐색
데이터 분석의 처음 단계는 데이터의 탐색이다. 데이터 탐색은 데이터를 충분히 이해하고 요약표와 그래프 등을 통하여 그 특성을 파악하는 것을 말한다. 이 단계는 데이터 분석에서 매우 중요하다. 데이터에 대한 이해가 높으면 높을수록 모델 구축의 결과는 더 향상될 것이다.
2) 변수들 간의 관계 요약
데이터 분석의 두번째 단계는 2개 이상의 변수들 간의 관계를 요약하는 것이다. 수치형 변수에 대해서는 두 변수 사이의 상관관계를 계산한다.
MS Office Excel 는 변수들 간의 관계를 요약할 수 있는 몇 가지 방법을 제공한다. 상관관계 분석 기능을 이용하여 데이터의 각 변수쌍에 대한 전체 상관관계 행렬표를 얻을 수 있고, 피봇 테이블을 이용하여 다수의 변수들로부터 정보를 조합하고 일련의 요약 통계량(평균, 빈도, 비율 등)을 계산함으로써 변수들 간의 상호 작용을 체크할 수 있다.
3) 데이터 시각화
데이터의 탐색적 분석으로는 그래프와 도표를 이용한 시각적 방법이 있다. 단일 수치형 변수의 분포를 나타내기 위해 히스토그램(Histogram)과 박스플롯(Box-Plot) 등을 사용하며, 범주형 변수를 위해서는 막대도표나 원그림을 사용한다.
이 외에도 산점도(Scatter-Plot)는 수치형 변수들 간의 관계를 보여주는 데 매우 유용하고 데이터의 패턴과 극단치(Outlier)를 발견하는 데 매우 유용하다. 피봇 데이블처럼이나 상관관계 행렬표처럼, 한 번에 변수군 사이의 모든 가능한 산점도를 하나의 페이지에 조합함으로써 다수의 산점도를 조사할 수 있는 행렬 산점도는 모든 변수들 사이의 관계를 신속하게 그래프로 보여줄 수 있다.
3. 상관관계 분석
많은 후보 예측변수들을 포함하고 있는 데이터 집합에서는 변수군이 갖고 있는 정보가 상당히 중첩될 수 있다. 이러한 중복성을 찾는 유용한 방법은 상관관계 행렬를 조사하는 것이다. 이 행렬을 변수 간의 모든 이원 상관관계를 보여준다. 매우 강한 양의 상관관계나 매우 강한 음의 상관관계를 갖는 쌍의 변수들은 서로의 정보가 중복성이 크게 나타나기 때문에 이 중 하나의 변수를 제거하는 것이 필요하다. 이러한 과정은 데이터 축소(또는 차원 축소)를 위한 좋은 방법이 된다.
또한, 다른 변수들과의 강한 상관관계를 갖는 변수들을 제거하는 것은 다양한 모델에서 발생하는 다중공선성(Multi-Collinearity, 2개 이상의 예측변수들이 출력변수와 동일한 선형관계를 공유하는 것) 문제를 회피하는 데 유용하다. 이것은 데이터에서 변수들의 중복성을 찾기 위해 사용될 수 있고, 이 또한 데이터 축소를 위한 좋은 방법이 된다.
4. 범주형 변수의 범주 개수 축소
범주형 변수가 많은 범주를 갖고 있고 이 변수가 예측 변수로 선정될 경우, 이 변수는 많은 더미(Dummy) 변수로 바뀐다. (N개 범주의 변수는 분석에 사용될 경우 N-1개의 더미 변수로 변환된다.) 이는 원래는 매우 적은 수의 범주형 변수를 갖는다 해도 데이터 집합의 차원이 매우 커질 수 있는 것을 의미한다.
따라서 범주형 변수는 가까운 범주들들을 하나로 합침으로써 범주를 줄이는 방법을 사용할 수 있다. 이 방법을 적용할 때에는 전문가의 판단과 일반적인 판단이 함께 검토되어야 한다. 다양한 범주의 크기를 파악하고 반응변수가 각각의 범주에 대해 어떻게 반응하는지를 검토해야 하는 것이다.
5. 주성분 분석
주성분 분석(PCA : Principal Component Analysis)은 입력변수를 분석함으로써 모델의 예측변수의 개수를 줄이기 위해 사용할 수 있는 방법이다. 주성분 분석은 동일한 척도로 측정되고 서로 상관관계가 높은 항목들로 구성된 하위집합을 가질 경우 특히 유용하다. 이러한 경우에 주성분 분석은 전체 데이터 집합에서 설명력을 가진 원시변수들을 가중치를 이용하여 선형 조합한 소수의 변수들을 생성시킨다. 이러한 방법은 정량 변수들에 대해 사용되는 분석방법이다. 범주형 변수의 경우에는 대응분석과 같은 다른 방법들이 더 적합하다.
주성분 분석을 수행하기 이전에 데이터를 정규화(Normalization) 시키는 것이 필요할 수 있다. 정규화(또는 표준화)는 각각의 원시변수를 분산이 1인 표준화된 변수로 변환시키는 것이다. 이는 각각의 변수를 표준편차로 나눔으로써 쉽게 변환할 수 있다. 이러한 정규화(표준화)의 효과는 모든 변수들이 변동성 관점에서 동등하게 중요하다고 간주하는 것이다.
주성분 분석을 수행할 때에는 일반적으로 공분산 행렬을 사용한다. 이 때 공분산 행렬 대신 상관관계 행렬을 이용하여 주성분 분석을 수행한다면, 이는 데이터를 정규화시키고 주성분 분석을 수행하는 것과 동일한 결과를 얻게 된다. 결과적으로 상관관계 행렬을 이용하는 것은 정규화된 데이터를 사용하는 것과 같다.
'숫자' 카테고리의 다른 글
다중 선형 회귀분석 (0) | 2023.04.08 |
---|---|
분류 및 예측모델의 성과평가 (0) | 2023.04.07 |
데이터마이닝 소프트웨어 (0) | 2023.04.05 |
데이터마이닝 예비 단계 (0) | 2023.04.04 |
데이터마이닝 실행 과정 (0) | 2023.04.03 |
댓글