숫자

데이터마이닝 실행 과정

아이비팝2 2023. 4. 3. 16:43

데이터 분석 과정에서 가장 중대한 오류 중의 하나는 문제에 대한 잘못된 이해에서 기인되는 경우가 가장 많다.

따라서 데이터마이닝 알고리즘을 적용하기에 앞서 문제에 대한 충분한 이해가 먼저 수행되어야 한다.

 

데이터마이닝 프로세스 [그림 출처 : Data Science Association]

 

일반적인 데이터마이닝의 실행 과정은 다음과 같다.

1. 데이터마이닝 프로젝트의 목적을 확실히 확인한다. (답을 찾기 위해 수행하는 일회성 프로젝트의 경우)

    또는 데이터마이닝 프로젝트의 적용가능성을 확인한다. (연속되는 프로젝트인 경우)

 

2. 데이터마이닝 분석에서 사용될 데이터를 획득한다.

    이 단계에서는 데이터마이닝 분석에 사용될 데이터를 파악하기 위해 방대한 데이터베이스에서 무작위로 표본(Sample)을 추출하는 것을 말한다. 또한 서로 다른 데이터베이스에서 추출된 데이터를 합치는 것을 의미하기도 한다. 데이터베이스는 기존에 확보된 데이터이거나 현재 수집된 데이터가 포함될 수 있다. 

    데이터마이닝에서는 방대하게 큰 데이터베이스를 다룬다. 따라서 수십만 개의 데이터 그 이상을 필요로 한다.

 

3. 데이터를 탐색하고 정제, 전처리를 수행한다.

    이 단계에서는 수집된 데이터가 목적을 달성하는 데 타당한 조건이 있는지를 검증하는 것이다.

    1) 수집된 데이터 중에서 해당 속성값이 없는 경우는 어떻게 처리해야 하는지,

    2) 각각의 속성값에 대해 기대하는 값이 주어졌다고 할 경우 데이터값이 합리적인 범위에 있는지,

    3) 이상치(Outlier)가 명백히 존재하는지 -> 이러한 경우에는 그래프나 시각적 요소를 사용하여 검토한다.

        각 변수들과 다른 변수들 간의 상관관계를 보여주는 산점도 등으로 검토할 수 있다.

    4) 변수에 대한 정의, 변수의 측정 단위, 측정 기간 등에 대한 일관성이 있는지

 

4. 필요한 경우, 데이터를 축소하고 (Dimension Reduction), 지도 학습의 경우 학습용, 평가용, 검증용 데이터 집합으로 분할한다.

    이 단계에서는 불필요한(비슷하거나 동일한 의미) 변수를 제거하고, 변수를 변환하며(변수에 대한 해당 조건으로 해당 조건 이상일 경우 0, 이하일 경우 1로 간단히 변환할 수 있다.) 새로운 변수를 생성(예를 들어, 최소 한 개 이상의 물건을 구매한 경우 True, 아니면 False)시키는 등의 분석을 위한 선행 작업이 포함된다. 또한 각 변수의 의미와 해당 변수가 생성된 모형에서 변수를 포함하는 것이 타당한지를 검토해야 한다.

 

5. 데이터마이닝 업무를 결정한다.

    분류(Classification) 문제인 경우, 학습용 데이터로 학습(Training)을 수행하여 모델을 생성하고(Modeling). 학습 중간 또는 학습이 끝난 후 생성된 모델을 사용, 평가용 데이터로 모델의 성능을 평가하는 과정(Evaluation)을 수행한 후, 최종적으로 검증용 데이터로 모델의 성능을 최종 평가하는 과정을 수행하게 된다.

    예측(Prediction 또는 Regression)인 경우, 분류 문제와 마찬가지로 학습-평가-검증의 과정을 수행하게 된다. 하지만 예측 문제에서는 연속성 변수의 값으로 예측을 하게 된다.

    군집(Clustering 또는 Association)인 경우, 분류와 예측의 과정이 아닌, 데이터 자체에 데이터 연관성을 파악하여 데이터를 구분하는 방법으로 업무를 수행하게 된다.

 

6. 사용할 데이터마이닝 기법(회귀 분석, 신경망모형, 계층적 군집 분석 등)을 선택한다.

    예측(Prediction 또는 Regression) 문제에서는 회귀 분석(선형 회귀분석 또는 다중 회귀분석 등)이 사용될 수 있다.

    분류(Classification) 문제에서는 Decision Tree 또는 신경망 모형의 classification Network 등이 사용될 수 있다.

    군집(Clustering 또는 Association) 문제에서는 계층적 군집 분석 등이 사용될 수 있다.

 

7. 결정된 업무와 선택된 기법을 적용하여 데이터마이닝을 수행한다.

    이 단계에서는 일반적으로 반복적인 과정을 수행한다. 선택된 하나의 알고리즘을 대상으로 알고리즘 세부 조건을 달리하여(Hyper-parameter Sweeping) 적용하는 등의 다양한 변인들을 적용해 본다. 학습(Training), 평가(Evaluation)의 과정을 반복적으로 수행하고 알고리즘의 성과로부터 피드백을 수용하여, 알고리즘의 적합성을 최대한 개선하도록 해야 한다.

    데이터마이닝 수행하는 도중, 학습(Training)에서의 오차와 평가(Evaluation)에서의 오차가 많이 다를 경우가 발생할 수 있다. 이때에는 학습용 데이터와 평가용 데이터의 데이터 분포를 먼저 확인해야 한다. 또한 검증용 데이터에서도 이러한 결과가 나올 수 있다. 따라서 학습용, 평가용, 검증용 데이터는 표본 추출된 데이터의 성격들을 충분히 설명할 수 있어야 한다. 만약 그렇지 않을 경우에는 표본 데이터 추출 과정부터 다시 수행할 필요가 있다.

 

8. 알고리즘의 결과를 해석한다.

    이 단계에서는 본 데이터마이닝의 목적에 가장 잘 부합하는 알고리즘을 선택하고, (해당 알고리즘이 사용 가능한 경우) 학습된 모델이 얼마나 좋은 성과를 나타내는지에 대한 아이디어를 얻기 위해 검증용 데이터를 이용하여 선택된 알고리즘을 최종 평가한다.

 

9. 모델을 활용한다.

    1) 모델을 운영시스템에 통합시키고,

    2) 이를 의사결정하고 실행하는데 실제 데이터를 적용하여 운영하는 것을 말한다.

데이터마이닝 [그림 출처 : medium.com]