본문 바로가기
숫자

데이터마이닝 프로세스 - 개념, 지도학습/비지도학습

by 아이비팝2 2023. 4. 2.

데이터시각화 [그림 출처 : Simplilearn]

 

1. 데이터마이닝 주요 개념

1.1. 분류

분류(Classification) 은 데이터 분석의 가장 기본적인 형태이다.

다양한 동물들의 이미지를 대상으로 개가 이미지 포함되어 있으면 개(Dog) 이미지로 분류되고, 건물이 포함되어 있으면 건물(Building) 이미지로 분류된다. (특이하게 개(Dog)와 건물(Building)이 하나의 이미지에 함께 들어 있는 이미지는 별도의 분류 기준을 적용하기도 한다.)

데이터마이닝의 일반적인 목적은 분류결과가 알려져 있지 않거나 미래에 발생할 경우에 어떠한 분류 결과로 나타날지 또는 나타날 것인지를 예측할 목적으로 데이터를 분석하는 것이다. 즉 분류결과가 알려진 유사 데이터(Training  데이터)를 사용하여 규칙(Modeling, Rule)을 찾아낸 다음, 그 규칙을 분류결과가 알려져 있지 않은 데이터에 적용하는 것이다.

 

1.2. 예측

예측 (Prediction) 은 집단(분류집단, 예를 들어 개(Dog), 건물(Building)) 변수보다는 수치형 변수(예를 들어 구매량)의 값을 예측한다는 것을 제외하고, 분류문제와 유사하다. 이는 연속형 변수의 값을 예측하는 것을 말한다. 따라서 예측은 회귀(Regression)라고 할 수 있다.

(일부 문헌에서는 추정(Estimation)이라는 용어가 연속형 변수의 값을 예측한다는 의미로 사용되기도 하고, 또한 예측은 연속형(Regression)과 범주형(Classification) 데이터 모두에서 예측한다는 의미로 사용되기도 한다.)

 

1.3. 연관성 규칙

방대한 고객 데이터베이스는 고객이 구매한 항목들 간의 연관성 분석, 즉 어떠한 구매 물건이 다른 구매 물건과 연관되어 있는지에 대한 분석에 사용된다. 이 때 연관성 규칙(Association Rules)이 다양한 방식으로 사용된다. 넷플릭스 같은 OTT(Over-The-Top, 인터넷을 통해 방송 프로그램·영화·교육 등 각종 미디어 콘텐츠를 제공하는 서비스)에서는 고객에 영화를 추천하기 위해 고객들이 이미 선택한 모든 영화 목록들을 분석하여 이에 대한 연관성 규칙을 발견하고, 이를 적극 활용하여 고객에 새로운 영화를 추천하기도 한다.

 

1.4. 데이터 축소

 방대한 데이터 속에서 분별력이 있는 데이터 분석이 되기 위해서는 차원이 높은 데이터(High Dimension)를 단순한 데이터(Low Dimension) 데이터로 정제시켜야 한다. 데이터 축소(Data Reduction)은 대량의 변수 또는 레코드들을 비교적 작은 변수군 또는 레코드 집합으로 단순화하는 과정을 의미한다. (데이터 축소는 때로는 전체 데이터를 대변하지 못하고 왜곡시키기도 하기 때문에 주의해야 한다.)

 

1.5. 데이터 탐색

데이터분석 프로젝트는 데이터가 어떤 메시지를 포함하고 있는지 찾아내는 것이다.

이때 데이터를 완전하고 정확하게 이해하기 위해서는 세부적인 데이터의 특성들을 유지하면서, 데이터 전체 특성을 파악할 수 있도록 데이터의 차원(Dimension)을 축소 시켜야 한다. 비슷한 정보를 포함하고 있는 서로 유사한 변수들을 새로운 변수에 통합하여 다수개의 변수를 하나의 변수로 통합한다. 이와 비슷하게 레코드 관점에서는 서로 비슷한 레코드들을 하나의 레코드 그룹으로 통합시킬 수 있다.

 

1.6. 데이터 시각화

데이터가 어떠한 정보를 갖고 있는지를 시각적으로 보기 위한 방법이다. 그래프 분석 또는 다양한 방법이 있다.

이 기법은 서로 다른 변수 사이에 관계를 보는 것뿐만 아니라 개별 변수들의 분포를 볼 수도 있다.

수치형 변수는 그 변수값을 파악하고 이상치(Outlier)를 찾아내고, 개별 데이터의 분포 등의 다른 정보를 찾아내기 위해 히스토그램(Histogram) 또는 박스플롯(Box-Plot),  산점도(Scatter-Plot)를 이용한다. 

범주형 변수에 대해서는 차트(Chart) 또는 원형 차트(Pie Chart)를 이용한다.

 

2. 지도학습과 비지도학습

데이터마이닝에서 사용하는 지도학습(Supervised Learning)과 비지도학습(Un-Supervised Learning)은 기본적인 차이가 있다.

지도학습(Supervised Learning)은 분류(Classification)와 예측(Regression)을 위해 사용되는 알고리즘이다. 지도 학습은 기존에 확보된 데이터(학습 데이터, Training 데이터)가 있어야 하고, 학습 데이터로 모델을 생성한 후(Modeling) 평가(Evaluation)을 위해 학습에 포함되지 않은 새로운 데이터(Test 데이터)가 있어야 한다. 이 데이터들은 확실한 분류 체계(Classification) 또는 알려져 있는 범위(Regression)가 있어야 한다. 기존에 확보된 데이터는 발생할 수 있는 모든 경우의 수를 대변할 수 있다는 전제를 하여야 한다(Closed-Set). 분류(Classification)에서는 Training 데이터를 사용하고 Modeling 을 하고, Test 데이터를 사용하여 모델의 정확도를 판단한다. 예측(Regression)에서는 Training 데이터를 사용하여 회귀곡선 데이터 Modeling 을 하고, Test 데이터를 사용하여 Modeling 된 회귀곡선 상의 새로운 값으로 결과를 예측하고 결과 또는 오차를 보정한다.

비지도학습(Un-Supevised Learning) 은 군집(Clustering)과 연관(Association)을 위해 사용되는 알고리즘이다. 확보된 데이터(입력변수)에 대해 정확한 분류기준 등의 출력변수가 없는 경우에 사용하는 알고리즘이다. 데이터들의 연관성을 분석하여 수집된 데이터 내에서 데이터들의 상관도를 찾아가는 것이다. 따라서 지도학습과 같은 과정은 필요하지 않다.

 

지도학습/비지도 학습 [그림출처 : sumin.log]

 

'숫자' 카테고리의 다른 글

데이터 탐색과 차원 축소  (0) 2023.04.06
데이터마이닝 소프트웨어  (0) 2023.04.05
데이터마이닝 예비 단계  (0) 2023.04.04
데이터마이닝 실행 과정  (0) 2023.04.03
데이터마이닝 개요  (0) 2023.04.01

댓글