1. 데이터마이닝이란 무엇인가?
"대량의 데이터 집합으로부터 유용한 정보(Information)를 추출하는 것" (Hand et al., 2001)
"수많은 데이터 속에서 의미있는 패턴과 규칙을 발견하기 위해서 자동화되거나 반-자동화된 도구를 사용하여 탐색하고 분석하는 과정" (Berry and Linoff, 1997)
가트너 그룹 사이트에서는 다음과 같이 정의하였다.
"데이터마이닝은 통계 및 수학적 기술뿐만 아니라 패턴인식 기술들을 이용하여
데이터 저장소에 저장된 대용량의 데이터를 조사함으로써의
의미 있는 새로운 상관관계, 패턴, 추세 등을 발견하는 과정이다."
2. 데이터마이닝의 사용
데이터마이닝은 다양한 분야에서 사용되고 있다.
국방/항공 분야 : 미사일 또는 발사체의 정확도에 영향을 주는 다양한 요인들이 어떤 것이 있으며 어떠한 작용을 하는지 알아내기 위해 (데이터마이닝을) 활용한다.
국가(정보) 기관 및 의료 기관 : 방대한 양으로 도청되는 통신 데이터 가운데 특히 중요성이 높은 데이터를 찾기 위해 (데이터마이닝을) 활용하기도 한다. 특히 보안전문가들은 네트워크 패킷 별로 네트워크 자체에 위협요인을 갖고 있는지를 판단하기 위해 사용할 수 있고, 의학연구자들은 의학연구자의 관심 질환에 대해 재발가능성을 예측하기 위해 사용하기도 한다.
데이터마이닝 방법의 적용 시 제기되는 몇 가지 공통된 의문점들은 다음과 같다.
1) 다양한 가능성이 있는 고객들 중에서 어떠한 고객들이 반응할 가능성이 높은가? 낮은가?
방법 : 다양한 고객 및 매장 데이터들을 이용하여 기존의 우량 이용 고객 데이터와 일치하거나 유사한 고객을 파악한다.
-> 다양한 Classification / Regression 기법들을 사용할 수 있다.
2) 수많은 보유 고객들 중, 부정 거래를 할 가능성이 높은 고객이 어떤 고객일까?
또는 이미 부정거래를 하였을 것 같은 고객은 어떤 고객일까?
방법 : 기존 부정 거래를 하였던 고객들의 데이터를 분석하고, 이러한 고객들과 일치하거나 유사한 고객들을 식별한다.
-> 다양한 Classification / Regression 기법들을 사용할 수 있다.
3) 어떠한 고객들이 파산하거나 빚을 수월하게 갚지 못할까?
방법 : 기존 파산했던 고객들의 데이터들을 수집 분석하여, 유사한 고객들을 식별한다.
-> 다양한 Classification / Regression 기법들을 사용할 수 있다.
3. 데이터마이닝의 기원
데이터마이닝은 통계학과 머신러닝의 중간에서 그 의미가 크다.
데이터를 탐색하고 모델을 구축하는 다양한 기법들은 이미 통계학에서 존재했었다.
회귀분석(선형 회귀분석, 로지스틱 회귀분석), 판별분석, 주성분 분석 등이 포함된다.
하지만 방대한 데이터와 신속한 계산 능력을 요구되는 데이터마이닝 분야에서는
기존 통계학의 핵심원리(계산이 어렵고 데이터가 극소하다는 것)는 적용하기 어렵다.
Daryl Pregibon 은 데이터마이닝을 "규모와 속도의 통계학" 으로 묘사하고 있다. (Pregibon, 1999)
이러한 의미를 좀 더 확장해 보면 "규모, 속도 및 단순성의 통계학"이라 할 수 있다.
단순성의 의미는 수식을 포함한 알고리즘의 단순성 뿐만 아니라, 추론(Prediction) 논리의 단순성, 타당성을 의미한다.
고전적인 통계에서는 데이터가 희소(Sparse) 하기 때문에
추정치를 계산하고 그 추정치가 얼마나 신뢰할 만한가를 결정하는 데 동일한 표본이 사용되었다.
그 결과, 추론(Prediction)을 위해 사용되는 신뢰구간과 가설검증에 대한 논리는 일반적인 경우에서 적용되기 힘들며,
또한 일반화 하기 어려운 한계점들은 잘 인식되지 못하고 있다.
하지만 데이터마이닝은 방대한 데이터 중에서 일부 표본으로 모델을 적합(Training)시키고,
(모델을 적합 시킬 때 이용된 표본이 아닌) 다른 표본으로 모델의 성과를 평가(Evaluation) 하는 구조이다.
따라서 일반화하기 쉽고, 추론의 정확성 또한 높게 된다.
현대의 컴퓨터 과학은 Decision Tree 나 Neural Network와 같은 머신러닝 방법을 제공한다.
머신러닝 방법은 강력한 계산능력에 의존하며 고전적인 통계모형보다 덜 구조화되어 있다.
머신러닝 방법 중 딥러닝은 훨씬 복잡하고 어려운 문제를 해결 할 수도 있다.
고전적인 통계학은 추론(하나의 패턴 또는 흥미로운 결과가 우연히 발생하였는지를 결정하는 것)에 포커스를 두고 있다.
통계학과 비교할 때, 데이터마이닝은 다양한 방식으로 방대한 데이터를 다루기 때문에 추론에서 요구하는 것처럼 엄격한 제약사항이 존재하지 않는다.
4. 데이터마이닝의 성장
데이터마이닝의 성장을 가속화시킨 것은 데이터의 증가이다.
데이터가 증가한 이유는 단순히 경제발전과 데이터의 규모가 확장되어서만이 아니다.
데이터를 자동적으로 얻는 데 발생하는 비용이 절감되고 이에 대한 사용 가능성이 증가했기 때문이다.
고객이 사용하는 신용카드 등의 사용 정보를 바탕으로 같이 구입하는 물건에 대해 분석할 수 있으며, 이를 이용하여 매장 내에서 같이 구입할 수 있는 상품들을 유사한 위치에 배치할 수 있다. 요일별 구매목록등을 분석하여 요일별로 마케팅 전략을 별도로 세울 수도 있다.
데이터마이닝에서 사용하는 수많은 방법(탐색적, 분석적 기법)들은 현재와 같은 연산 능력 없이는 가능하지 않다.
데이터 저장과 검색 비용이 지속적으로 줄어들게 되고, 대용량 데이터의 저장과 생성에 필요한 설비들을 구축하는 것이 가능해 짐에 따라 데이터마이닝은 현재와 같이 성장하게 되었다. 즉, 빠르고 지속적인 연산능력의 향상이 데이터마이닝의 성장에 핵심원동력이라고 할 수 있다.
'숫자' 카테고리의 다른 글
데이터 탐색과 차원 축소 (0) | 2023.04.06 |
---|---|
데이터마이닝 소프트웨어 (0) | 2023.04.05 |
데이터마이닝 예비 단계 (0) | 2023.04.04 |
데이터마이닝 실행 과정 (0) | 2023.04.03 |
데이터마이닝 프로세스 - 개념, 지도학습/비지도학습 (0) | 2023.04.02 |
댓글