표본추출2 데이터마이닝 예비 단계 1. 데이터 집합의 구성 데이터 집합은 일반적으로 변수를 열(Column) 기준으로, 레코드를 행(Row) 기준으로 표기한다. 지도 학습(Supervised Learning)의 경우 이 변수들 중 하나는 출력변수(Ground Truth)가 되며, 일반적으로 열 기준으로 맨 처음 또는 마지막 열에 위치한다. 2. 데이터베이스로부터 표본추출하기 대개의 경우 데이터마이닝 작업을 수행할 때 이용가능한 모든 레코드를 사용하지 않는다. 표본(Sampling) 추출을 통하여 작은 크기의 레코드를 데이터마이닝 작업에 사용하게 된다. 레코드와 변수의 크기(개수 등), 데이터마이닝 소프트웨어, 계산 능력과 용량에 따라 처리 가능한 데이터의 한계 범위는 선택된 데이터마이닝 알고리즘에 따라 달라진다. 한계범위에 속한다 할지라.. 2023. 4. 4. 데이터마이닝 실행 과정 데이터 분석 과정에서 가장 중대한 오류 중의 하나는 문제에 대한 잘못된 이해에서 기인되는 경우가 가장 많다. 따라서 데이터마이닝 알고리즘을 적용하기에 앞서 문제에 대한 충분한 이해가 먼저 수행되어야 한다. 일반적인 데이터마이닝의 실행 과정은 다음과 같다. 1. 데이터마이닝 프로젝트의 목적을 확실히 확인한다. (답을 찾기 위해 수행하는 일회성 프로젝트의 경우) 또는 데이터마이닝 프로젝트의 적용가능성을 확인한다. (연속되는 프로젝트인 경우) 2. 데이터마이닝 분석에서 사용될 데이터를 획득한다. 이 단계에서는 데이터마이닝 분석에 사용될 데이터를 파악하기 위해 방대한 데이터베이스에서 무작위로 표본(Sample)을 추출하는 것을 말한다. 또한 서로 다른 데이터베이스에서 추출된 데이터를 합치는 것을 의미하기도 한다.. 2023. 4. 3. 이전 1 다음