전체 글47 로지스틱 회귀분석 1. 개요 로지스틱 회귀분석(logistic regression)은 기존의 선형회귀분석의 종속변수(Y)를 범주형으로 확장한 것이다. 이 번주형 변수는 관찰치를 집단으로 구분해 주는 변수로 생각하면 된다. 로지스틱 회귀분석은 하나의 집단에 속하지만 어느 집단인지를 모르는 새로운 관찰치에 대해서 예측변수를 이용하여 특정집단으로 분류하기 위해 사용될 수 있다. 이것은 분류(Classification)라고 한다. 또한 예측변수를 이용하여 각 집단 내의 관찰치들 간의 유사성을 찾기 위해 집단에 대한 정보를 갖고 있는 데이터에서 사용하기도 한다. 이를 프로파일링(profiling)이라 한다. 로지스틱 회귀분석은 다음과 같은 의사결정문제에 사용가능하다. - 도서의 반납 또는 미납으로 고객 분류 (분류) - 회사 최고.. 2023. 4. 11. 분류와 회귀나무 1. 개요 데이터마이닝 시 데이터 분석가에게 많은 노력이 요구되지 않으면서 분석가가 쉽게 분석결과를 이해할 수 있는 범용적 기법으로 나무방법론(Tree methodology)이 있다. 이러한 분류나무모델이 흔히 사용되는 이유는 나무가 매우 큰 경우에도 나무 규칙을 이해하기 매우 쉽기 때문이다. 2. 분류나무 분류나무에서 기본이 되는 2가지 핵심 내용은 독립변수의 차원 공간을 반복적으로 분할하는 것과 평가용 데이터를 사용하여 가지치기를 하는 것이다. 3. 반복적 분할 종속변수는 y로, 독립 변수는 x1, x2, ..., xp로 표시된다고 할 때, 분류문제에서 반응변수는 범주형 변수이어야 한다. 반복적 분할은 변수 x의 p 차원 공간을 겹치지 않는 다차원 직사각형으로 나눈다. 여기서 변수 x는 연속형, 이진.. 2023. 4. 10. 3가지 유형의 단순분류기법 1. 단순규칙 모든 예측변수 (X1, X2, ... , Xp)를 배제한 상태에서 어느 한 레코드를 m 개 집단 중의 하나로 분류하는 매우 단순한 규칙은 이 레코드를 규모가 가장 큰 집단에 속하는 것으로 분류하는 것이다. 일반적으로 단순규칙은 좀 더 복잡한 분류모델의 성과를 평가하기 위한 기준모형으로 사용될 수 있다. 소속집단을 할당하는 것과 더불어 외부의 예측변수를 이용하는 분류모델은 분명히 단순규칙보다는 성과가 높다. 단순규칙에는 다양한 성과측정치들이 존재한다. 이 측정치들은 어떤 분류모델이 단순규칙보다 얼마나 더 좋은 성과를 내는지를 판정한다. 2. 단순 베이즈 분류 모델 단순 베이즈(naive Bayes) 분류 모델은 단순규칙보다는 좀 더 정교한 방법이다. 이 방법의 핵심은 좀 더 정확한 분류성과를.. 2023. 4. 9. 다중 선형 회귀분석 1. 개요 예측에 사용되는 가장 일반적인 모델은 다중 선형 회귀분석(multiple linear regression model)이다. 이 모델은 정량적인 종속변수(dependent variable : 출력변수) Y와 예측변수(predictor : 독립변수, 입력변수)군 X1, X2, ..., Xp 사이의 선형관계를 적합시키기 위해 사용된다. 다중 선형 회귀분석은 분석대상인 모집단에서 다음과 같은 관계가 있다고 가정한다. Y = b0 + b1X1 + b2X2 + ... + bpXp + e 여기서 b0, b1, ..., bp는 회귀계수(coefficient)이고 e는 잔차(residual) 또는 잡읍(noise)으로서 회귀계수에 의해 설명되지 않는다. 회귀계수와 잔차의 변동성을 추정하기 위해서는 일반적으로 .. 2023. 4. 8. 분류 및 예측모델의 성과평가 1. 분류모델의 성과 평가 1) 분류정확도 분류모형의 성과를 판단하는 가장 기본적인 기준은 오분류 오차(mis-classification error)의 확률이다. 오분류(mis-classisfication)란 관찰치가 어느 한 집단에 속하지만, 모델은 그 관찰치를 다른 집단에 소속된 관찰치로 잘못 분류하는 것이다. 오류가 없는 분류모델은 완전하지만 현실세계에서는 그러한 분류모델의 구축은 정말 어렵다. 그 이유는 현실세계의 데이터는 '잡음(Noise)'이 존재하고 모든 사례를 정밀하게 분류하기 위해서는 필요한 모든 정보를 가지고 있어야 하지만 현실은 그렇지 않기 때문이다. 분류모델은 모든 것을 가장 우세한 집단에 속하는 것으로 분류하는 단순 규칙(naive rule)보다는 최소한 나은 분류를 해야 한다. .. 2023. 4. 7. 데이터 탐색과 차원 축소 1. 개요 데이터분석에 데이터마이닝을 적용할 경우, 데이터베이스의 수많은 변수들과 마주치게 된다. 이러한 경우 일부 변수들 사이에 높은 상관관계가 존재할 가능성이 있다. 분류(Classification), 예측(Prediction) 모델에서 서로 높은 상관관계가 있는 입력 변수들, 또는 출력 변수와 관련이 없거나 낮은 입력 변수들을 포함시킬 경우 과적합화(Over-Fitting) 현상이 나타날 수 있다. 이로 인하여 모델의 정확도와 신뢰도가 떨어질 수 있다. 또한 일부 모델에서는 변수가 증가함에 따라 연산처리에 대한 부담이 커지게 된다. 즉 불필요한 변수들을 모델에 적용할 경우 이러한 변수들을 수집하고 처리하는 데 비용이 증가할 수 있다. 따라서 정확도를 떨어뜨리지 않고 이러한 차원을 축소하는 과정을 수.. 2023. 4. 6. 이전 1 ··· 4 5 6 7 8 다음