본문 바로가기

분류기준값2

로지스틱 회귀분석 1. 개요 로지스틱 회귀분석(logistic regression)은 기존의 선형회귀분석의 종속변수(Y)를 범주형으로 확장한 것이다. 이 번주형 변수는 관찰치를 집단으로 구분해 주는 변수로 생각하면 된다. 로지스틱 회귀분석은 하나의 집단에 속하지만 어느 집단인지를 모르는 새로운 관찰치에 대해서 예측변수를 이용하여 특정집단으로 분류하기 위해 사용될 수 있다. 이것은 분류(Classification)라고 한다. 또한 예측변수를 이용하여 각 집단 내의 관찰치들 간의 유사성을 찾기 위해 집단에 대한 정보를 갖고 있는 데이터에서 사용하기도 한다. 이를 프로파일링(profiling)이라 한다. 로지스틱 회귀분석은 다음과 같은 의사결정문제에 사용가능하다. - 도서의 반납 또는 미납으로 고객 분류 (분류) - 회사 최고.. 2023. 4. 11.
분류 및 예측모델의 성과평가 1. 분류모델의 성과 평가 1) 분류정확도 분류모형의 성과를 판단하는 가장 기본적인 기준은 오분류 오차(mis-classification error)의 확률이다. 오분류(mis-classisfication)란 관찰치가 어느 한 집단에 속하지만, 모델은 그 관찰치를 다른 집단에 소속된 관찰치로 잘못 분류하는 것이다. 오류가 없는 분류모델은 완전하지만 현실세계에서는 그러한 분류모델의 구축은 정말 어렵다. 그 이유는 현실세계의 데이터는 '잡음(Noise)'이 존재하고 모든 사례를 정밀하게 분류하기 위해서는 필요한 모든 정보를 가지고 있어야 하지만 현실은 그렇지 않기 때문이다. 분류모델은 모든 것을 가장 우세한 집단에 속하는 것으로 분류하는 단순 규칙(naive rule)보다는 최소한 나은 분류를 해야 한다. .. 2023. 4. 7.