본문 바로가기

전체 글47

오차 1. 개요 우리가 컴퓨터로 연산하는 과정에서는 오차가 발생할 수 있다. 수치해를 구하는 수단으로 컴퓨터를 이용하는 이유는 빠른 계산 속도와 그 결과의 정확도에 있다. 그러나 통상적인 정확성이란 취급하는 숫자가 정수일 정도에만 가능하다. 만약 실수를 취급할 때에는 근사값을 생성하게 된다. 우리가 여러가지 함수나 모델 등을 이용, 수치해석적 방법을 통해 해결하고자 할 때에 위합하는 값은 거의 실수이다. 따라서 근사값의 생성에 따른 오차가 발생한다. 오차의 종류는 컴퓨터에 입력하기 위해 작성된 자료 자체에 포함될 수 있는 입력 오차, 수치를 컴퓨터 내부에 기억시킬 때 진법을 변환함으로써 발생하는 변환 오차, 무한급수로 표현되는 수식을 유한급수로 변환할 때 잘리는 부분의 수식에서 발생하는 오차인 절단 오차, 수.. 2023. 4. 17.
군집 분석(2) 1. 두 군집 간의 거리 계산 군집은 하나 이상의 레코드로 구성된 집합이다. 군집 간의 거리는 어떻게 측정할까? 군집 간의 거리의 개념은 레코드 간의 거리의 측정치를 군집 간의 거리의 측정치로 확장시킨 것이다. m개의 레코드를 포함하는 군집 A와 n개의 레코드를 포함하는 군집 B가 있다고 할 때, 군집 간의 거리를 측정하는 가장 널리 사용되는 척도는 다음과 같다. - 최단 거리 또는 단일 연결법 : 두 군집에서, 가장 가까이 있는 두 관측치의 거리를 잰다. - 최대 거리 또는 완전 연결법 : 두 군집에서, 가장 멀리 떨어져 있는 관측치의 거리를 잰다. - 평균 거리 또는 평균 연결법 : 하나의 군집 내에 있는 관측치들과 다른 군집 내에 있는 관측치들 사이의 모든 가능한 거리의 평균거리 - 중심거리 : 두.. 2023. 4. 16.
군집 분석 (1) 1. 개요 군집 분석(cluster analysis)은 레코드에 포함된 변수들을 기초로 하여 유사한 레코드를 가진 그룹 또는 군집들을 만들고자 할 때 사용되는 분석 방법이다. 군집 분석의 주요 개념은 분석의 목적에 맞도록 군집들을 찾아내어 이를 특정 짓는 것이다. 이러한 개념은 여러 영역에서 적용되어 왔다. 생물학자들은 종에 대한 계층적 분류를 위해 상위 및 하위 집단을 광범위하게 활용한다. 화학분야에서 군집의 계념을 괄목하게 성공시킨 것은 멘델레예프의 원소 주기율표를 들 수 있다. 마케팅에서는 시장 세분화(market segmentation)을 위해서 군집 분석을 많이 활용한다. 이 경우 고객은 인구통계 및 거래내역 정보를 기반으로 세분화되고, 이 세분화 영역에 맞춰 시장 세분화 전략이 수립된다. 금융.. 2023. 4. 15.
연관성 규칙 1. 개요 연관성 규칙(association rules)을 설명하는 간단한 문장이 있다. "어떤 항목이 또 다른 어떤 항목을 동반하는가"이다. 이는 친화성 분석(affinity analysis)라고 한다. 예를 들어 의학연구자들은 어떤 증상이 어떤 질병을 동반하는가를 알고자 하는 경우 이 방법을 사용할 수 있다. 2. 연관성 규칙 연관성 규칙은 "if-then" 구분의 형식으로 정보를 제공한다. 데이터로부터 계산된 이러한 연관성 규칙들은 논리의 if-then 규칙과는 달리 사실상 확률에 근거하고 있다. 이러한 규칙은 일반적으로 온라인 추천시스템에서 사용되고 있다. 이 시스템은 구매가능성이 있는 항목들을 검토하는 고객들에게 처음 구매항목과 더불어 자주 구매되는 다른 항목들을 추천해 준다. 3. 후보 규칙의.. 2023. 4. 14.
판별분석 1. 개요 판별분석(discriminant analysis)은 분류기법 중의 하나이다. 로지스틱 회귀분석과 같이 분류(classification)와 프로파일링(profiling)에 사용되는 전통적인 통계기법이다. 판별분석은 해당 항목들이 속해있는 각 집단을 분류하기 위해 연속형 변수를 사용한다. 그리고 새로운 항목들에 대해서는 이 집단들 중에서 한 집단에 속하는 것으로 분류한다. 그리고 판별분석은 집단을 구분시켜 주는 요인들을 찾아내기 위한 활동인 프로파일링에 사용되기도 한다. * 프로파일링 (profiling) 예측변수의 관점에서 각 집단 내 관찰치 간의 유사성을 찾거나 집단을 구분시켜 주는 요인을 찾는 활동이다. 예를 들어, 회사가 효과적인 광고를 위해 구매자 대상이 될 만한 집단에 대한 정보수집활동.. 2023. 4. 13.
신경망 모델 1. 개요 인공신경망(artifical neural networks)으로 불리는 신경망(neural networks) 모형은 분류와 예측을 위해 사용되는 모델이다. 신경망은 인간의 뇌 속 뉴런들이 서로 상호 작용을 하고 경험을 통하여 배우는 생물학적 활동을 모델화한 것이다. 신경망은 어린아이가 태어나면서부터 배우는 방식을 흉내 낸 것이라고 생각하면 쉽다. 신경망의 학습 및 기억 특성들은 인간의 학습과 기억의 특성을 닮았고, 특정 사건으로부터 일반화하는 능력 또한 가지고 있다. 신경망의 가장 큰 장점은 높은 예측 정확도에 있다. 신경망의 구조는 다른 분류모델에서는 불가능한 입력변수와 출력변수 사이의 매우 복잡한 관계를 파악한다. 2. 신경망모델의 개념 및 구조 신경망의 기본 아이디어는 입력변수들 사이 또는.. 2023. 4. 12.