본문 바로가기
숫자

연관성 규칙

by 아이비팝2 2023. 4. 14.

연관성 규칙 [그림출처 : KDnugget]

1. 개요

연관성 규칙(association rules)을 설명하는 간단한 문장이 있다. "어떤 항목이 또 다른 어떤 항목을 동반하는가"이다.

이는 친화성 분석(affinity analysis)라고 한다. 예를 들어 의학연구자들은 어떤 증상이 어떤 질병을 동반하는가를 알고자 하는 경우 이 방법을 사용할 수 있다.

 

2. 연관성 규칙

연관성 규칙은 "if-then" 구분의 형식으로 정보를 제공한다. 데이터로부터 계산된 이러한 연관성 규칙들은 논리의 if-then 규칙과는 달리 사실상 확률에 근거하고 있다. 이러한 규칙은 일반적으로 온라인 추천시스템에서 사용되고 있다. 이 시스템은 구매가능성이 있는 항목들을 검토하는 고객들에게 처음 구매항목과 더불어 자주 구매되는 다른 항목들을 추천해 준다.

 

3. 후보 규칙의 생성

연관성 규칙의 개념은 if-then 형식으로 항목들 사이의 모든 가능한 규칙들을 조사하여 가장 종속적인 관계를 나타낼 것 같은 규칙들을 선정하는 것이다. 이때 if 조건절은 선행(antecedent)의 용어로, then절은 후행(consequent)의 용어로 사용된다. 연관성 규칙에서는 선행과 후행은 공통원소가 없는 항목들의 집합이다.

 

4. 연관성 규칙의 선택

생성된 많은 후보 규칙으로부터 선행과 후행 집합 사이의 강한 의존성을 나타내는 규칙을 발견하는 것이 연관성 규칙의 목적이다. 규칙별로 연관성의 강도를 측정하기 위해, 신뢰도(confidence)와 향상도(liftratio)가 사용된다.

1) 지지도와 신뢰도

지지도와 더불어 if-then 규칙에 대한 불확실성의 정도를 표현하는 다른 측정도구에는 규칙의 신뢰도가 있다. 신뢰도는 선행 항목집합의 발생과 그 데이터베이스에 있는 선행과 후행 항목집합의 동시 발생을 서로 비교한다.

신뢰도는 모든 선행과 후행 항목집합들을 동시에 포함하는 거래의 수 대비 모든 선행 항목집합들을 포함하는 거래의 수에 대한 비율로 정의한다.

지지도는 전체 데이터베이스에서 무작위로 선택된 거래가 선행과 후행에 있는 모든 항목들을 포함할 확률로 정의할 수 있다.

반면에 신뢰도는 모든 선행 항목들을 포함하는 거래가 주어졌을 때 임의로 선택된 거래가 후행 항목들을 포함하는 조건부 확률로 표현할 수 있다.

 

만약 규칙의 신뢰도가 높다고 하면 이규칙은 일반적으로 강한 연관성규칙이라는 것이다. 그러나 신뢰도가 높다는 것이 항상 항목 간의 강한 연관성이 있는 것을 의미하지는 않는다. 

 

2) 향상도 또는 리프트 비율

연관성 규칙의 강도를 판단하는 더 나은 방법은 이 규칙의 신뢰도를 기준신뢰도와 비교하는 것이다. 여기서 기준 신뢰도는 거래 내의 후행 항목집합의 발생과 각 규칙의 선행 항목집합의 발생이 서로 독립적이라고 가정할 때 신뢰도를 말한다.

 

3) 연관성 규칙의 선택과정

연관성이 강한 규칙들을 선택하는 과정은 사전에 정의된 지지도와 신뢰도의 요구 수준을 만족하는 모든 연관성규칙을 생성하는 데서 출발한다. 이 과정은 크게 두 단계로 이루어진다. 첫째 단계는 일정 수준이상의 지지도를 갖는 모든 빈발 항목집합을 찾는 것이고 둘째 단계는 빈발  항목집합들로부터 신뢰도의 요구조건을 충족시키는 연관성 규칙을 찾아내는 것이다. 첫 번째 단계는 데이터베이스에서 희소한 항목조합들을 제거하는 것이고, 두 번째 단계는 1단계에서 걸러진 규칙들 중에서 신뢰도가 높은 규칙들을 선택하는 것이다.

 

4) 결과에 대한 해석

연관성규칙의 결과를 해석할 때, 다양한 측정도구를 활용하는 것이 유용하다. 규칙의 지지도는 전체 데이터의 관점에서 규칙의 영향도를 나타낸다. 그렇다면 해당 사례의 비중은 얼마만큼 중요한가? 만약 중요한 사례의 개수가 단지 작다고 한다면 그 규칙은 유용하지 않을 것이다. 

향상도는 규칙이 후행 항목집합을 찾는 데 임의의 선택과 비교해서 얼마나 효율적인지를 나타낸다. 높은 효율성을 갖는 규칙은 비효율적인 규칙보다 물론 좋긴 하겠지만 지지도를 고려해봐야 한다. 즉 낮은 지지도를 갖는 효율성이 높은 규칙은 높은 지지도를 갖는 효율성이 낮은 규칙보다 선호되지 않을 수 있다.

신뢰도는 후행 항목집합이 나타날 비율을 알려주며, 해당 규칙이 실제업무에 도움이 되는지를 판단하는데 유용하다.

Association Rule [그림 출처 : PianalytiX]

'숫자' 카테고리의 다른 글

군집 분석(2)  (1) 2023.04.16
군집 분석 (1)  (0) 2023.04.15
판별분석  (0) 2023.04.13
신경망 모델  (0) 2023.04.12
로지스틱 회귀분석  (0) 2023.04.11

댓글