목차
데이터 분석 연관성 규칙을 찾을 때 지지도, 신뢰도, 향상도라는 것을 사용합니다. 이것에 대해 알아보도록 하겠습니다. 정보관리기술사 119회에 나온 문제중 일부로 지지도, 신뢰도, 향상도를 구해 보도록 하겠습니다.
문제
아래 데이터를 참조하여 '기저귀 -> 맥주'의 지지도, 신뢰도, 향상도를 도출하시오
거래번호 | 구매한 상품 |
---|---|
1003 | 기저귀, 맥주, 빵 |
1056 | 기저귀, 맥주 |
1071 | 기저귀, 빵, 음료수 |
2005 | 빵, 음료수, 커피 |
지지도(Support)
A상품과 B상품을 같이 구매한 횟수 / 전체 구매 횟수
$$ 지지도 = P(A \cap B) $$
지지도는 전체 구매에서 교집합의 비율을 보는 것입니다. 전체 거래 4건과 기저귀와 맥주를 동시에 구매한 1003, 1056번 2건에 대한 비율을 구해줍니다. 2 / 4로 50%가 됩니다.
신뢰도(Confidence)
A상품과 B상품을 같이 구매한 횟수 / A상품 구매 횟수
$$ 신뢰도 = \frac{P(A \cap B)}{P(A)} = \frac{지지도}{P(A)} $$
신뢰도는 전체가 아닌 기저귀의 구매 횟수에서 기저귀, 맥주 둘다 구매한 횟수 입니다. 기저귀, 맥주를 구매한 횟수는 2이고, 기저귀의 구매 횟수는 3이기 때문에 2 / 3으로 66.7%가 됩니다.
위 공식은 결국 지지도를 기저귀의 확률로 나눈것과 같습니다. 위에서 구한 기저귀, 맥주의 지지도는 0.5이고 기저귀의 구매 비율은 3/4 입니다. (1 / 2) / (3 / 4)를 계산하면 2 / 3이 되고 결국 66.7%가 되는 것을 알 수 있습니다.
향상도(Lift)
B 항목을 샀을 때 대비 A 상품을 사고 B상품을 샀을 때 구매할 확률 증가값
$$ 향상도 = \frac{P(A \cap B)}{P(A)P(B)} = \frac{지지도}{P(A)P(B)} = \frac{신뢰도}{P(B)} $$
향상도는 기저귀와 맥주가 동시에 구매되는 경우와 맥주만 구매되는 경우의 비율로 구해줍니다. 즉 신뢰도를 맥주의 구매 확률로 나누어 줍니다. 이 때 구해진 향상도가 1이라면 기저귀와 맥주의 구매에는 아무런 연관이 없는 독립관계입니다. 향상도가 1보다 크다면 양의 상관 관계를 가져 기저귀를 구매하면 맥주를 구매하는 경우가 많다는 것을 뜻합니다.
반대로 향상도가 1보다 작다면 기저귀를 구매하는 경우 맥주를 사는 경우가 적어진다는 뜻이 됩니다. 그럼 위 예제로 향상도를 구해보겠습니다.
기저귀, 맥주를 모두 구매하는 경우 2를 기저귀만 구매하는 3, 맥주만 구매하는 2로 나누어주면 1 / 3으로 33.3%가 됩니다.
위 식에서 신뢰도를 B의 확률로 나누어주어도 같은 결과를 얻을 수 있다고 했습니다. 신뢰도 2 / 3에 맥주의 확률 1 / 2 로 곱하여 주면 1 / 3이 되어 66.7%로 앞에서 구한 결과와 같음을 알 수 있습니다.
'IT 지식' 카테고리의 다른 글
[ISO 22301] 비즈니스 연속성 경영 시스템 (0) | 2023.11.16 |
---|---|
디지털 가든 만들기 (1) | 2023.10.31 |
ESG 경영 (1) | 2023.10.26 |
Data Mining 이란? (0) | 2023.10.24 |
ITSM 이란? (0) | 2023.10.22 |