
연관성 규칙에서의 대칭적 기준 확인 측도와 확률적 흥미도 측도와의 비교 연구
Comparison Study of Symmetric Confirmation Measures and Probabilistic Interestingness Measure
- 박희창(Hee-Chang Park)
- 한국자료분석학회
- Journal of The Korean Data Analysis Society (JKDAS)
- Vol.17 No.2
- 등재여부 : KCI등재
- 2015.04
- 749 - 758 (10 pages)
오늘날 데이터양의 폭증으로 인해 기존 데이터베이스 관리도구로는 다루기 힘든 대용량의 정형 또는 비정형 데이터를 분석하는 빅 데이터 처리기술이 화두로 떠오르고 있다. 이에 대한 대표적인 분석 기법이 데이터마이닝인데 이 기법 중에서 연관성 규칙이 많이 활용되고 있다. 연관성 규칙은 빅 데이터에 존재하고 있는 항목들 간의 흥미도 측도를 기준으로 상호 관련성을 찾아내는 기법이다. 본 논문에서는 대칭적 기준 확인 측도에 대해 확률적 흥미도 측도와의 관계를 수식을 통해 유도하였으며, 대칭적 기준 확인 측도와 비대칭 기준 확인 측도의 관계에 대해서도 양 방향에 의한 정의를 통해 비교하는 동시에 예제를 통해 이들의 변화하는 양상을 고찰하였다. 그 결과, 확률적 흥미도 측도는 연관성의 방향을 나타내고는 있으나 값의 범위가 이므로 연관성 평가 측도로서는 바람직하지 않으며, 비대칭 기준 확인 측도는 확률적 흥미도 측도보다는 더 바람직한 평가기준이라고 할 수 있으나 전항과 후항이 바뀌면 그 값이 달라져서 균형 잡힌 측도라고 보기 어렵다는 사실을 확인하였다. 반면에 대칭적 기준 확인 측도는 전항과 후항이 바뀌더라도 그 값이 변하지 않았으므로 평가 기준으로 바람직하다고 할 수 있다. 또한 대칭적 기준 확인 측도들 중에서는 Finch(1960)가 제안한 대칭적 기준 확인 측도가 범위가 [-1, 1]이고 변화 폭이 크게 나타나서 가장 바람직한 평가측도로 확인되었다.
Today, big data processing technology has emerged as a buzzword. Big data is the process of examining voluminous amounts of structured or unstructured data. Data mining is the technique of sorting through a big database and discovering useful information. One of the well-studied problems in data mining is association rule. Association rule mining finds the meaningful relationship among itemsets in a big database using interestingness measures. In this paper we investigated the relation between symmetric confirmation measures and probabilistic interestingness measure. Afterwards, comparative studies with probabilistic interestingness measure and asymmetric confirmation measures were shown by real data analysis and simulation study. As the result, we found that the value of symmetric confirmation measures did not change even though antecedent item and consequent item had exchanged, and the symmetric confirmation measure of Finch (1960) was the best threshold because the range of values was [-1, 1] and the width of change is the largest.
1. 서론
2. 확률적 흥미도 측도에 의한 대칭적 기준 확인 측도
3. 예제를 통한 고찰
4. 결론
References