연관성 평가를 위한 조정된 순수 교차 엔트로피의 제안
Proposal of Adjusted Pure Cross Entropy for Associativity Assessment
- 박희창(Hee-Chang Park)
- 한국자료분석학회
- Journal of The Korean Data Analysis Society (JKDAS)
- Vol.21 No.2
- 등재여부 : KCI등재
- 2019.04
- 697 - 703 (7 pages)
오늘날의 빅 데이터 시대에 주목받고 있는 여러 기술 중의 하나인 데이터 마이닝은 방대한 데이터 집합에 숨겨진 의미 있고 유용한 정보를 탐색하는 기법이다. 일반적으로 현업에서 다양하게 이용되고 있는 데이터마이닝 기법 중에서 연관성 규칙은 신뢰도와 지지도, 그리고 향상도 등의 여러 유형의 흥미도 측도로 관심 있는 항목들 간의 연관성을 생성하고 탐색하는 기법이다(Park, 2017a). 연관성 규칙의 평가 기준 중에서 기본적인 측도들은 대체적으로 양의 값을 가지므로 이로 인해서는 연관성의 방향을 파악하기가 곤란하다(Park, 2015). 특히 향상도는 변화의 폭이 매우 크므로 그 값 자체로는 행태적 해석이 곤란하므로 향상도의 대체 측도로 활용하기 위해 순수 교차 엔트로피와 수정된 교차 엔트로피가 제안된 바 있다. 본 논문에서는 수정된 교차 엔트로피와 순수 교차 엔트로피 측도의 장점을 동시에 고려한 조정된 순수 교차 엔트로피를 제안하였다. 그 결과, 조정된 순수 교차 엔트로피 측도는 부호를 가지고 있어서 이 측도로 연관성의 방향을 가늠할 수 있으며, 절대값의 크기가 수정된 교차 엔트로피에 비해 조정된 순수 교차 엔트로피가 더 크게 나타나고 있으며, 각 사례별로 변하는 폭도 더 크다는 것을 알 수 있었다.
Among the data mining techniques that are commonly used in the industry, the association rules are generated and searched for relationships among items of interest with various types of interestingness measures such as confidence, support, and lift (Park, 2017a). Among the evaluation criteria of association rule, the basic measures generally have a positive value, which makes it difficult to grasp the direction of the association (Park, 2015). In particular, since the degree of change in lift is very large, the behavior itself is difficult to analyze. Therefore, pure crossover entropy and modified crossover entropy have been proposed for use as an alternative measure of lift. In this paper, we proposed a modified pure crossover entropy considering both the merits of the modified cross entropy measure and the pure cross entropy measure. As a result, the adjusted pure cross entropy measure had a sign, which could be used to determine the direction of the association, and absolute value of the adjusted pure cross entropy was larger than that of the modified cross entropy.
1. 서론
2. 조정된 순수 교차 엔트로피의 제안
3. 예제에 의한 고찰
4. 결론