연관성 규칙에서 순수 대칭적 균형 교차 엔트로피 측도의 제안
A Proposal of Purely and Symmetrically Balanced Cross Entropy in Association Rule
- 한국자료분석학회
- Journal of The Korean Data Analysis Society (JKDAS)
- Vol.22 No.1
- : KCI등재
- 2020.02
- 147 - 157 (11 pages)
오늘날 국가 또는 기업에서 빅 데이터를 분석하고 활용한다는 것은 바로 빅 데이터가 경제적 자산이 되고 있음을 말해주고 있으며, 대용량 데이터 처리 기법의 발전과 함께 각 분야에서 빅 데이터 기술의 활용이 활발히 이루어지고 있다. 빅 데이터 분석에서 널리 활용되고 있는 데이터 마이닝 기법은 대용량의 데이터베이스로부터 이들 내에 존재하는 규칙이나 패턴 등을 탐색하여 모형화함으로써 의미 있는 지식을 추출하는 일련의 과정들이다. 본 논문에서는 데이터 마이닝 도구 중에서 연관성 규칙의 흥미도 측도로 사용하기 위해 교차 엔트로피를 변형하여 순수 대칭적 균형 교차 엔트로피 측도를 제안하였으며, 예제를 통해 기존의 측도들과 비교함으로써 유용성을 고찰하였다. 그 결과, 순수 대칭적 균형 교차 엔트로피 측도는 기존의 측도들에 비해 연관성의 정도가 더 큰 값을 가지면서 변하는 것으로 나타났으며, 각 사례간의 연관성 값의 변화량도 기존의 측도들보다 더 큰 것으로 나타나서 연관성 규칙의 생성 유무를 더 분명하게 파악할 수 있게 해준다는 사실을 발견하였다. 따라서 연관성 규칙의 평가 기준으로서는 순수 대칭적 균형화 교차 엔트로피 측도가 기존의 측도들보다 더 바람직하다고 할 수 있다.
Today, analyzing and leveraging big data in countries or corporations means that big data is becoming an economic asset, and big data is being actively used in various applications with the development of large data processing technology. Data mining, one of the big data analysis techniques, is a series of processes that extract meaningful knowledge by searching and modeling rules and patterns existing in large databases. In this paper, we proposed a purely and symmetrically balanced cross entropy measure by modifying the cross entropy to use it as a interestingness measure in the association rule, and considered the usefulness by comparing it with existing measures through examples. As a result, the purely and symmetrically balanced cross entropy measure was found to change with larger values than the existing measures, and the amount of change in each case was also larger than the existing measures. Therefore, the purely and symmetrically balanced cross entropy measure is more preferable than the existing measures as an evaluation criterion of the association rule.
1. 서론
2. 순수 대칭적 균형 교차 엔트로피의 유도 과정
3. 적용 예제
4. 결론
References