상세검색
최근 검색어 전체 삭제
다국어입력
즐겨찾기0
커버이미지 없음
KCI등재 학술저널

연관성 규칙 기술에서 순수 교차 엔트로피 측도의 제안

Proposition of Pure Cross Entropy in Association Rule Technique

DOI : 10.37727/jkdas.2018.20.2.669
  • 5

빅 데이터 시대에 주목받고 있는 기술 중의 하나인 데이터 마이닝은 구슬을 꿰어야 보배가 되는 것처럼 데이터 집합에 숨겨진 유용한 정보를 탐색하는 기법이다. 데이터마이닝 기법 중에서 연관성 규칙 기술은 다양한 흥미도 측도를 근거로 하여 관심 있는 대상들 간의 연관성 유무를 탐색하는 것으로 데이터마이닝 기법 중에서 많이 활용되고 있는 기법 중의 하나이다(Park, 2017a). 연관성 규칙의 평가 기준 중에서 신뢰도는 양의 신뢰도, 두 종류의 음의 신뢰도, 그리고 역의 신뢰도가 있으나 보통의 경우에는 양의 신뢰도만을 사용함으로써 연관성 규칙의 순수성에 문제가 야기될 수 있다. 이러한 점을 해결하기 위해 본 논문에서는 주변 확률을 이용한 교차 엔트로피 측도 대신 각 상태에서 대립되는 신뢰도를 고려한 순수 교차 엔트로피 측도를 제안하고, 예제를 통해 비교하였다. 네 종류의 모의실험을 통해서 비교해본 결과, 교차 엔트로피와 순수 교차 엔트로피 둘 다 감소하다가 증가하는 것으로 나타났다. 또한 교차 엔트로피와 순수 교차 엔트로피 중에서 후자의 값의 크기가 전자보다 더 커서 연관성을 평가하고자 하는 경우에 좀 더 명확하게 이용할 수 있으며, 값의 변화 폭도 후자가 더 큰 것으로 나타나서 후자의 측도가 더 바람직한 것으로 나타났다.

Data mining, one of the technologies that are attracting attention in the big data era, is a technique to search for useful information hidden in a data set as if it is a surplus of beads. Among the data mining techniques, association rule is one of the techniques used in data mining techniques to search for relationship among interested objects based on various interestingness measures (Park, 2017a). For confidence evaluation of the association rule, there are positive confidence, two types of negative confidence, and inverse confidence. But using only positive confidence can cause problem with the purity of the association rule. To solve this problem, we proposed a pure cross entropy measure that considers contrasted confidence in each state instead of the cross entropy measure using marginal probability. As a result of the comparison between the four kinds of simulations, both the cross entropy and the pure cross entropy decreased and then increased. In addition, the value of the pure cross entropy is larger than the cross entropy, so that it can be used more clearly when evaluating association.

1. 서론

2. 순수 교차 엔트로피의 제안

3. 적용 예제

4. 결론

References

로딩중