표준화 연관성 평가 측도에 의한 규칙 수 추정 모형의 비교에 관한 연구
Comparison of Regression Models by Standardized Association Thresholds for Rule Number Estimation
- 한국자료분석학회
- Journal of The Korean Data Analysis Society (JKDAS)
- Vol.20 No.3
- 
                                                
                                                    2018.061181 - 1189 (9 pages)
- 
                                                
                                                    DOI : 10.37727/jkdas.2018.20.3.1181
- 10
빅 데이터로부터 최적의 의사결정을 하기 위해 연관성 규칙, 의사결정나무, 군집분석, 그리고 회귀분석 등의 데이터마이닝 기법이 많이 활용되고 있다(Park, 2013). 이들 중에서 연관성 규칙은 각 항목간의 연관성을 평가하기 위해 지지도, 신뢰도, 향상도 등의 기준 측도를 근거로 하여 규칙을 생성하게 된다. 본 논문에서는 연관성 규칙의 수를 결정하기 위해 가장 바람직한 비선형 회귀 모형을 선정하는 방안을 강구하고자 한다. 이를 위해 기본적인 연관성 평가 기준에 의한 모형과 표준화 평가 기준을 이용한 모형에 대해 회귀계수를 추정한 후, 다중공선성 문제를 진단하고 각 모형의 기여도를 비교하였다. 그 결과, 기본적인 연관성 평가 기준을 고려한 회귀 모형은 모형의 적합도 관점에서는 모두 유의하고 자기상관계수의 값이 모두 2에 가까우며, 모형에 고려된 많은 측도들이 의미가 있는 것으로 나타났으나 분산팽창계수의 값들이 모두 10을 초과하게 되어 다중공선성이 존재하는 것으로 나타났기 때문에 모든 모형이 의미가 없는 것으로 나타났다. 반면에 표준화 연관성 평가 기준을 적용한 회귀 모형은 적합도를 만족하는 동시에 자기상관계수의 값이 모두 2에 가깝게 나타났으며, 분산팽창계수도 기본적인 모형에 비해 훨씬 작은 값으로 나타나서 바람직한 모형을 찾을 수 있었다.
We have used data mining technique such as association rule, decision, regression analysis, and clustering for optimal decision making from big data. Association rule mining is a popular and well studied method for discovering useful rules among items in large amounts of database using thresholds such as support, confidence, and lift. Association thresholds are useful in that they show the tools for pruning uninteresting rules logically. But these thresholds are chosen by experiences, and so the number of meaningful rules is hard to estimate (Park, 2014b). If too many rules are generated, we can’t effectively extract meaningful information by association rule technique (Park, 2013). In this paper, we designed several multiple non-linear regression models between the number of rules and standardized interestingness measures. And then we compared these equations with regression models of elementary thresholds by simulation study. We confirmed that regression models of standardized interestingness measures were better than those of original thresholds.
1. 서론
2. 표준화 평가 기준에 의한 비선형 회귀 모형
3. 적용 예제
4. 결론
References
(0)
(0)