상세검색
최근 검색어 전체 삭제
다국어입력
즐겨찾기0
153075.jpg
KCI등재 학술저널

로지스틱 회귀 모형을 이용한 연관성 규칙 채택률의 추정

Estimation of Association Rule Adoption Rates Using Logistic Regression Models

  • 7

데이터 마이닝은 빅 데이터 안에 잠재되어 있는 정보나 예기치 못한 규칙 등을 탐색하여 이를 의사결정을 위한 근거로 활용하고자 하는 것이다. 본 논문에서는 연관성 평가 기준을 이용한 규칙의 채택률을 추정하기 위한 3 종류의 로지스틱 회귀 모형을 제안하고, 예제를 이용하여 가장 적절한 모형의 선정 방안에 대해 토의하였다. 각 모형에 대해 적합도를 검정한 결과, 모형 1(지지도와 신뢰도를 고려한 모형)은 적합하지 않는 것으로 나타났다. 따라서 이를 제외하고 모형 2(신뢰도와 향상도를 고려한 모형)와 모형 3(지지도와 향상도를 고려한 모형)에 대해 분류 결과의 정확도를 비교해본 결과. 모형 3보다는 모형 2가 더 높게 나타났다. 또한 모형 2에서는 향상도의 회귀계수의 값이 신뢰도의 회귀계수 값보다 크며, 모형 3에서는 지지도의 회귀계수에 비해 향상도의 회귀계수의 값이 크게 나타났다. 오즈비를 비교해보면 모형 2에서는 신뢰도가 한 단위 증가하면 상대비가 1.142배 증가하는 반면에 향상도가 한 단위 증가하면 상대비가 1.345배 증가하며, 모형 3에서는 지지도가 한 단위 증가하면 상대비가 1.088배 증가하는 반면에 향상도는 1.278배 증가하는 것으로 나타났다. 이들의 결과를 종합해볼 때 모형 2가 가장 바람직한 것으로 나타났다.

Data mining is to explore useful information or unexpected rules in a big database and to be utilized as a basis for decision making. In this paper we proposed three types of logistic regression models to estimate association rule adoption rate and discussed the most appropriate model selection methods by numerical examples. First, Hosmer-Lemeshow goodness-of-fit statistics of model 2 (model of confidence and lift) and model 3 (model of support and lift) was not significant, but that of model 1 (model of support and confidence) was significant. The accuracy of classification of model 2 was larger than that of model 3 (model of support and lift). Coefficient of lift was larger than that of confidence in the regression equation of model 2, and coefficient of lift was larger than that of support in model 3. The odds of confidence was 1.142, and that of lift was 1.345 in model 2. The odds of support was 1.088, and that of lift was 1.278 in model 3. After all these analysis, model 2 was the best logistic regression model.

1. 서론

2. 로지스틱 회귀 모형을 이용한 연관성 규칙의 생성

3. 적용 예제

4. 결론

References

로딩중