상세검색
최근 검색어 전체 삭제
다국어입력
즐겨찾기0
152971.jpg
KCI등재 학술저널

추출률 변동에 의한 CHAID 알고리즘의 탐색

Exploration of CHAID Algorithm by Sampling Fraction

  • 7

데이터마이닝 기법에는 연관성 규칙, 의사결정나무, 신경망 분석, 클러스터링, 유전자 알고리즘, 베이지안 네트워크, 메모리-기반 추론 등이 있다. 데이터마이닝 기법 중 하나인 의사결정나무 알고리즘은 의사결정 규칙을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 방법이다. CHAID 알고리즘은 예측변수들과 독립변수간의 관계를 탐색하여 나무 모형을 생성하는 의사결정나무의 대표적인 알고리즘이다. CHAID 알고리즘은 거대한 양의 데이터에 대하여 모형을 구축 시 시간과 노력이 많이 드는 단점이 있다. 이에 본 논문에서는 방대한 데이터베이스에 대하여 샘플링 기법을 CHAID 알고리즘에 적용시켜 기존의 CHAID 알고리즘의 나무 모형과 동일하면서 모형구축 시간을 단축시키는 알고리즘을 제시한다. 추출률에 의한 CHAID 알고리즘을 적용하면 의사결정나무 모형 구축 시 모형의 정확도는 그대로 유지하면서 수행속도는 줄일 수 있어 효율적으로 모형을 구축할 수 있다.

There are association rule, decision tree, neural network analysis, clustering, geneic algorithm, bayesian network, memory-based reasoning, etc in data mining techniques. Decision tree algorithm is used extensively for data mining in many domains such as retail target marketing, fraud dection, data reduction and variable screening, interaction effect identification, category merging and discretizing continuous variable, etc. CHAID is an exploratory method used to study the relationship between a dependent variable and a series of predictor variables. CHAID algorithm takes many time to build tree model in very large database. In this paper we explore CHAID algorithm in view of accuracy and speed by sampling fraction. CHAID algorithm by sampling fraction can effective build tree model when we create decision tree model.

1. 서론

2. 추출률에 의한 CHAID 알고리즘

3. 예제 및 모의실험

4. 결론

참고문헌

로딩중