
최빈값 추정을 위한 의사결정나무
Decision Tree for Mode Estimation
- 한국자료분석학회
- Journal of The Korean Data Analysis Society (JKDAS)
- Vol.25 No.3
- : KCI등재
- 2023.06
- 903 - 911 (9 pages)
의사결정나무는 분류 규칙을 기반으로 데이터를 재귀적으로 분할하여 예측을 수행하는 데이터 마이닝 방법론 중 하나이다. 나무 구조를 통해 분석 결과를 이해할 수 있어 예측력뿐만 아니라 높은 해석력을 동시에 갖는 장점이 있다. 또한 반응변수와 설명변수 간 비선형 상관관계에도 사용이 가능한 장점 때문에 많은 분야에서 활용되고 있다. 하지만 예측 목적이 반응변수의 최빈값인 경우, 기존에 제안된 의사결정나무를 적용할 수 없다는 한계가 있다. 본 연구는 커널 밀도 추정 방법을 의사결정나무 모형에 접목하여 새로운 형태의 최빈값 의사결정나무(modal decision tree) 모형을 정의한다. 모의실험은 4가지 모형으로 진행하였으며 설명변수와 반응변수가 선형 및 비선형 상관관계일 때, 데이터의 크기별로 결과를 비교하였다. 모의실험 결과를 통해 데이터가 선형 상관관계인 경우, 본 논문에서 제안하는 최빈값 의사결정나무 모형과 기존에 제안된 최빈값 선형 회귀(modal linear regression: MODLR)모형과 성능이 비슷하게 보이는 반면 데이터가 비선형 상관관계인 경우, 본 논문에서 제안하는 최빈값 의사결정나무 모형 성능이 더 우수함을 보인다.
Decision trees are one of the data mining techniques that make predictions by recursively partitioning data structures based on split rules. Since the analysis results can be understood through the tree structure, it has the advantage of having high interpretation power as well as predictive power. In addition, it is used in many fields because it is able to identify nonlinear relationships between response and predictor variables. However, if the purpose of it is to predict the mode of the response variable, there is a limitation in that the previously proposed decision tree cannot be applied. Thus, we develop a new form of the modal decision tree model by integrating the kernel density estimation methods into the decision tree model. The simulation is conducted with four models. The results are compared for each size of the data when the predictor variable and the response variable are linear and nonlinear relationship cases. When the data has a linear relationship, the performance of the modal desicion tree model proposed in this paper is comparative to that of the previously proposed modal linear regression (MODLR) model. When the data has a nonlinear relationship, the performance of the modal tree model is better.
1. 서론
2. 연구 배경
3. 모의 실험
4. 결론
References