혼합 반응 변수를 위한 의사결정나무에서 분류 변수 선택
Split Variable Selection in Decision Tree for Mixed Responses
- 한국자료분석학회
- Journal of The Korean Data Analysis Society (JKDAS)
- Vol.15 No.3
- : KCI등재
- 2013.06
- 1339 - 1345 (7 pages)
의사결정나무는 데이터마이닝에 쓰이는 대표적인 알고리즘 중 하나로 분류와 해석, 예측의 장점을 가지고 있다. 일변량 반응변수의 의사결정나무와 동일한 유형의 다변량 반응변수의 의사결정나무는 많은 연구가 되고 있다. 하지만 반응변수가 연속형과 범주형이 혼합된 자료 분석을 위한 의사결정나무는 연구가 제대로 이루어지고 있지 않다. 두 개 이상의 반응 변수를 일변량으로 따로 분석하는 것에 비해 동시에 분석할 경우에 더 간략한 모형으로 두 유형의 반응 변수를 함께 설명하고 해석할 수 있다는 장점이 있다. 기존의 알고리즘은 CART 알고리즘을 확장했기 때문에 분류변수 선택 편의와 과도한 계산비용의 문제가 존재한다. 본 논문에서는 혼합 반응변수자료 분석을 위한 의사결정나무에서 분류 변수 선택에 대해 연구하였다. 연구 결과로 전체 탐색알고리즘은 변수의 중요도보다 분할 가능한 수가 많은 변수를 선호하는 경향이 있음을 알 수 있었다. 반면에 잔차 분석 알고리즘은 변수의 분포와 상관없이 변수의 중요도에 따라 분할 변수로 선택하였다. 또한, 전체 탐색 방법에 비해 잔차 분석 방법이 월등히 빠른 계산 속도를 가짐을 확인하였다.
Decision tree is one of the popular data mining tools and has the merits in classification, interpretation, and prediction. A number of algorithms have been developed for univariate data, while few studies exist for the mixed response data. When there are two or more response variables of different types, the variables can be explained and interpreted at the same time by the simpler model from simultaneous analysis rather than separate analyses. The previous tree algorithms for mixed data are based on CART, so they require much computing time and tend to generate selection bias. In the paper, we studied split variable selection for mixed response data. We found that an exhaustive search algorithm had a preference to split variables with more possible splits rather than important variables. In contrast, a residual analysis algorithm accounted for variable importance for split variable selection rather than variable distribution. In addition, a residual analysis algorithm was computationally less expensive than an exhaustive search algorithm.
1. 서론
2. 분할 변수 선택 알고리즘
3. 모의 실험
4. 결론
References