상세검색
최근 검색어 전체 삭제
다국어입력
즐겨찾기0
커버이미지 없음
KCI등재 학술저널

영과잉 계수형 자료 분석을 위한 허들 나무모형 구축

Hurdle Decision Tree for Zero Inflated Count Data

DOI : 10.37727/jkdas.2017.19.4.1831
  • 85

영과잉 계수형 자료란 반응변수가 0 이상의 숫자로 이뤄진 자료 중 0이 과도하게 관측되는 형태를 의미한다. 영과잉 계수형 자료를 분석하기 위한 모형으로 영과잉 포아송 모형, 허들 모형 등이 개발되었으며 이를 위한 의사결정나무 방법론으로 영과잉 포아송 나무모형이 제안되었으나 분류변수선택의 편향과 과도한 계산비용의 문제가 발생하였다. 이를 해결하기 위해 영과잉 자료분석을 위한 의사결정나무가 제안되었지만 특정 형태의 영과잉 계수형 자료만 설명할 수 있다는 한계가 있다. 따라서 본 논문에서는 모든 형태의 영과잉 계수형 자료를 아우를 수 있도록 영과잉 포아송 모형이 아닌 허들 모형을 기반으로 한 의사결정나무 모형을 제안하고자 한다. 또한 분류변수 선택과 분류지점 선택을 분리한 잔차분석방법을 통한 알고리즘을 제안하였다. 이를 분류 가능한 모든 경우를 고려하는, 기존의 의사결정나무 알고리즘으로 널리 알려진 전체탐색 방법과 비교하여 변수 선택과 계산시간의 비효율성이 개선됨을 검증하였다. 마지막으로 실제 사례에 전체탐색방법과 잔차분석방법을 기반으로 한 나무모형을 적용시켜 제안한 모형의 효율을 확인하였다.

Zero-inflated count data refers to a form in which zeros are overestimated in responses with a number greater than or equal to zero. For analyzing zero-inflated count data, zero-inflated Poisson and Hurdle models were developed. A zero-inflated decision tree was also developed, but it has a bias problem in selecting split variables and excessive computational cost. To solve these problems, an alternative decision tree algorithm has been proposed, but it is limited in that only certain types of zero-inflated data can be explained. Therefore, we propose a new decision tree based on a Hurdle model rather than a zero-inflated Poisson model to cover all forms of zero excess count data. Our proposed algorithm is based on residual analysis that separates split variable and point selections. It is verified that split variable selection and computation time can be improved by comparing with the conventional search algorithm. Finally, the efficiency of the proposed model is confirmed by comparing exhaustive search method and residual analysis with simulated and is demonstrated with real data.

1. 서론

2. 허들 나무 분석 방법론

3. 모의실험

4. 사례연구

5. 결론

로딩중