
치매 발병 여부 예측을 위한 통계적 모형 및 기계학습 기반 기법 적용에 관한 연구
A Study on the Application and Comparison of Statistical Models and Machine Learning-based Techniques for Predicting the Onset of Dementia
- 한국자료분석학회
- Journal of The Korean Data Analysis Society (JKDAS)
- Vol.22 No.5
- : KCI등재
- 2020.10
- 1819 - 1834 (16 pages)
본 연구에서는 국민건강보험공단에서 제공하는 건강검진데이터를 활용하여 노인 당뇨병 환자들의 치매 발병 여부를 예측하고 가장 높은 예측 성능을 보이는 모형을 도출하고자 하였다. 연구 대상은 60세 이상 당뇨병 환자이며 성별, 연령, 4가지 대표적인 동반 질환(고혈압, 뇌졸중, 심장질환, 고지혈증) 발병 여부, 찰슨 동반 상병 지수, 당뇨병 약의 복용 여부를 설명변수로 사용하였으며 반응변수로 치매 발병 여부를 활용하였다. 본 연구를 위해 사용된 분석 모형으로는 생존분석에서 가장 보편적으로 사용되는 콕스 회귀모형과 기계학습 기반의 랜덤 생존 포레스트(random survival forest)와 딥서브(DeepSurv)를 적용하였다. 분석 데이터는 80%의 훈련 자료와 20%의 시험 자료로 구분하였으며 두 자료의 설명변수 및 반응변수의 차이는 존재하지 않음을 확인하였다. 하렐의 C지수를 통해 본 연구에서 적용한 콕스 회귀모형과 랜덤 생존 포레스트, 딥서브 모형 간 당뇨병 환자의 치매 발생 여부의 예측 성능을 비교하였으며 훈련 자료에서는 랜덤생존 포레스트, 시험 자료에서는 딥서브가 가장 높은 예측 성능을 보였다. 또한, 높은 위험도를 나타내는 변수를 추가하며 C지수의 증가 정도를 비교한 후 치매 발병 여부를 예측하기 위한 중요 요인을 도출하였다.
In this study, the health examination data provided by the National Health Insurance Service were used to predict the occurrence of dementia in elderly diabetics and to derive a model that showed the highest predictive performance. The explanation variables are gender, age, the incidence of four major companion diseases (hypertension, stroke, cardiovascular disease, hyperlipidemia) and Charlson Comorbidity Index and the response variable is dementia. The models used for this study were cox proportional hazard model that is the most commonly used linear models in survival analysis and Random Survival Forest and DeepSurv that are nonlinear models machine running techniques and deep running techniques. The analysis data were divided into 80% training data and 20% test data, and it was confirmed that there was no difference between the explanatory and response variables of the two data. Using Harrell s C index, the predicted performance of dementia in diabetics between Cox regression model, Random Survival Forest and DeepSurv model was compared. Among the 3 models, the Random Survival Forest showed the highest predicted performance, while the test data showed the highest predicted performance of the DeepSurv. In addition, an important factor was derived in predicting the incidence of dementia after comparing the increase in the C index by adding variables representing high risk.
1. 서론
2. 연구대상 및 방법
3. 결과
4. 결론
Reference