상세검색
최근 검색어 전체 삭제
다국어입력
즐겨찾기0
Journal of The Korean Data Analysis Society (JKDAS) Vol.25 No.4.jpg
KCI등재 학술저널

랜덤 포레스트 모델을 이용한 성인의 우울증 예측

Predicting Depression om Adults using a Random Forest Model : Focusing on the 8th Korean National Health and Nutrition Examination Survey

DOI : 10.37727/jkdas.2023.25.4.1449
  • 72

본 연구는 기계학습 중 하나인 랜덤 포레스트 모델을 통해 성인의 우울을 예측하고자 시도되었다. 모델의 학습을 위한 연구 대상은 국민건강영양조사 8기(2019-2021) 자료 중 2주 이상의 우울감을 가진 대상자 1,086명, 가지고 있지 않은 대상자 8,826명으로 전체 9,896명으로 입력 변수는 20개였다. 본 연구의 모델 구축 및 평가를 위해 모든 코드는 Python 3.9.7로 작성되었으며, 통계 및 모델 구축을 위해 SciPy 1.614, ELI5, Scikit-learn 1.2.2, 패키지가 사용되었다. 분석은 학습에 사용될 원시 자료의 상관관계와 평균, 표준편차, 빈도, 비율, 그리고 모델의 예측에 영향을 주는 변수들의 값과 모델의 종합적 성능을 평가하였다. 연구결과 우울증 예측에 영향을 주는 요인들로 스트레스, 성별, 직업, 신체활동, 건강 상태가 확인되었으며, 가장 큰 영향을 주는 요인은스트레스(0.099±0.008; 0.081±0.008)였다. 모델의 전반적 성능(AUC)은 0.920(95% CI, 0.919–0.921)로 정확도는 0.921(95% CI, 0.920-0.922)로 나타났다. 구축된 모델은 우울증의 패턴을 찾아낼 수있었으며, 임상 현장에서 우울증 선별에 있어 신속하고 정확한 결정을 지원할 수 있을 것이다.

This study attempted to predict depression in adults using a random forest model, a type of machine learning. The research subjects for training the model were 1,086 subjects with depression for more than 2 weeks and 8,826 subjects without depression, totaling 9,896 subjects from the 8th Korea National Health and Nutrition Examination Survey (2019-2021), and 20 input variables. For model building and evaluation in this study, all code was written in Python 3.9.7, and packages SciPy 1.614, ELI5, and Scikit-learn 1.2.2 were used for statistics and model building. The analysis evaluated the correlations, means, standard deviations, frequencies, proportions, and values of the variables affecting the prediction of the model and the overall performance of the model. The results showed that stress, gender, occupation, physical activity, and health status were identified as factors affecting the prediction of depression, with stress being the most influential (0.099±0.008; 0.081±0.008). The overall performance (AUC) of the model was 0.920 (95% CI, 0.919-0.921) with an accuracy of 0.921 (95% CI, 0.920-0.922). The built model was able to detect patterns of depression and could support rapid and accurate decisions in screening for depression in clinical settings.

1. 서론

2. 연구방법

3. 연구결과

4. 논의

References

로딩중