사회과학 대용량 자료 분석을 위한 벌점회귀모형과 결측처리기법의 성능 비교

A Monte-Carlo simulation on penalized regression and msising data techniques for social science large-scale data

DOI : 10.31158/JEEV.2019.32.4.755
본 몬테카를로 모의실험의 목적은 사회과학 분야의 대용량 자료 분석에 적합한 결측처리기법과 벌점회귀모형을 파악하는 것이었다. 먼저 KCYPS(Korean Chidren and Youth Panel Survey) 자료의 특징을 모방하여 340개 변수와 2,000명 자료를 생성하고 MAR 또는 MNAR 결측 메커니즘으로 결측을 발생시켰다. 다음으로 완전제거법, k-NN 대체법, 또는 EM 알고리즘 대체법으로 결측을 대체하고, 대체된 자료에 LASSO, adaptive LASSO, 또는 MCP 벌점회귀모형을 적용하였다. 결측 메커니즘(MAR, MNAR), 결측처리기법(완전제거법, k-NN, EM), 그리고 벌점회귀모형(LASSO, adaptive LASSO, MCP)으로 구성된 총 18개 조건에 대하여 100번 반복한 몬테카를로 모의실험을 실시하여 결측 대체, 변수 선택, 그리고 예측 성능을 비교하였다. 모형 평가 기준으로 결측 대체에 있어 일치율, 변수 선택의 경우 IC1, IC2, 그리고 예측 성능에 있어 정확도, AUC, Kappa 계수를 활용하였다. 연구 결과, 결측 대체에 있어서는 k-NN이 EM보다 우수하였으며, 완전제거법은 벌점회귀모형의 성능을 크게 저하시키는 것으로 확인되었다. MCP와 비교 시 LASSO와 adaptive LASSO의 변수 선택 및 예측 성능이 좋은 편이었다. 연구 결과를 바탕으로 후속 연구에 대하여 제언하였다.

The purpose of this Monte-Carlo simulation study was to investigate missing data techniques and penalized regression methods for social science large-scale data. Data of 340 variables and 2,000 observations were generated to emulate a social science panel data, KCYPS(Korean Children and Youth Panel Survey). The simulation conditions included missingness mechanisms (MAR, MNAR), missing data techniques (listwise deletion, k-NN, EM), and penalied regression methods (LASSO, adaptive LASSO, and MCP). As a result, the simulation had 18 condition combinations, and each condition had 100 replications. For evaluation criteria, agreement rates were used for the performance of missing data techniques and IC1 and IC2 were used for variable selection. Prediction accuracy, AUC, and Kappa were utilized for model evaluation criteria. With regard to missing data imputation, k-nn outperformed EM. Listwise deletion deteriorated the performance of penalized regression. LASSO and adaptive LASSO tended to outperform MCP in terms of variable selection and prediction. Further research topics were discussed accordingly.

Ⅰ. 서론

Ⅱ. 이론적 탐색

Ⅲ. 연구방법

Ⅳ. 연구결과

Ⅴ. 결론 및 제언
