머신러닝 기법을 활용한 사교육 참여 예측 모형 탐색
An inquiry for the predictive variables on the demand for the private tutoring utilizing machine learning approaches
- 한국교육재정경제학회
- 교육재정경제연구
- 제28권 제3호
-
2019.0929 - 52 (24 pages)
-
DOI : 10.46967/jefe.2019.28.3.29
- 1,777
그 동안 사교육 수요의 원인 분석과 해결 방안 모색을 위한 다양한 연구들이 수행되었지만, 학생들의 사교육 참여 및 사교육비 지출에 대한 논의는 여전히 하나의 결론에 도달하지 못하고 있다. 선행연구들 중에는 그러한 이유를 그 동안 사교육 수요를 설명하기 위해 사용된 분석 모형이나 변수들이 상당히 제한적이었으며, 그로 인해 중요한 변수를 간과하거나 보다 직접적인 변수들을 통합․분리해 내는데 실패했기 때문이라고 설명하고 있다. 이에 본 연구에서는 빅데이터 분석과 함께 최근 주목을 받고 있는 네 가지 머신러닝 기법 즉, ‘랜덤 포레스트’, ‘나이브 베이즈 분류’, ‘서포트 벡터 머신’, ‘인공신경망 모형’을 적용하여 고등학생들의 사교육 참여에 영향을 미치는 변수들을 탐색적으로 살펴보았다. 그리고 이들 각 기법들의 예측성과를 비교․분석함으로써 머신러닝 기법이 갖는 성능과 한계를 조망해 보고, 향후 사교육 영향 요인 연구를 비롯한 다양한 교육 분야의 연구로 확대 가능한지 여부를 함께 검토해 보았다. 분석을 위해 본 연구에서는 한국교육고용 패널 Ⅱ의 1차 년도 자료를 사용하였다. 분석 결과 첫째, 머신러닝 기법에 따라 고등학생들의 사교육 참여를 예측하는 변수는 상이하였으며, 네가지 기법의 분석 결과에 공통적으로 포함된 예측 변수는 하나도 존재하지 않았다. ‘방과후 자율학습 참여여부’ 변수가 그나마 세 가지 기법에 공통적으로 포함되었으나, 상대적인 중요도에는 상당한 차이가 있었다. 둘째, 시험 자료를 기반으로 각 머신러닝 기법의 사교육 참여 예측률을 산출한 결과, 랜덤 포레스트 기법과 나이브 베이즈 분류 기법이 서포트 벡터 머신 기법이나 인공신경망 기법보다 고등학생의 사교육 참여를 더욱 정확하게 예측하는 것으로 나타났다. 따라서 표본 및 변수 선정 과정에서의 편의를 줄이고 분석 결과의 일반화 가능성을 높이기 위한 방편으로 머신러닝 기법을 적극 활용할 수 있으나, 분석의 목적이나 자료의 구조에 적합한 머신러닝 기법을 선택하기 위한 적절한 검증 작업이 선행되어야 할 것으로 보인다.
There’s a plenty of literature on the demand of private tutoring across east-asian countries, particularly in the republic of Korea. To predict the demand for private tutoring more accurately, various methodologies have been proposed and applied. However, the methodologies have some deficits. First of all, they are unable to give a solution for which variables in the dataset should be considered as explanatory variables to effectively predict the demand for private tutoring. Also, they are easily exposed to over-fitting and risk being affected by outliers and noise. To overcome those limitations, this study proposes the application of multiple machine learning mechanisms including Random Forests(RF), Naive Bayes Classifier, Support Vector Machine, and Artificial Neural Network on the 1ST year dataset of the Korea Education and Employment Panel II. And to evaluate and compare our those results of multiple machine learning mechanisms, each model’s performance was calculated by Correct Classified Rate, Sensitivity, and Specificity based on test dataset. Empirical results showed that RF outperforms other machine learning algorithms from the perspective of prediction accuracy.
Ⅰ. 서 론
Ⅱ. 이론적 배경
Ⅲ. 연구 방법
Ⅳ. 분석 결과
Ⅴ. 결론 및 제언
(0)
(0)