본 연구는 한국어 논술형 평가 자동채점 모델의 성능을 비교하기 위해 채점자질 기반 머신러닝 모델(Extra Trees, Random Forest, LightGBM), 임베딩 벡터 기반 심층신경망 모델(OpenAI Embedding, Sentence-BERT, Universal Sentence Encoder), 사전 학습 모델(KLUE-RoBERTa-base, XLM-RoBERTa-base)을 활용하였다. 중등학생 논술형 응답 데이터셋(9,762편)을 기반으로 모델을 학습 및 평가한 결과, 사전 학습 모델 중 XLM-RoBERTa-base가 최고 성능을 보였고, 임베딩 기반 모델에서는 OpenAI Embedding 모델이 최고 성능을 보였으며, 채점자질 기반 모델에서는 Extra Trees 모델이 가장 우수했다. 결과적으로 정확도를 기준으로 하는 성능 비교에서는 사전 학습 모델이 가장 우수하지만 자동채점의 활용 상황과 모델의 해석 가능성 등을 함께 고려하여 선택될 필요가 있고, 향후에는 한 가지 모델이 아닌 하이브리드 모델 개발의 필요성을 제안한다.
This study utilized scoring feature-based machine learning models(Extra Trees, Random Forest, LightGBM), embedding vector-based deep neural network models(OpenAI Embedding, Sentence-BERT, Universal Sentence Encoder), and pre-trained models(KLUE-RoBERTa-base, XLM-RoBERTa-base) to compare the performance of automated scoring models for Korean essay-type responses. Based on a dataset of 9,762 argumentative writing samples from middle and high school students, the models were trained and evaluated. The results showed that among the pre-trained models, XLM-RoBERTa-base achieved the highest accuracy among the embedding-based models, OpenAI Embedding demonstrated the highest accuracy and among the scoring feature-based models, Extra Trees performed the best with an accuracy. Furthermore, although pre-trained models showed the superior performance in the comparison, model selection should consider interpretability in conjunction with the purpose of automated scoring, and the development of hybrid models rather than single models is proposed for the future.
Ⅰ. 서론
Ⅱ. 이론적 배경
Ⅲ. 연구 방법
Ⅳ. 연구 결과
Ⅴ. 결론 및 논의
참고문헌
(0)
(0)