이 연구는 서·논술형 자동 채점 시스템을 구축하기 위해 학생들이 작성한 텍스트의 평가에 영향을 미치는 텍스트의 자질들을 선정하고자 하였다. 이를 위해 AI 허브에 탑재된 에세이 평가 데이터 중에서 세 명의 평가자 간의 평가 점수가 일관되게 형성된 데이터를 총점, 내용, 구성, 표현 영역별로 각각 선별하였다. 선별된 텍스트는 범용 한국어 텍스트 분석기인 U-KTA를 사용하여 다양한 자질을 분석하였는데, 이 연구에서는 계량화가 가능한 수치형 자질 484개를 추출하였다. 추출한 자질 중에서 평가 결과에 영향을 미치는 자질을 선정하기 위해 개별 자질들의 단변량 상관 계수, 다변량 OLS 상관 계수, Lasso 회귀 분석, 상호정보량(MI) 분석, 머신러닝의 XGBoost 기반 중요도 분석을 수행하였다. 각 분석 결과를 종합하여 서·논술형 평가에 영향을 미치는 텍스트 자질을 기초 자료, 형태소 및 단어, 문장 및 문단, 응집성, 텍스트 지수로 나누어 선정 및 정리하였다. 이 연구는 텍스트의 자질을 최대한 다양하게 분석하고 텍스트의 평가에 영향을 미치는 자질을 실증적으로 분석했다는 점에서 의의가 있다.
To establish a written and essay-type automatic scoring system, this study attempted to select the factors that influence the evaluation of texts written by students. To this end, among the essay evaluation data installed in the AI hub, the data with consistent evaluation scores between the three evaluators were selected based on the total score, content, composition, and expression area. Various factors were analyzed using U-KTA, a general-purpose Korean text analyzer, quantifiable numerical factors were extracted. Univariate correlation coefficients of individual factors, multivariate OLS correlation coefficients, Lasso regression coefficients, mutual information (MI) analysis, and XGBoost-based importance analysis of machine learning were performed to select the extracted factors that influenced the evaluation results. By synthesizing the results of each analysis, this study selected and organized the textual factors that influenced the essay-type evaluation through classification into basic data, morphemes and words, sentences and paragraphs, cohesiveness, and a text index. This study is significant because it examines the textual factors in as many ways as possible and empirically analyzes the factors that influence textual evaluation.
1. 연구의 필요성 및 목적
2. 선행 연구 분석
3. 연구의 대상 및 연구 방법
4. 분석 결과 및 논의
5. 결론
참고문헌
(0)
(0)