본 연구의 목적은 한국어 문장 수준 서답형 문항 자동채점 프로그램의 성능을 검증하여 대규모 평가에서의 적용 가능성을 탐색하기 위한 것이다. 2013년 학업성취도 평가 국어 9문항, 사회 2문항의 각 1000개 답안을 대상으로 시범 적용한 결과, 채점 정확성과 효율성을 중시하는 고부담 대규모 평가에 적정한 것으로 나타났다. 먼저, 채점 처리 과정의 간결성(simplicity) 측면에서, 1차로 답안을 군집화한 결과 답안 유형 수가 3.1%~37.5%로 감소한다. 이를 바탕으로 고빈도 답안을 채점하면 평균 55.9%의 답안이 채점되어 군집화가 답안 유형 수를 줄이고 동시에 기계학습에 필요한 충분한 수의 답안을 확보하게 함으로써 자동채점의 효율성에 기여한다. 다음으로 채점 결과의 정확성(accuracy) 분석을 위해, 기준점수와 자동채점 점수 간 상관관계와 일치도를 살펴본 결과 적정하게 우수한 것으로 나타났다. 두 점수 간의 평균제곱근편차는 0~0.55, 표준화된 평균제곱근편차는 0~0.2로나타나 자동채점 점수가 기준점수와 크게 다르지 않았다. 또한 두 점수 간 완전일치도는 91.5~100%, 카파계수는 0.8~1.00, 상관계수는 0.82~1.00으로 나타나, 대체로 모든 문항에 대한 계수가 0.8 이상으로 높은 수준의 일치도를 보여주었다.
The purpose of this research is to explore the possibility of using an automatic scoring system for sentence-level responses in large scale to enhance the efficiency of scoring constructed response items for large scale assessment. In order to enhance the simplicity of the scoring process, the answers were grouped based on similarity of meaning, and the grouped answers were scored with the automatic scoring program. These scored answers were used for machine-learning, to update the similarity in meaning for the next grouping of answers. This process is intended to decrease the number of grouped answers and to accumulate scoring results. Upon implementing the program using 11 social studies constructed response items in the Korean language from the NAEA 2013, the types of answers for each question diminished by 3.1%-37% for the initial grouping stage, and an average of 55.9% of the answers were scored at the first stage of grouping. Grouping answers by similarity in meaning enhanced simplicity of scoring while also contributing to improved accuracy. Next, in order to examine the program 's scoring accuracy, we calculated the exact agreement, correlation coefficients, and kappa coefficients between the criterion scores and the scores from the automatic scoring program for the sentence level, and it was revealed that the exact agreement between the two scores was 91.5-100%, the correlation coefficient was 0.82-1.00 and the Kappa coefficient was 0.8-1.00, which is fairly remarkable.
요약
Ⅰ. 서론
Ⅱ. 한국어 문장 수준 서답형 문항 자동채점 프로그램 개발
Ⅲ. 자동채점 적용 대상 문항 및 분석 방법
Ⅳ. 자동채점 결과 분석
Ⅴ. 결론
참고문헌
<ABSTRACT>
(0)
(0)