AI 기반 논⋅서술형 평가 시스템의 국내⋅외 사례 및 향후 전망
AI-Based Essay Assessment Systems:Global Case Studies and Future Directions
- 성신여자대학교 교육문제연구소
- 교육연구
- 제94집
-
2025.12263 - 280 (18 pages)
-
DOI : 10.17253/swueri.2025.94.013
- 34
본 연구는 인공지능(AI)을 활용한 논⋅서술형 자동채점 및 맞춤형 평가 시스템의 국내⋅외 사례를 분석하고, 향후 발전 방향을 제시하는 것을 목적으로 한다. 최근 교육현장에서는 암기 중심의 평가에서 벗어나 사고력과 문제해결력을 평가하기 위한 논⋅서술형 평가를 강조하고 있으며, 이에 따라 AI 기반 자동채점 기술의 필요성이 증대되고 있다. 연구는 기계학습 기반 자동채점과 대규모 언어모델(LLM) 기반자동채점의 기술적 특징과 한계를 비교⋅분석하였다. 특히 LLM을 활용한 프롬프트엔지니어링과 파인튜닝, RAG(Retrieval-Augmented Generation) 기법이 형성평가적 맥락에서 학습자 맞춤형 피드백 제공에 효과적일 수 있음을 논의하였다. 마지막으로, 교과별 특성과 학년 수준을 반영한 다층적 모델 구축, 중앙 통합 관리 체계 마련, OCR 인식 개선, 모델의 전이 가능성 검증, 그리고 기계학습과 LLM을 병행한 하이브리드 모델 개발이 필요함을 제언하였다.
This study examines domestic and international cases of artificial intelligence (AI)-based automated scoring and personalized assessment systems for constructed-response and essay-type items, and proposes future directions for their development. As educational paradigms shift away from rote memorization toward evaluating higher-order thinking and problem-solving skills, the demand for AI-driven scoring technologies has significantly increased. The study compares and analyzes the technical characteristics and limitations of machine learning-based automated scoring models and those leveraging large language models (LLMs). In particular, it discusses how prompt engineering, fine-tuning, and retrieval-augmented generation (RAG) techniques can enhance formative assessment by enabling individualized and context-aware feedback. The findings highlight the need for developing multi-layered models tailored to subject-specific and grade-level characteristics, establishing centralized management frameworks, improving OCR-based response recognition, and validating model transferability across tasks. Furthermore, the study emphasizes the potential of hybrid approaches that integrate machine learning and LLM-based evaluation methods to advance fair, scalable, and pedagogically meaningful AI-assisted assessment in education.
Ⅰ. 머리말
Ⅱ. 국내⋅외 사례
Ⅲ. LLM 기반 평가의 전망
Ⅳ. 논의 및 제언
참고문헌
(0)
(0)