This study examines the feedback capabilities and accuracy of AI-based writing feedback tools—GPT-3.5, GPT-4, Wrtn, and KiwiT—to assess their educational applicability and areas for improvement. Feedback was generated for ten first-year middle school students’ writing samples, and three Korean language teachers evaluated it in four domains: content, organization, expression, and grammar. The results show that GPT-4 provided the most accurate and comprehensive feedback, particularly excelling in content and expression. GPT-3.5 was useful for basic feedback but lacked diversity and accuracy compared to GPT-4. KiwiT specialized in grammar correction but performed poorly in content and organization feedback. Riiid TUNiB (Ruiten) was effective in vocabulary and contextual feedback but had limitations in content and organization. This study suggests that combining the strengths of these AI tools can enhance writing instruction. Future research should expand sample diversity and refine feedback evaluation criteria for a more objective assessment.
본 연구는 생성형 인공지능 기반 자동 글쓰기 피드백 도구(GPT-3.5, GPT-4, 뤼튼, 키위티)의 피드백 제공 능력과 정확성을 비교·분석하여 AI 도구의 교육적 활용 가능성과 개선 방향을 탐색하는 것을 목적으로 한다. 이를 위해 중학교 1학년 학생 10명의 글을 대상으로 GPT-3.5, GPT-4, 뤼튼, 키위티를 활용하여 피드백을 생성하고, 3인의 국어 교사가 내용, 조직, 표현, 어휘 및 문법의 4개 평가 영역에서 피드백 제공 유무와 질을 평가하였다. 연구 결과, GPT-4는 전반적으로 높은 피드백 제공률과 정확성을 보였으며, 특히 내용과 표현 영역에서 우수한 성능을 나타냈다. GPT-3.5는 기본적인 피드백 제공에는 유용했으나, 피드백의 다양성과 정확성에서 GPT-4보다 성능이 저하되었다. 키위티는 문법 오류에 대한 정확한 피드백을 제공하였으나, 내용과 조직 영역의 피드백 질은 낮았다. 뤼튼은 어휘와 문맥 관련 피드백에서 강점을 보였으나, 내용과 조직 영역에서 피드백 제공률과 정확성이 미흡했다. 본 연구는 각 도구의 강점을 상호 보완적으로 활용하여 학생들의 글쓰기 능력을 향상시킬 교수·학습 전략이 필요함을 시사한다.
(0)
(0)