목적: 이 연구의 목적은 ChatGPT를 활용한 쓰기 채점과 피드백 프롬프트 전략을 탐색하는 것이다. 방법: 고등학생의 논설문 37편을 대상으로 인간과 ChatGPT의 채점 및 피드백 결과를 비교 분석하였다. 결과: 1) 맥락 내 학습 전략에 따른 채점 수행 결과, 제로샷과 원샷의 채점 정확도(QWK)는 큰 차이가 없었으나 퓨샷 러닝에서 QWK가 유의하게 향상되었다. 2) 내용과 조직 영역의 QWK가 비교적 높게 나타난 반면 표현 영역의 QWK는 낮게 나타났다. 3) ChatGPT가 생성하는 피드백의 질은 평가 항목 제공, 단독 피드백, 채점기준 제공 프롬프트의 순으로 높게 나타났다. 4) 채점과 피드백의 상호작용을 확인한 결과, 피드백을 먼저 수행하고 단계적으로 채점을 수행한 피드백CoT채점 프롬프트의 채점 일치도가 가장 높게 나타났다. 결론: 작문 평가 도구로서 ChatGPT를 활용하기 위해서는 채점 척도별로 다양한 예시를 활용하는 퓨샷 러닝의 과정이 필요하며, 특히 표현 영역의 채점 일치도를 보완할 필요가 있다. 또한 피드백 산출시에는 피드백을 먼저 산출하도록 하고 그에 따라 채점을 수행하는 프롬프트가 효과적이다.
Purpose: The purpose of this study was to explore prompting strategies for writing scoring and feedback using ChatGPT. Methods: A comparative analysis of human and ChatGPT scoring and feedback results was conducted on 37 pieces of writing from high school students. Results: 1) the results showed that the scoring accuracy of zero-shot and one-shot was not significantly different, but the scoring accuracy was significantly improved in the fushot learning. 2) the agreement in the content and organisation domain was relatively high, while the agreement in the expression domain was low. 3) the quality of feedback generated by ChatGPT was higher in the order of providing evaluation items, feedback alone, and prompting for scoring criteria. 4) we examined the interaction between grading and feedback, and found that grading agreement was higher for the feedback-cotrading prompts where feedback was given first and grading was done in stages. Conclusion: In order to use ChatGPT as a writing assessment tool, it is necessary to provide a variety of examples for each scoring scale, especially to complement the scoring process in the expressive domain. It is effective to generate feedback first and grade accordingly.
1. 서론
2. 생성형 인공지능을 활용한 쓰기 평가 현황
3. 연구 방법
4. 연구 결과
5. 결론
참고문헌
(0)
(0)