초·중등 음악임용 문항에 나타난 LLM의 국악 이해수준과 AI 리터러시 과제
An Analysis of LLMs’ Understanding of Korean Traditional Music in Elementary and Secondary Music Teacher Recruitment Examination Items and Implications for AI Literacy
- 17
본 연구는 초·중등 교원임용시험 국악 문항을 통해 Chat GPT, Gemini, Perplexity 세 가지 모델의 LLM 기반 인공지능의 국악이해 수준을 진단하고 이를 통해 국악교육에서 AI 리터러시 교육 과제의 방향을 탐색하고자 하였다. 이를 위해 2021~2025년 기출 10문항(국악이론·국악사·국악실기 영역 등)을 선별하였고 전문가 4인이 검토한 내용 타당도를 기준으로 정답을 확정지었다. 모델별로 정답률과 오류 유형을 분석한 결과는 다음과 같다. 첫째, Chat GPT(59.5%)가 가장 높았고 Gemini(52.4%), Perplexity(51.7%)가 뒤를 이었다. 국악사나 기본 이론 문제는 잘 풀었으나 실기나 악보 해석처럼 그림이 들어간 건에서 세 모델 모두 이해수준이 보통 이하로 도출되었다. 응답 유형은 ①정형적 내용정리, ②맥락 유추, ③일반화 오류, ④맥락 환각, ⑤실기 추론 단절, ⑥미세 데이터 결손 등 6유형으로 나누어졌다. LLM은 국악의 텍스트 지식 재현에는 양호하나 문화적 맥락과 실기를 연계 이해수준에서는 환각과 추론 실패가 빈번하게 드러났다. 이에 국악 데이터 구조화 및 표준 주석 구축, 멀티모달 데이터셋 마련을 통한 AI 리터러시 교육 강화를 요청하며 학습자가 AI의 순기능과 한계를 비판적으로 수용하는 역량 함양을 제언하였다.
This study investigates how well large language models (LLMs) Chat GPT, Gemini, and Perplexity understand Korean traditional music (Gugak), using selected teacher recruitment exam items (2021-2025) validated by four domain experts. Chat GPT showed the highest accuracy (59.5%), followed by Gemini (52.4%) and Perplexity (51.7%). While the models handled theoretical and historical content relatively well, they underperformed on tasks involving visual or performance-based interpretation. Six major error types were identified: formulaic summarization, contextual inference, overgeneralization, hallucination, performance disconnection, and micro-data loss. Although LLMs perform adequately in text-based knowledge retrieval, they often struggle with multimodal and culturally embedded content. The study emphasizes the need for standardized multimodal Gugak datasets and AI-integrated educational tools, and suggests directions for AI literacy education in music education.
1. 서론
2. 이론적 배경
3. 연구방법
4. 대규모 언어모델(LLM)의 국악 이해수준 분석
5. 결론 및 제언
참고문헌
(0)
(0)