상세검색
최근 검색어 전체 삭제
다국어입력
즐겨찾기0
학술저널

LoRA 파인튜닝을 활용한 개방형 GPT 모델 기반 수능 국어 문항 생성 품질 비교

Quality of CSAT Korean Items from LoRA-Tuned Open-Weight GPT Models

  • 90
교육평가연구 제38권 제4호.jpg

본 연구는 프롬프트 엔지니어링 방식을 통한 자동문항생성 방법론이 활발히 제기되는 상황에서, 품질 일관성 확보의 한계와 폐쇄형 모델 활용으로 인한 고보안 평가 환경에 부적합한 문제를 해결하기 위해 개방형 GPT 모델에 LoRA 파인튜닝을 적용하여 수능 국어 문항을 생성하고 품질을 실증 분석하였다. 2022~2025학년도 기출문항 150개를 학습 데이터로 구축하고, 4개 유형별로 각 2문항씩 생성하여 국어교육 전문가 11명이 평가하였다. 분석 결과, 전체 평균은 실험군과 대조군 모두 2.46점으로 유의한 차이가 없었으나, 문항 유형별 분석에서는 '구체적사례적용'은 LoRA 적용 문항이, '작품내용이해'는 LoRA 미적용 문항이 더 높은 평가를 얻었다. 이는 LoRA 파인튜닝이 구조적 패턴이 명확한 유형에서만 효과적임을 시사한다. 본 연구는 보안이 요구되는 환경에서 개방형 모델 활용의 가능성과 한계를 체계적으로 분석한 초기 연구로서 의의를 갖는다.

This study generated CSAT Korean items by applying LoRA fine-tuning to open-weight GPT models and analyzed their quality to address the limitations in quality consistency and the unsuitability of closed-weight models for high-security assessment environments, as AIG methodologies using prompt engineering approaches are being actively proposed. Using 150 past CSAT items from 2022-2025 as training data, two items per type across four categories were generated and evaluated by eleven Korean language education experts. Results showed no significant difference in overall average scores between the experimental and control groups (both 2.46 points), but item type-specific analysis revealed that LoRA-applied items received higher evaluations in 'concrete case application' while non-LoRA items performed better in 'content comprehension'. These findings suggest that LoRA fine-tuning is effective only for item types with clear structural patterns. This study serves as an initial investigation systematically analyzing the possibilities and limitations of utilizing open-weight models in security-required environments.

Ⅰ. 서론

Ⅱ. 선행 연구 분석

Ⅲ. 연구방법

Ⅳ. 연구 결과

Ⅴ. 결론 및 논의

참고문헌

(0)

(0)

로딩중