거대언어모델 수학적 성능 개선 방안 탐구: 파인튜닝을 중심으로
Exploring strategies for enhancing the mathematical performance of large language models: Focusing on fine-tuning
- 한국학교수학회
- 한국학교수학회논문집
- 제28권 제1호
-
2025.0365 - 94 (30 pages)
-
DOI : 10.30807/ksms.2025.28.1.004
- 40
본 연구는 한국어 수학 데이터셋을 활용한 파인튜닝(Fine-tuning)이 거대언어모델(Large Language Model, LLM)의 수학적 성능을개선할 수 있는지를 그 메커니즘과 함께 탐구하였다. 그 결과 한국어 수학 데이터셋을 활용한 파인튜닝은 LLM의 수학적 성능을 강화할 수 있음을확인하였다. 구체적으로, 파인튜닝 후 LLM의 수학 문제 정답률이 65.79%에서 81.25%로 15.46% 상승하였다. 문제 풀이 과정에서는 수식화 성능, 계산 성능, 풀이 설명력이 크게 강화되었고, 불필요한 비수학적 내용을 생성하는 현상과 언어 혼란(language confusion)이 사라졌다. 특히, 풀이 과정의 변화를 통해 LLM이 파인튜닝을 거치며 수학 데이터셋에 존재하는 풀이 패턴, 내용 전개 패턴, 내용 구조와 형식을 학습할 수 있으며, 이에 따른 풀이 과정의 개선이 정답률 향상에 기여하는 핵심 메커니즘임을 알 수 있었다. 한편, 파인튜닝 후 발생한 문제점으로는 텍스트 무한 생성현상과 파괴적 망각(catastrophic forgetting)이 관찰되었다. 이러한 결과를 바탕으로 수학 도메인 특화 LLM 개발, 수학 데이터셋 구축, 파인튜닝의 전략 및 문제점 대응 방안 측면에서 시사점을 논의하였다. 또한, 후속 연구를 위하여 여섯 가지 연구 방향을 제언하였으며, 본 연구에서 구축한파인튜닝 파이썬 코드를 연구의 재현과 확장을 위해 연구자의 깃허브(Github) 저장소에 공개하였다.
This study investigates whether fine-tuning a Large Language Model (LLM) using a mathematical data set in Korean can enhance its mathematical performance and explores the underlying mechanisms. The findings confirm that fine-tuning with a mathematical data set in Korean improves the mathematical capabilities of LLMs. Specifically, after fine-tuning, the accuracy of solving mathematical problems increased from 65.79% to 81.25%, reflecting a 15.46% improvement. The problem-solving process also showed notable improvements in formalization, computational accuracy, and explanatory capability. Additionally, the generation of irrelevant non-mathematical content and language confusion issues were eliminated. Notably, the changes in the problem-solving process suggest that, through fine-tuning, the LLM learns the solution patterns, development structures, content organization, and formatting embedded in the mathematical dataset in Korean. This improvement in the problem-solving process serves as a key mechanism contributing to the increase in accuracy. However, fine-tuning also introduced challenges, such as continuous text generation and catastrophic forgetting. Based on these findings, this study provides insights into devel oping domain-specific mathematical LLMs, constructing mathematical data sets, fine-tuning strategies and its associated challenges. Furthermore, six key directions for future research are suggested. To promote reproducibility and further research, the Python code in this study have been made publicly available on the researcher’s GitHub repositories.
Ⅰ. 서론
Ⅱ. 이론적 배경
Ⅲ. 연구 방법
Ⅳ. 연구 결과
Ⅴ. 결론 및 논의
참고문헌
(0)
(0)