본 연구는 대규모 언어 모델(LLM)의 문학번역 적합성을 검증하기 위해 위화(余華)의 『인생』을 대상으로 “1 대 5” 중·한 병렬 말뭉치(중국어 원문, 인간 번역문, LLM 번역문 4종)를 구축하고, BLEU, METEOR, TER, chrF++, BERTScore로 다중 지표 평가를 수행하였다. 결론적으로 Gemini가 전통 n-그램 지표(BLEU, METEOR, chrF++)와 편집 거리(TER)에서 가장 우수했으며, BERTScore-F1 평균과 분산에서도 선도적·안정적 성능을 보였다. ChatGPT는 근소한 차이의 차순, DeepSeek과 CLOVA X는 상대적으로 열위였다. 정성 사례 분석 결과, 상위 모델은 문체 보존, 관용구 처리, 문화적 호칭의 적합성에서 강점을 보였고, 하위 모델은 어휘 과일반화, 문체 이탈, 평가어 추가 등의 오류 경향을 보였다. 또한 BERTScore는 문학 텍스트의 의미 충실성을 민감하게 포착하여 형식 중심지표를 효과적으로 보완하는 것으로 확인되었다. 본 연구는 길이 기반 정제(≥20 토큰) 및 다중 지표패널이라는 재현 가능한 평가 절차를 제안함으로써 LLM의 문학번역 성능 비교에 실증적 근거를 제공한다. 다만 단일 작품·단일 프롬프트라는 한계가 있으므로, 향후 장르와 말뭉치의 확장, 문서단위, 소샷 프롬프트, 인간 직접평가(MQM/DA) 결합을 통해 결과의 일반화를 모색할 필요가 있다.
This study evaluates the suitability of large language models (LLM) for literary translation by constructing a Chinese-to-Korean “1-to-5” parallel corpus of Yu Hua’s To Live(source text, one human translation, and four LLM outputs) and conducting a multi-metric assessment using BLEU, METEOR, TER, chrF++, and BERTScore (P/R/F1). The findings show that Gemini outperforms the other systems on traditional n-gram metrics (BLEU, METEOR, chrF++) and on edit distance (lowest TER), and also leads on semantic similarity with the highest mean and lowest variance in BERTScore-F1; ChatGPT follows closely, while DeepSeek and CLOVA X lag behind. Qualitative case analyses indicate that higherperforming models better preserve register, idioms, and culturally loaded forms of address, whereas lower-ranked outputs tend toward lexical over-generalization, register drift, and added evaluative language. BERTScore proves particularly sensitive to semantic fidelity in literary texts, effectively complementing form-oriented metrics. By proposing a reproducible evaluation procedure that combines length-based filtering (≥ 20 characters) with a multi-metric panel, the study provides empirical evidence for comparative LLM performance in literary translation. Limitations include reliance on a single work and a single prompt configuration; future research should expand genres and corpora, test document-level and few-shot prompting, and triangulate with human direct assessment (MQM/DA).
Ⅰ. 서론
Ⅱ. 선행 연구 검토
Ⅲ. 연구 설계
Ⅳ. 사례 분석
Ⅴ. 연구 결과
Ⅵ. 결론
참고문헌
(0)
(0)