영어-한국어 탈옥 프롬프트 데이터셋 구축 및 탈옥 프롬프트 분류기 모델 성능 비교 분석
English-Korean Jailbreak Prompt Dataset Construction and Performance Analysis of Jailbreak Prompt Classification Models
- 한국정보보호학회
- Journal of the Korea Institute of Information Security & Cryptology
- Vol.35No.3
-
2025.01613 - 622 (10 pages)
- 0
최근 대규모 언어 모델의 보안성을 위협하는 탈옥 프롬프트 공격이 증가하고 있으며, 기존 연구는 주로 영어 탈옥 프롬프트에 집중되어 있다. 이에 본 연구에서는 영어-한국어 탈옥 프롬프트 데이터셋을 구축하고, 이를 활용한 탈옥 프롬프트 분류기의 성능을 분석하였다. 여러 데이터셋을 수집 및 증강하여 benign, harmful, jailbreak, 총 3가지 라벨로 구성된 탈옥 프롬프트 데이터셋을 구축하였으며, 이를 기반으로 한국어 및 영어-한국어를 학습한 탈옥 프롬프트 분류기를 각각 학습하였다. 실험 결과, 한국어 데이터만 학습한 모델은 한국어 프롬프트에서 더 높은 정확도를 보였으며, 영어-한국어를 함께 학습한 모델은 영어 데이터에서도 안정적인 성능을 유지하였다. 또한, 본연구에서 개발한 분류기는 기존 모델 대비 무해한 프롬프트의 오탐률이 낮고, 한국어 프롬프트 분류 성능이 향상되었음을 확인하였다. 이 연구를 통해 영어 및 한국어 LLM 보안을 강화하고, 향후 탈옥 공격 대응력을 높이는 데 기여하고자 한다.
The security of large language models is increasingly being challenged by jailbreak prompt attacks, yet existing research primarily focuses on English jailbreak prompts. In response, this study constructs an English-Korean jailbreak prompt dataset and evaluates the performance of jailbreak prompt classifiers trained on this dataset. By collecting datasets and applying augmentation techniques, we constructed the dataset labeled into three categories: Benign, Harmful, and Jailbreak. We trained classifiers on Korean-only data and English-Korean combined data, then evaluated their performance separately. Experimental results show that the Korean-only model performs better on Korean prompts, while the English-Korean model maintains stable performance on English data as well. Furthermore, our classifier outperforms existing models by reducing false positive rates for benign prompts and improving classification accuracy for Korean prompts. This research contributes to strengthening the security of both English and Korean LLMs and enhances their resilience against jailbreak attacks.
(0)
(0)