개인정보보호법 질의응답 서비스를 위한 RAG 기반 챗봇의 구현 및 평가
Implementation and Evaluation of a RAG-Based Chatbot for Privacy Act Question-Answering Services
- 한국시뮬레이션학회
- 한국시뮬레이션학회 논문지
- 제34권 제4호
-
2025.1255 - 63 (9 pages)
-
DOI : 10.9709/JKSS.2025.34.4.055
- 70
본 연구는 개인정보 보호 분야에 특화된 RAG 기반 법률 챗봇의 설계, 구현 및 성능 평가를 다룬다. 개인정보 보호법과 시행령, 고시, 지침 등 공신력 있는 문서를 기반으로 데이터셋을 구축하고, SBERT 임베딩, TF-IDF, BM25를 병렬 적용한 앙상블 검색기와 FAISS 벡터 검색, 크로스 인코더 리랭킹을 결합하여 최적화된 검색 구조를 구현하였다. 기존의 전통적 평가 지표가 법률 도메인의 특성을 충분히 반영하지 못하는 한계를 보완하기 위해, 다지선다형 객관식 평가 체계를 적용하였다. 평가 지표로는 정확도 외에도 질문 내 개념 수에 따른 성능 변화를 측정하는 QSS, 선택지 간 의미 유사도에 따른 CSS, 입력 변형 민감도를 도입하였다. LLaMA3.1 8b·70b, LLaMA3.3 70b, Gemma3 1b·27b 모델을 대상으로 실험한 결과, 대형 모델일수록 복잡한 질의와 유사 선택지 상황에서도 높은 정확도와 일관성을 보였으며 특히 LLaMA3.3 70b가 가장 우수한 성능을 나타냈다. 본 연구는 개인정보 보호법에 기반한 챗봇의 실질적 가능성을 제시함과 동시에, 법률 도메인 RAG 시스템의 신뢰성과 타당성을 검증할 수 있는 평가 프레임워크를 제안했다는 의의를 가진다.
This study examines the design, implementation, and evaluation of a RAG-based legal chatbot specialized in personal information protection. The dataset was built from authoritative sources, including the Personal Information Protection Act, its Enforcement Decree, official notifications, and guidelines. The retrieval system combines SBERT embeddings, TF-IDF, and BM25 in an ensemble retriever, integrated with FAISS vector search and cross-encoder re-ranking. To address the limitations of traditional metrics in the legal domain, a multiple-choice evaluation framework was applied. In addition to accuracy, the metrics include QSS for concept count, CSS for semantic similarity among choices, and sensitivity to input variations. Experiments with LLaMA3.1 (8b, 70b), LLaMA3.3(70b), and Gemma3 (1b, 27b) showed that larger models achieved higher accuracy and consistency, especially for complex queries and similar options. LLaMA3.3 70b performed best. This work demonstrates the feasibility of a chatbot grounded in the Personal Information Protection Act and proposes an evaluation framework to validate the reliability and validity of RAG systems in the legal domain.
1. 서론
2. RAG 챗봇 설계 및 구현
3. RAG 성능 평가 방법론
4. 실험 결과 및 분석
5. 결론
References
(0)
(0)