의료 LLM 신뢰성 평가를 위한 RV 프레임워크
A RV Framework for Evaluating the Trustworthiness of Medical Large Language Models
- 한국스마트미디어학회
- 스마트미디어저널
- 제14권 제12호
-
2025.1274 - 84 (11 pages)
-
DOI : 10.30693/SMJ.2025.14.12.74
- 20
대규모 언어모델(Large Language Models, LLM)은 임상 의사결정 지원에서 높은 잠재력을 보이지만, 환각(hallucination), 편향, 결과의 비일관성 등으로 신뢰성 문제가 제기되고 있다. 기존의 LLM 평가 체계는 기술적 성능 지표에 치중되어 임상적 안전성, 설명가능성, 윤리적 적합성을 충분히 반영하지 못하는 한계가 있다. 본 연구는 이러한 한계를 극복하기 위해 역할 기반 멀티에이전트 구조와 이중 검증 체계를 결합한 의료 LLM 신뢰성 평가 프레임워크를 제안한다. 제안된 구조는 진단 응답을 평가하는 루브릭 에이전트와 이를 검증하는 검증 에이전트로 구성되며, 정확성, 일관성, 설명가능성, 안전성 등 다차원적 평가 항목을 반영한다. 또한, 텍스트 의료 질의응답 데이터 세트(MedQA)을 활용한 파일럿 평가를 통해 프레임워크의 효과를 검증하였으며, 제안된 이중 검증 구조가 단일 에이전트 평가 대비 재현성과 일관성을 향상시킬 수 있음을 확인하였다. 본 연구는 의료 현장에 안전하고 책임 있는 LLM 도입을 위한 기초적 검증 체계로서 의미를 가지며, 향후 멀티모달 입력을 포함한 확장 평가 및 임상 전문가 참여 기반의 실증 연구로 발전시킬 수 있다.
Large Language Models (LLMs) demonstrate significant potential in clinical decision support, but concerns remain regarding their trustworthiness due to hallucinations, biases, and inconsistent outputs. Existing LLM evaluation frameworks predominantly focus on technical performance metrics, failing to adequately address clinical safety, explainability, and ethical appropriateness. To overcome these limitations, this study proposes a trustworthiness evaluation framework for medical LLMs that integrates a role-based multi-agent architecture with a dual validation system. The proposed framework consists of a Rubric Agent, which evaluates diagnostic responses, and a Validation Agent, which verifies the assessment, systematically addressing multidimensional evaluation criteria including accuracy, consistency, explainability, and safety. The framework's effectiveness was validated through a pilot evaluation using the text-based medical question-answering dataset MedQA, demonstrating that the proposed dual validation structure can improve reproducibility and consistency compared to single-agent evaluation approaches. This research provides a foundational validation framework for the safe and responsible deployment of LLMs in healthcare settings, and can be further developed through expanded evaluations incorporating multimodal inputs and empirical studies involving clinical expert participation.
Ⅰ. 서론
Ⅱ. 관련 연구
Ⅲ. 본론
Ⅳ. 연구 결과
Ⅴ. 결론
REFERENCES
(0)
(0)