BLADE: 자기지시(Self-Instruct) 기반 합성 데이터로 구축한 블록체인 도메인 LLM 평가 벤치마크
BLADE: A Self-Instruct Synthetic Benchmark for Evaluating LLMs in the Blockchain Domain
- 적정기술학회
- 적정기술학회지
- Vol.11 No.3
-
2025.12199 - 216 (18 pages)
-
DOI : 10.37675/jat.2025.00724
- 5
대규모 언어 모델(Large Language Model)은 여러 도메인에서 인상적인 성능을 보이고 있으나, 블록체인과 같은 전문 분야에 대한 깊이 있는 이해도를 체계적으로 평가할 수 있는 벤치마크가 부족한 실정이다. 본 연구는 자기지시 기반 데이터 생성기법(Self-Instruct)을 블록체인 도메인에 맞게 확장하여 BLADE(Blockchain Large Language model Assessment Dataset for Evaluation)라는 블록체인 도메인 LLM 이해도 평가를 위한 포괄적인 벤치마크 데이터셋을 제안한다. BLADE는 블록체인 지식의 체계적인 분류에 따라 구성된 총 1,382개의 문항을 포함하며, 15개 대분류 및 대분류별 5개의 하위 카테고리로 구성된 상세한 목차 구조로 되어 있다. 이 벤치마크는 블록체인 기초부터 합의 메커니즘, 블록체인 아키텍처, 스마트 컨트랙트, 토큰 이코노미, 탈중앙화 금융(Decentralized Finance, DeFi), NFT(Non-Fungible Token) 및 디지털 자산, 블록체인 보안, 블록체인 거버넌스, 실제 응용 사례 등 블록체인 지식의 전체 스펙트럼을 포괄한다. 본 연구는 GPT-4.5의 도메인 지식을 활용한 구체적인 벤치마크 생성 절차를 제안했으며, 이를 통해 전문가가 검증한 시드 문항으로부터 다양한 난이도와 유형의 고품질 평가 문항을 생성하였다. Qwen, DeepSeek, Kanana 등 다양한 오픈소스 LLM에 대한 BLADE 평가 결과, 현재 모델들이 블록체인 이해도에서 상당한 차이를 보이며 Qwen2.5-7B-Instruct-1M이 가장 높은 성능을 보였다. BLADE 벤치마크는 LLM의 블록체인 이해도를 정밀하게 평가하고 개선하기 위한 도구를 제공함으로써, AI와 블록체인 기술의 효과적인 융합을 촉진하고 더 신뢰할 수 있는 탈중앙화 시스템 개발에 기여할 것이다.
Although Large Language Models (LLM) have shown impressive performance across various domains, there is a shortage of benchmarks for systematically evaluating their in-depth understanding of specialized fields such as blockchain. This study extends the Self-Instruct methodology to introduce BLADE (Blockchain Large Language model Assessment Dataset for Evaluation), a comprehensive benchmark dataset for assessing LLM comprehension in the blockchain domain. BLADE consists of a total of 1,382 questions organized according to a systematic classification of blockchain knowledge, featuring a detailed structure with 15 main categories and 5 sub-categories for each. The benchmark covers the entire spectrum of blockchain knowledge, from its fundamentals to consensus mechanisms, architecture, smart contracts, token economy, Decentralized Finance (DeFi), NFT(Non-Fungible Token)s and digital assets, security, governance, and real-world application cases. In this research, we present a benchmark generation methodology utilizing the domain knowledge of GPT-4.5, which allowed us to create high-quality evaluation items of varying difficulty and types from expert-verified seed questions. The evaluation results of various open-source LLMs, including Qwen, DeepSeek, and Kanana, on BLADE showed that current models exhibit significant differences in their understanding of blockchain, with Qwen2.5-7B-Instruct-1M achieving the highest performance. The BLADE benchmark provides a tool for precisely evaluating and improving the blockchain comprehension of LLMs, thereby promoting the effective fusion of AI and blockchain technology and contributing to the development of more reliable decentralized systems.
서론
연구 재료 및 방법
연구 결과 및 고찰
결론
References
(0)
(0)