상세검색
최근 검색어 전체 삭제
다국어입력
즐겨찾기0
학술저널

오픈소스 기반의 AI 음성·텍스트 변환 기능 개발 및 대통령 음성을 통한 성능 분석

Development of an Open-Source-Based AI Speech-to-Text System and Performance Analysis Using Presidential Speech

  • 68
한국기록관리학회지 제25권 제3호.jpg

본 연구는 오픈소스 기반의 AI 음성·텍스트 변환(STT, Speech To Text) 기능을 개발하고 대통령의 음성에 적용하여 그 성능을 분석하였다. 현재 다양한 고성능 STT 서비스가 상용화되어 있으나, 대부분 온라인 환경에서 유료로 제공되고 있다. 하지만 대통령 기록물의 특성상 온라인 서비스의 사용은 보안 등의 문제를 발생할 수 있고, 누적되는 기록물에 지속적인 비용을 들여 처리하는 것은 비효율적이다. 따라서, 대통령기록관은 오픈소스 기반의 AI 모델을 적용한 STT를 개발하고 오프라인으로 시험·운용 중이다. 본 연구에서는 이 기능을 통해 약 3시간 분량의 대통령 시청각기록물을 텍스트로 변환하고, 실제 텍스트와의 비교를 통해 오류율을 측정하였다. 그 결과 전체적으로 최신 상용 온라인 서비스 수준의 성능을 확인하였다. 또한, 발화 속도 및 녹음 품질을 추가로 추출하여 오류율과의 연관성을 분석하였다. 최종적으로 기록물의 활용을 위한 오픈소스 기반 AI 기술의 적용 가능성을 제시한다.

This study developed an open-source-based AI Speech-to-Text (STT) system and analyzed its performance by applying it to presidential speech. While various high-performance STT services are currently commercialized, most are provided online for a fee. However, because of the nature of presidential records, using online services can raise security concerns, and incurring continuous costs for processing accumulating records is inefficient. To address this, the Presidential Archives has developed an offline STT system based on open-source AI models, which is currently under testing and operation. In this study, approximately three hours of presidential audiovisual records were transcribed into text using this function, and the error rate was measured by comparing with the actual text. The results showed that the overall performance is comparable to the latest commercial online services. Additionally, speech rate and recording quality were extracted and analyzed for their correlation with the error rate. Finally, this research highlights the feasibility of applying open-source AI technologies for the utilization of records.

1. 서론

2. 기술적 배경

3. 연구 방법

4. 시험 결과

5. 결론

참고문헌

(0)

(0)

로딩중