상세검색
최근 검색어 전체 삭제
다국어입력
즐겨찾기0
Pages from 한국화재소방학회_2024추계학술대회 초록집_표지내지광고합본.jpg
학술대회자료

생성형 AI 기반의 화재 통계 비정형 데이터 분석에 관한 연구

A Study on the Analysis of Unstructured Fire Statistics Data Using Generative AI

  • 10

화재 발생 시 해당 사건에 대해 현장의 전반적인 개요가 작성되며, 작성자에 따라 용어나 문장 구성 등이 다양한 형식의 비정형 형태로 기록된다. 이러한 비정형 텍스트를 분석하기 위해 생성형 AI를 활용하였으며, 발화요인을 자동으로 분류하기 위한 연구를 수행하였다. 연구에 활용한 데이터는 한 해 동안 발생한 화재의 데이터를 활용하였고, 개인정보는 비식별화된 데이터를 활용하였다. 화재가 발생한 월과 화재 유형, 화재 개요 데이터를 활용하여 발화요인을 11가지로 분류하였다. 본 연구의 목적은 화재 개요와 여러 통계 데이터를 활용하여 발화요인을 예측하는 것이지만, 궁극적으로는 생성형 AI를 활용하여 각자의 스타일로 작성된 화재 개요 문장을 정형화 및 획일화하여 효율적으로 AI를 활용하는 것에 있다. 생성형 AI는 발화요인이 11가지인 다중분류 방식으로 접근하였고, 분류 모델은 페이스북의 RoBERTa를 활용하였다. 트랜스포머의 인코딩을 활용한 BERT 계열의 모델은 주어진 문장의 내용을 이해하기에 적합한 모델로, 입력 텍스트 데이터를 활용하여 결과를 추론할 수 있는 모델이다. 발화요인을 분류하기 위한 기본 형태로, 화재 개요 텍스트와 발화요인으로 학습데이터를 구성하였고, 분류 성능을 향상시키기 위해 화재 개요 에 화재 발생 월과 화재 유형을 추가한 학습데이터를 사용하였다. 학습 데이터는 학습:검증:테스트를 8:1:1로 구성하였으며, 노이즈 데이터를 제외한 총 40,000여 건의 데이터를 학습하였다. 모델의 최대 길이(max_seq)는 512이며, 학습 횟수(epochs)는 모두 16회를 수행하였다. 실험 결과로, 화재 개요만 활용하여 발화요인을 예측하였을 때, 테스트 정밀도(Accuracy)는 47.66%였다. 화재 발생 월과 화재 유형을 추가하였을 경우, 테스트 정밀도는 75.83%로 발화요인 예측 정확도가 향상되었다. 화재 개요에 직접적으로 발화요인이 언급되지 않았음에도 발화요인에 영향을 주는 요소들을 학습하여 분류한 것으로 예측된다. 또한 월별, 유형별에 따라 자주 발생하는 발화요인이 있기 때문에, 해당 데이터를 추가로 학습했을 때 정밀도가 향상된 것으로 추정된다. 본 연구로 발화요인 분류에 도움이 되는 데이터를 추가할 경우, 생성형 AI의 분류 성능이 향상되는 것을 확인하였다. 본 연구를 기반으로, 향후 화재감식반에 대한 추가적인 교육이나 시스템이 없어도, 생성형 AI를 통해 화재 개요를 정형화된 형태로 자동 교정하기 위한 연구를 수행하고자 한다.

로딩중