상세검색
최근 검색어 전체 삭제
다국어입력
즐겨찾기0
학술저널

문서 임베딩 생성 방법에 따른 토픽 모델링 성능 비교 : S-BERT와 LLM 임베딩 모델 중심으로

Comparison of Topic Modeling Performance by Document Embedding Generation Methods : Focused on S-BERT and LLM Embedding Models

  • 3
스마트미디어저널 제15권 제2호.jpg

본 연구는 임베딩 생성 방법에 따른 토픽 모델링의 성능 비교를 위해 대규모 언어 모델(LLM) 임베딩과 S-BERT 임베딩을 활용하여 BERTopic 기반 토픽 모델링 실험을 수행하였다. BBC News, 20 Newsgroups, IMDB 데이터를 사용하여 텍스트를 전처리하고, CLS, mean, max 등을 조합한 7가지 풀링 방법에 따라 토픽 일관성(Cv, NPMI)과 토픽 다양성(topic diversity)을 평가하였다. 실험 결과, 성능 우위는 데이터셋과 임베딩 모델에 따라 달랐다. mean 풀링 기준으로는 LLaMA 임베딩이 상대적으로 안정적인 토픽 일관성을 보였으며, CLS·max를 포함한 듀얼 풀링을 적용하면 S-BERT 임베딩이 LLaMA 임베딩보다 Cv와 NPMI에서 높게 나타났다. 듀얼 풀링은 토픽 다양성을 저해하지 않으면서 전반적인 토픽 일관성 향상에 기여하였다. 이는 S-BERT 임베딩으로 적절한 문서 임베딩을 방법을 적용할 경우, LLM기반 임베딩과 비교하여 토픽 일관성 측면에서 우수하거나 대등한 성능을 달성할 수 있음을 시사한다. 또한 듀얼 풀링은 추가 연산이 단순 집계 수준에 그쳐 단일 풀링 대비 평균 소요 시간 차이가 거의 발생하지 않았다. 본 연구는 토픽 모델링 성능 개선을 위하여 고비용의 LLM기반 임베딩을 활용하는 것보다 임베딩 특성과 풀링 전략을 고려한 설계가 실질적인 대안이 될 수 있음을 보여준다.

This study compares topic modeling performance across embedding generation methods by applying BERTopic with S-BERT and large language model (LLM) embeddings on the BBC News, 20 Newsgroups, and IMDB datasets. We evaluate topic coherence (Cv, NPMI) and topic diversity under seven pooling strategies (including CLS, mean, and max), and find that while LLaMA embeddings yield relatively stable coherence under mean pooling, dual pooling strategies that include CLS and max often allow S-BERT embeddings to achieve equal or higher Cv and NPMI than LLaMA without substantially harming topic diversity. Because dual pooling requires only simple aggregation and adds little runtime overhead, these results suggest that, with appropriate pooling design, lower-cost S-BERT embeddings can in some cases replace or rival LLM-based embeddings for topic modeling.

Ⅰ. 서론

Ⅱ. 이론적 배경

Ⅲ. 연구방법

Ⅳ. 연구결과

Ⅴ. 결론

(0)

(0)

로딩중