최근 검색어 전체 삭제
교육평가연구 제36권 제3호.jpg
KCI등재 학술저널

고교학점제 뉴스 기사를 활용한 LDA 토픽모델링의 적정 표본크기 분석 연구

Optimal sample size analysis for LDA topic modeling using news articles about high school credit system

DOI : 10.31158/JEEV.2023.36.3.365
  • 111

본 연구는 LDA 토픽모델링 분석에 적합한 문서의 수를 알아보고자 하였다. 이를 위해 고교학점제 도입 발표 이후 2022년까지 고교학점제를 주제로 보도된 뉴스 기사 7,115건을 대상으로 샘플데이터를 생성하여 R 프로그램을 활용하여 토픽 분석 후 네 가지 방법을 통해 LDA 토픽모델링에 적합한 문서 수를 분석하고 결과를 종합하였다. 첫 번째, 문서 수에 따라 6가지 유형별 20개씩 총 120개의 샘플데이터를 생성하여 전체 문서를 대상으로 분석한 토픽과 일치도를 분석하였다. 두 번째, ROC곡선의 AUC를 통해 문서 수에 따른 전체 문서 토픽과 동일 토픽 분석력을 알아보았다. 세 번째, 문서 수별로 전체 문서 토픽과 동일한 토픽이 분석된 횟수를 비교하였다. 네 번째, 전체 문서 토픽별 문서의 할당률 및 가중치를 반영한 샘플데이터를 문서 수별 6가지 유형으로 생성하여 토픽 일치도를 비교하였다. 분석 결과 LDA 토픽모델링 분석을 위해서는 연구 대상인 문서 수가 최소 약 700건은 확보되어야 하고, 약 2,000건 이상의 문서가 확보될 경우 충분한 것으로 나타났다.

This study aimed to determine the number of documents suitable for LDA topic modeling analysis. Sample data was created from 7,115 news articles covering the high school credit system until 2022, following the announcement of the introduction of the high school credit system. Four different methods were employed for analysis. First, a total of 120 pieces of sample data, comprising 6 types with 20 pieces, were created, and the analyzed topics and concordance were examined for all documents. Second, through the AUC of the ROC curve, the discriminative power of all documents and the analysis of the same topic variables based on the number of documents were investigated. Third, the total document topics and the frequency of the same topic were analyzed in relation to the number of documents. Fourth, after analyzing the topics within the entire document, sample data reflecting the document ratio and weight by topic were created and compared based on the number of documents. The findings of this study indicate that a minimum of approximately 700 documents is required for robust LDA topic modeling analysis. Moreever, the analysis suggests that collecting over 2,000 documents provides sufficient data for reliable results.

Ⅰ. 서론

Ⅱ. 연구방법

Ⅲ. 연구결과

Ⅳ. 결론 및 논의

