
LDA와 Word2vec 방법론을 이용한 의정부시 SNS 데이터의 토픽 모델링 및 시각화
Topic Modeling and Visualization of Uijeongbu City SNS data using LDA & Word2vec Methodology
- 한국자료분석학회
- Journal of The Korean Data Analysis Society (JKDAS)
- Vol.22 No.6
- : KCI등재
- 2020.12
- 2391 - 2403 (13 pages)
토픽모델링의 대표적 방법인 LDA를 이용하여 지자체 ‘의정부시’ 키워드 기반의 소셜 텍스트 데이터에 대한 토픽모델링을 실시하고 각 토픽별 중심단어에 대한 단어간 유사도를 Word2vec의 Skip-gram 알고리즘을 이용해 산출하여 시각화 해 보고자 한다. 또한 선정된 토픽별 긍·부정어의 수준이 어떠한지를 파악하기 위해 감성분석을 실시한다. ‘의정부’ 관련 소셜데이터는 네이버와 다음의 카페, 블로그, 지식인, 웹문서를 대상으로 하였다. 토픽모델링 결과 ‘입시교육’, ‘이사/수리’, ‘웨딩’, ‘취미/레저’, ‘행정/기관’, ‘음식/맛집’ 이라는 6개의 토픽이 선정되었으며 각 토픽별 단어들의 유사도 시각화 결과를 제시하였다. 토픽별 감성분석 결과 ‘입시교육’에 있어서는 부정어와 중립단어들의 비율이 높은 반면 ‘음식/맛집’은 긍정어휘의 비율이 매우 높게 나타났음을 확인 할 수 있었다. 본 연구를 통해 경기북부를 포함한 많은 지자체들이 관심 키워드 중심의 소셜데이터 수집 및 분석을 통해 지자체와 관련한 주요 키워드들이 무엇이며, 주로 어떤 주제 또는 토픽에 관심을 가지고 있는지 등을 파악하고, 이러한 키워드 분석을 지자체 특성과 결합하여 지역행정의 방향에 도움을 줄 수 있는 인사이트를 찾을 수 있을 것이라 기대해본다.
Topic modeling is conducted on social media data of the local government Uijeongbu City using LDA, a representative method of topic modeling. The degree of similarity between words from the central words of each topic is calculated and visualized using the Skip-gram algorithm of Word2vec. Also this study conducts sentiment analysis for each selected topic. Uijeongbu social data was targeted at Naver and Daum cafes, blogs, intellectuals, and web documents. As a result of the topic modeling, six topics were selected: ‘entrance examination education’, ‘moving/repair’, ‘wedding’, ‘hobby/leisure’, ‘administration/institution’, and ‘food/restaurant’ and the results of visualization of the similarity of words for each topic were presented. As a result of the sentiment analysis for each topic, it was confirmed that the ratio of negative words and neutral words was high in ‘entrance examination education , while the ratio of positive vocabulary was very high in ’food/restaurant’. Through this study, local governments are expected to be interested in social data and collect and analyze it. Also, through this analysis, I hope that it will provide as an opportunity to recognize that social data has great value as information that can support local government administration.
1. 서론
2. 이론적 배경 및 연구모형
3. 실증 분석
4. 결론
Reference