
텍스트 마이닝을 활용한 감정 비율 단어 그래프
Sentiment ratio word graph using “local university” news articles and text mining
- 한국자료분석학회
- Journal of The Korean Data Analysis Society (JKDAS)
- Vol.25 No.5
- 2023.10
- 1749 - 1757 (9 pages)
SNS, 논문, 설문조사 주관식 문항 답변과 같은 자연어로 이루어진 비정형 데이터는 텍스트 마이닝을 이용하여 분석 결과를 비교하거나 시각화하는 경우가 일반적이다. 년, 분기, 월, 요일과 같은 시간을 나타내는 임의의 구간을 설정하여 텍스트 데이터를 분석할 경우 전체 구간 중 어떤 구간에 데이터가 가장 많고 적은지, 전체 구간 중 구간별로 많이 사용된 감정 단어가 무엇인지, 특정 구간에 있는 텍스트 데이터가 상대적으로 얼마큼 많이 긍정보다 부정적으로 작성되었는지 판단해야 할 경우가 있다. 본 연구에서는 2019년부터 2022년까지 “지방대”와 관련된 뉴스 기사를 수집하기 위해 네이버에서 “지방대”라고 검색한 뒤 네이버 뉴스라고 표시된 기사만을 수집하여 위의 세 가지 정보를 한 번에 전달할 수 있는 감정 비율 단어 그래프를 제안한다. 감정 비율단어 그래프는 텍스트 데이터를 년, 분기, 월, 요일과 같은 시간을 나타내는 임의의 구간 기준으로 나눈 뒤 감성 사전에 있는 감정 점수를 텍스트 데이터에 부여하여 만들어진 그래프이다. 감정 비율 단어 그래프를 시각화할 때 파이계수도 같이 활용하여 단어를 표시한다면 특정 구간에서 감정 단어와 관련성이 가장 큰 단어가 무엇인지에 대한 정보를 추가로 전달할 수 있다.
Unstructured data consisting of natural language such as SNS, papers, and questionnaire subjective question answers are generally compared or visualized using text mining. When analyzing text data by setting a random interval representing a time such as year, quarter, month, and day, it may be necessary to determine which interval has the most data, which sentiment words are used a lot for each interval, and how much text data in a particular interval is written negatively than positive. As a way to solve this problem, this study proposes an sentiment ratio word graph that can deliver the above three information at once. An sentiment ratio word graph is a graph created by dividing text data by a random interval standard representing time such as year, quarter, month, and day of the week and then assigning the sentiment score in the sentiment dictionary to the text data. When visualizing an sentiment ratio word graph, if you also use the pie coefficient to display words, you can further convey information about which words are most relevant to the sentiment word in a particular interval.
1. 서론
2. 데이터 설명 및 전처리
3. 감정 비율 단어 그래프 시각화
5. 결론
Reference