상세검색
최근 검색어 전체 삭제
다국어입력
즐겨찾기0
160926.jpg
KCI등재 학술저널

Image-Text Sentiment Analysis Model Based on Visual Aspect Attention

DOI : 10.21493/kscg.2016.29.2.1
  • 17

소셜 네트워크는 우리 일상 생활의 필수적인 부분이 되었다. 소셜 미디어 정보에 대한 정서 분석은 소셜 네트워킹 사이트에 대한 사람들의 견해, 태도, 감정을 이해하는 데 도움이 된다. 전통적인 정서 분석은 주로 텍스트에 의존한다. 스마트폰이 등장하면서 문자뿐만 아니라 이미지 등 네트워크 상의 정보도 점차 다양해지고 있다. 많은 경우 이미지가 감정을 독립적으로 표현하기 보다는 텍스트를 향상시킬 수 있다는 것이 밝혀졌습니다. 우리는 새로운 이미지 텍스트 정서 분석 모델(LSTM-VAA)을 제안한다. 구체적으로 이 모델은 사진 정보를 직접 입력으로 가져가지 않고 VGG16 네트워크를 사용하여 이미지 특징을 추출한 다음 시각적 측면 주의를 생성하고 문서의 핵심 문장에 더 높은 가중치를 부여하고 시각적 측면 주의를 기반으로 문서 표현을 얻는다. 또한, 우리는 LSTM 네트워크를 사용하여 텍스트 감성을 추출하고 텍스트만을 기반으로 문서 표현을 얻는다. 마지막으로, 우리는 두 분류 결과 그룹을 통합하여 최종 분류 레이블을 얻는다. 옐프 레스토랑 리뷰 데이터 세트에서, 우리의 모델은 감정 분류를 위한 시각 주의 보조 텍스트로 시각 정보를 사용하는 것의 효과를 검증하는 BiGRU-m VGG보다 18.92% 높은 62.08%의 정확도를 달성한다. 비스타넷 모델보다 0.32% 높아 비스타넷 모델의 이미지가 텍스트를 완전히 커버할 수 없는 결함을 LSTM 모델이 효과적으로 보완할 수 있음을 입증했다.

Social network has become an integral part of our daily life. Sentiment analysis of social media information is helpful to understand people s views, attitudes and emotions on social networking sites. Traditional sentiment analysis mainly relies on text. With the rise of smart phones, information on the network is gradually diversified, including not only text, but also images. It is found that, in many cases, images can enhance the text rather than express emotions independently. We propose a novel image text sentiment analysis model (LSTM-VAA). Specifically, this model does not take the picture information as the direct input, but uses the VGG16 network to extract the image features, and then generates the visual aspect attention, and gives the core sentences in the document a higher weight, and get a document representation based on the visual aspect attention. In addition, we use the LSTM network to extract the text sentiment and get the document representation based on text only. Finally, we fuse the two groups of classification results to obtain the final classification label. On the yelp restaurant reviews data set, our model achieves an accuracy of 62.08%, which is 18.92% higher than BiGRU-m VGG, which verifies the effectiveness of using visual information as aspect attention assisted text for emotion classification; It is 0.32% higher than Vista-Net model, which proves that LSTM model can effectively make up for the defect that images in Vista-Net model cannot completely cover text.

1. Introduction

2. Related work

3. LSTM-VAA model

4. Experiment

5. Conclusion

Acknowledgment

References

로딩중