코퍼스에 의한 일본어 이은말 연구
A Corpus Based Study on Japanese Collocations
- 일본어문학회
- 일본어문학
- 日本語文學 第77輯
-
2017.0581 - 104 (24 pages)
- 67

本稿の目的は、日本語におけるコロケーションを抽出するにあたって、様々な統計的方法の中で適切なモデル提示することである。本稿で用いる統計的方法は、ダイス係数、Jaccard係数、シンプソン係数(Simpson’s Coefficient)、相互情報量(MutualInformation)、コサイン類似度(Cosine Similarity)、対数尤度比(log-likelihood ratio)、t検定(t-test)である。 結果は次のようである。(1)日本語のコロケーションを抽出するにあたって一番有用な統計的方法は対数尤度比である。対数尤度比は、本稿における統計方法のうち最も均衡のとれた指標を表わし、他の測定値に増さっていることがわかった。(2)ダイス係数は、もっとも簡単な統計方法ではあるが、日本語の書き言葉コーパスを用いてコロケーションを抽出する際、安定的な統計モデルである。(3)t検定は共起頻度に比例してその共起強度のスコアが決まるもので、習慣的な共起関係にある語の評価に優れている。(4)コーパスの大きさのみならず、文体(話し言葉と書き言葉)によっても検出されるコロケーションに差がある。したがって、種類の違う複数のコーパスから抽出されたコロケーション候補に統計的指標をあててコロケーションリストを作成することが望ましい。
The aim of this paper is to present the most useful statistical data-extracting tools using various statistical methods and comparing the values with each other in order to provide the best method or model for defining the collocational configuration of Japanese in a statistical manner. We considered seven statistical measures: Dice’s Coefficient, Jaccard Index, Simpson’s Coefficient, Mutual Information, Cosine Similarity, Log-likelihood ratio, and t-test. The results are summarised as follows; (i) One of the most useful methods for extracting Japanese collocations is the log-likelihood ratio. The log- likelihood ratio provided the most balanced indicator of the statistical methods used in this article and also turned out to be better than or at least not inferior to the other measures; (ii) The Dice’s coefficient was a simple statistical method but confirmed to be one of the most stable statistical toolsto extract collocations from Japanese corpora; (iii) Since the t-score is proportional to the co-occurrence frequency, it can be effectively utilized to detect a conventionally co-occurring word.
일문요약
1. 들어가기
2. 이은말(collocation)의 개념과 중심어(=연어핵)
3. 연구자료 및 방법
4. 이은말 추출
5. 분석
6. 이은말 검증
7. 「心」와 공기하는 동사의 의미 예측
8. 나오기
참고문헌
<Abstract>
(0)
(0)