본고는 중국어 단어 분리와 품사 태깅의 필요성을 살펴보고, 해당 전처리 작업에 사용되는 주요 중국어 형태소 분석기의 현황과 사용 방법을 상세히 설명하였다. 특히, 코딩에 익숙하지 않은 언어학 연구자들에게 GUI, CLI 등 다양한 환경에서의 풍부한 실행 예시와 더불어 간편 실행 파일을 제작하여 배포함으로써 중국어 형태소 분석기의 사용 편의성과 활용가능성을 높였다. 또한, 형태소 분석기별 특징과 기능 및 최적 용도를 분석하여 개별 연구자의 필요에 맞는 최적의 프로그램을 안내하였다. 본고는 데이터 기반 양적 연구(data-driven quantitative research)에 필연적으로 수반되는 중국어 형태소 분석의 길잡이로서, 코퍼스 언어학, 전산언어학 및 자연어처리 분야로 연구 지평을 넓히고자 하는 연구자들에게 중국어 데이터 전처리를 수행하기 위한 실용적인 도구와 구체적인 지침(guideline)을 제시하였다는 의의가 있다.
This paper introduces and explains in detail the overall information and tutorial about the commonly used Chinese morphological analyzers (e.g. ICTCLAS, Jieba, Stanford CoreNLP) which are employed in Chinese preprocessing tasks of Chinese Word Segmentation (CWS) and Part-of-speech tagging. In particular, the usability of the tools was enhanced by developing simple executables distributed to linguistic researchers unfamiliar with coding, along with rich execution examples in GUI and CLI environments. Plus, by introducing the unique features and functions of each morphological analyzer, it was recommended the most suitable analyzer tailored to the needs of individual researchers. As a guide for Chinese morphological analysis, which is inevitably accompanied by data-driven quantitative research, this study presents practical tools and useful guidelines for Chinese text preprocessing to researchers who want to expand their research interests to corpus linguistics, computational linguistics, and natural language processing.
1. 서론
2. 각종 분석기의 설치 및 사용 방법
3. 각종 분석기의 특징 및 용도 분석
4. 결론
(0)
(0)