유니코드가 국제 표준코드로 제정된 이래 각종 데이터베이스 구축 및 응용 소프트웨어 개발 등 폭넓은 분야에서 채택ㆍ사용되고 있다. 우리나라의 고전 전산화 사업에서도 예외는 아니어서 유니코드에 수록된 2만 여자에 달하는 한자는 한적 자료의 전산화에 많은 도움을 주고 있다. 그런데 유니코드는 그 자체에 다양한 異體字를 수용하고 있다. 이는 유니코드 제정 당시 韓ㆍ中ㆍ日 각국에서 사용되던 한자를 통합하는 과정에서 초래된 것으로 각국의 한자 사용 습관과 한자의 音이나 義와는 무관하게 지나치게 形을 중심으로 통합ㆍ분리ㆍ재배열 하도록 한 데에서 기인한다. 하나의 코드체계 내에 다양한 자형을 수용할 경우, 인쇄ㆍ출판 등에 도움을 줄 수 있지만, 대단위 데이터베이스를 구축할 경우에는 입력과 검색에 심각한 문제점을 초래할 수 있다. 특히 국가 차원의 고전 전산화 사업이 연차적으로 확대 수행되는 현 시점에서, 異體字 인코딩 및 異體字 정보 데이터베이스 구축은 시급한 과제라 하겠다. 이 논문은 이와 같은 기존의 성과를 바탕으로 유니코드 Ext.B 한자의 異體字에 대한 효율적인 정보 처리 방안을 마련하기 위한 기초 연구이다. 이를 위하여 먼저 문자코드연구센터에서 기존에 구축한 유니코드 BMP 영역 한자의 異體字 정보 데이터베이스를 소개하였다. 다음으로 유니코드 Ext.B 한자의 異體字에 대하여 그 유형을 분석하고, 아울러 異體字 데이터베이스를 구축 방안에 대해서 논의하였다. 우선, 유니코드 BMP 영역 한자의 異體字 정보 DB 구축에 있어서 작업 경위, 異體字ㆍ通用字의 구분과 적용 원칙, 데이터베이스 구축의 예를 정리하였고, 유니코드 Ext.B 한자의 異體字 유형 분석 및 DB 구축 방안에 있어서 Super CJK와 유니코드 Ext.B 한자, 유니코드 Ext.B 한자의 이체자 유형, 유니코드 한자의 이체자 정보 DB 구축 방안에 대하여 살펴보았다. 이러한 유니코드 한자의 이체자 정보 데이터베이스가 구축되면, 첫째로 고전 전산화 사업에서 입출력은 물론 이미 구축된 고전 자료 데이터베이스를 효율적으로 검색할 수 있는 정보 환경을 마련할 수 있을 것이다.
Unicode is a standard for developing all kinds of database and software nowadays. So we apply Unicode to digitalizing Korean classical texts. But Unicode has many variations〔異體字〕 on some of Chinese characters. This could make serious problems of developing database so that we will provide for the future work. This is a study for make a efficient data processing about Unicode variations. First we presented some informations of 'Unicode BMP characters and Ext.B characters database' developed by Character Code Research Center〔문자코드연구센터〕. Second we analyzed a pattern of Unicode BMP characters and Ext. B characters. Lastly we discussed the developing methods of Unicode variations and Unicode variation code table.
Ⅰ. 머리말
Ⅱ. 유니코드 BMP 영역 한자의 異體字 정보 DB 구축
Ⅲ. 유니코드 Ext.B 한자의 異體字 유형 분석 및 DB 구축 방안
Ⅳ. 맺음말