상세검색
최근 검색어 전체 삭제
다국어입력
즐겨찾기0
大東漢文學 第74輯.jpg
KCI등재 학술저널

한자 표준 속성정보 DB 고도화의 필요성과 과제

The Necessity Upgrading the Standard AttributeInformation DB of Han-characters

DOI : 10.21794/ddhm.2023.74.357
  • 19

본고는 한국에서 한자 사용을 위한 가장 기초적인 정보 집합체인 속성정보의 자료화와 고도화의 필요성, 마지막으로 고도화의 방안을 논의하였다. 한자는 형·음·의를 가진 정보 집합체이다. 한자는 표의문자의 속성을 벗어날 수 없는 이유로 수많은 시각적 부호로 표현된다. 현재 유니코드로 개발된 한자 자형은 수량으로만 볼 때 9만 자를 넘고 있다. 이 9만 자의 한자는 모두가 각기 다른 모양을 가질 뿐 아니라, 그에 따른 음가와 의미 정보, 그리고 부수와 획수, 부건 등 다양한 정보를 가지고 있다. 이러한 정보를 우리는 ‘속성정보’라고 말한다. 데이터를 처리할 때 각 데이터에 부여된 속성정보에 따라 한자를 배열, 나열하고 검색하여 사용할 수 있게 된다. 때에 따라서 속성정보에 메타데이터가 포함되기도 한다. 메타데이터란 출처, 자체 종류, 자의 관계, 자음 관계, 자형 연관 관계 등이다. 한자를 정리하고 사용함에 있어 정확한 한자 속성정보가 필요한 것은 한자의 속성정보가 한자를 검색하고 이용하는 기준이 되기 때문이다. 그럼에도 불구하고 현재 우리나라의 사전과 자전, 그리고 유니코드 한자 검색기에 적용된 속성정보는 한자의 수에 비해 현저히 부족할 뿐 아니라, 이미 있는 정보조차 많은 오류를 여전히 가지고 있어 표준화된 검색 시스템을 구현하기 어려운 경우가 다수 발견된다. 본고는 한자의 속성정보 DB에 포함된 “음가”의 문제와 이체 문제를 검토하여 고도화의 필요성에 대해 밝힘을 목적으로 하였다.

This paper discussed the data information, the most basic information collection for the use of Han-characters in Korea, the necessity of upgrading, and finally, the method of upgrading. Han-characters are a collection of information that has a formal meaning. Han- are expressed in numerous visual signs for reasons that cannot deviate from the properties of the characters in the table. Currently, there are more than 80,000 characters developed by Unicode. These 80,000 characters not only have different shapes, but also have various information such as pitch and meaning information accordingly, as well as bookkeeping, stroke count, and components. We call this attribute information. According to this attribute information, Han-characters can be arranged, listed, searched, and used. In some cases, metadata may be included in the attribute information. Metadata is a source, its own type, child relationship, consonant relationship, and type relationship. Accurate Han-character attribute information is needed to organize and use Han-characters because the Han- character attribute information becomes the standard for searching and using characters. Nevertheless, it is often difficult to implement a standardized search system because there are still many errors in the dictionary, dictionary, and attribute information applied to the Unicode character search machine in Korea. This paper aims to clarify the necessity of upgrading by reviewing the problem of “music” and transfer problems included in the attribute information DB of Han-characters.

1. 서론

2. 한국 한자 속성정보의 종류

3. 한국 한자 속성정보 현황

4. 음가정보의 문제

5. 이체정보의 문제

6. 향후 처리에 대한 일견

7. 결론

로딩중