자기조직화지도를 이용한 분류문제에서의 결측자료 대체방법 연구
Classification Using Self-organizing Maps with Missing Data
- 한국자료분석학회
- Journal of The Korean Data Analysis Society (JKDAS)
- Vol.19 No.3
-
2017.061261 - 1272 (12 pages)
-
DOI : 10.37727/jkdas.2017.19.3.1261
- 28
Kohonen(1990)에 소개된 자기조직화지도(self-organizing maps, SOM)는 비지도학습(unsupervised learning) 신경망(neural network) 모형의 한 종류로서 고차원 다변량 자료에 대한 군집분석과 저차원 시각화에 사용된다. 학습벡터 양자화(learning vector quantization, LVQ)는 벡터 양자화(vector quantization) 방법을 활용한 지도학습(supervised learning) 모형의 한 종류로서 사전에 정해진 개수의 노드로 구성된 판별경계를 베이즈 판별경계로 미세하게 조정하는 알고리즘이며 비선형 판별경계를 가지는 자료에 대한 판별분석에 유용하게 사용된다. 본 논문에서는 비선형의 판별경계를 구축해야 하는 경우 SOM 방법의 결과노드를 활용하는 것이 K-평균 군집분석의 결과노드를 활용하는 것보다 최적의 판별경계 구성에 유리할 수 있음을 모의실험을 통해 보였다. 또한 결측값이 존재하면서 비선형 판별경계를 가지고 있는 자료에 대해 일반적인 결측값 대체방법인 평균대체, 핫덱대체, 그리고 모형에 근거한 대체 방법으로 대체를 실시하였을 때 SOM을 활용한 LVQ 방법의 성능을 모의실험을 통해 알아보고 유리 판별 자료에 각 결측대체방법을 적용하여 판별결과를 비교하였다
Self-organizing maps (SOM) (Kohonen, 1990), one of the unsupervised learning neural network models, are used to conduct cluster analysis or visualize high dimensional data in a low dimensional space. Learning vector quantization (LVQ), one of the supervised learning models utilizing the vector quantization method, is an algorithm to adjust decision borders based on a chosen number of nodes for producing bayesian decision borders and usefully applied to discriminant analysis for data with nonlinear decision borders. Here, we conduct a simulation to show that initial nodes of LVQ based on the SOL algorithm performs better in finding optimal nonlinear decision borders than the ones based on the K-mean clustering method. When data with nonlinear decision borders include missing values, imputation can be implemented to fill in missing values. A simulation is conducted to compare the performance of the LVQ method utilizing SOM when missing values are imputed by mean imputation, hotdeck imputation, and a model based imputation. These imputation methods are also applied to impute missing values of glass identification data and misclassification rates of them are compared.
1. 서론
2. 자기조직화지도와 벡터양자화
3. 분류문제에서의 결측자료 대체방법
4. 모의실험
5. 유리 판별자료의 분석
6. 토의 및 결론
(0)
(0)