상세검색
최근 검색어 전체 삭제
다국어입력
즐겨찾기0
153063.jpg
KCI등재 학술저널

재표본 방법을 이용한 군집화 불안정성 측정에 관한 연구

A Study on the Selection of Number of Clusters Using Resampling Techniques

  • 5

다변량 분석 중 군집분석(cluster analysis)은 주어진 관측개체를 몇 개의 군집으로 나눔으로써 군집을 이해하고 효율적으로 활용하기 위한 분석방법이다. 군집분석에서 군집의 적절한 개수를 추정하는 것은 중요한 문제이며 지금까지 많은 연구가 진행되어왔다. 군집의 개수를 결정하는 방법들의 대부분은 군집내의 제곱거리와 군집간의 제곱거리를 이용하는 것이다. 하지만 연구자의 주관적인 의견이 많이 반영되고 정확한 결과를 제공해주지 못한다는 문제점이 있다. 최근에는 군집내, 군집간의 거리개념을 넘어서 군집의 안정성에 관한 연구도 많이 진행되고 있다. 특히 군집화 불안정성을 최소화하는 군집개수를 최적의 군집개수로 결정하는 알고리즘들이 제안되었다(Wang, 2010; Fang, Wang, 2012). 본 연구에서는 기존의 방법을 개선하여 연관성측도로 군집화 불안정성을 측정하는 새로운 군집개수 결정 알고리즘을 제안하였다. 실제 데이터에 새로운 방법을 적용시킨 결과, 기존 방법보다 군집개수 결정에서 우수함을 확인할 수 있었다.

In cluster analysis, it is important to estimate the number of clusters. Many ways to determine the number of cluster have been proposed such as Calinski, Harabasz (1974), Hartigan (1975), Krzanowski, Lai (1985). Most of them are based on the between cluster and/or within-cluster sum of squared distances. Recently, researches on the stability of the clustering have been studied. It has been proposed to select the number of clusters as the one minimizing the clustering instability (Wang, 2010; Fang, Wang, 2012). Also, Wang (2010) and Fang, Wang (2012) developed an estimate scheme for clustering instability based on bootstrap and cross-validation. In this study, we define the clustering instability by using measure of association such as kappa coefficient, Jaccard coefficient, phi coefficient. The proposed methods are demonstrated on a variety of numerical experiments using the simulation and real data application. The simulation study and real application showed that the hit ratio of the proposed method is higher than the previous methods. As a result, we know that the methods using measures of association are competitive.

1. 서론

2. 군집개수의 결정

3. 연관성측도를 이용한 군집개수의 결정

4. 실제 데이터의 적용

5. 결론

References

로딩중