불균형 자료의 분류분석을 위한 가우스 혼합 군집모형을 이용한 샘플링 기법
Sampling Method Using Gaussian Mixture Clustering for Classification Analysis of Imbalanced Data
- 한국자료분석학회
- Journal of The Korean Data Analysis Society (JKDAS)
- Vol.22 No.2
- : KCI등재
- 2020.04
- 565 - 574 (10 pages)
일반적으로 전통적인 분류분석 방법은 소수집단의 개체수가 다수집단의 개체수와 현격한 차이를 보이는 이항 범주형 불균형 자료(imbalanced data)의 분류분석에서 문제를 야기한다. 그것은 다수집단에 편향된 분류함수를 추정하므로서 대부분의 자료를 다수집단으로 분류하여 소수집단의 분류 정확도를 현저히 감소하는 현상이다. 이러한 문제를 효과적으로 해결하기 위하여 본 논문에서는 가우스 혼합 군집모형을 활용하여 불균형 자료의 분류분석을 위한 샘플링 기법을 제안한다. 이 방법은 소수집단에 대해 가우스 혼합분포를 추정하고 이를 기반으로 과대 추출하는 것이 핵심이다. 제안하는 방법을 SMOTE(synthetic minority over-sampling technique), ADASYN (adaptive synthetic sampling)과 같은 기존의 과대 추출 방법들과 다양한 상황 및 실제 예제에서 비교하여 그 우수성을 확인하였다. 특히, 불균형 자료 분석에서 중요하게 다루어지는 소수집단의 분류 정확도 측면에서 제안한 방법은 충분히 좋은 성능을 보였다. 본 연구에서는 이진 분류기로서 서포트 벡터 머신을 분류방법으로 사용하였으며, 전체 정확도, 민감도, 특이도 및 기하평균으로 성능을 평가하였다.
When analyzing imbalanced data with different class sizes, the classification accuracy in minority class (sensitivity) may drop significantly because traditional classifiers are biased toward the majority class so that they classifies almost all observations to majority class. The purpose of this study is to propose a sampling method for classifying imbalanced data using the Gaussian mixture clustering model. We compared our proposed method with the existing over-sampling methods such as SMOTE (synthetic minority over-sampling technique) and ADASYN (adaptive synthetic sampling), and confirmed the excellence of the proposed method in various situations. In particular, the proposed method outperformed all other methods in terms of the classification accuracy of the minority class, which are generally important in the analysis of imbalanced data. In this study, a support vector machine method is adopted as a classification method and each method is evaluated by overall accuracy, sensitivity, specificity, and geometric mean.
1. 서론
2. 불균형 자료의 분류분석을 위한 다양한 방법론
3. 가우스 혼합 군집모형을 이용한 과대추출 기법
4. 모의실험
5. 결론
References