
축소된 상자그림을 활용한 미세먼지 데이터의 군집분석
Clustering Analysis of Particulate Matter Data Using Shrinkage Boxplot
- 최호식(Hosik Choi) 박창이(Changgi Park)
- 한국자료분석학회
- Journal of The Korean Data Analysis Society (JKDAS)
- Vol.18 No.5
- 등재여부 : KCI등재
- 2016.10
- 2435 - 2443 (9 pages)
상자그림(box-whisker plot)은 데이터분석의 초기 단계에서 수행하는 탐색적 데이터분석(exploratory data analysis; EDA)에서 분포의 개괄적 특성을 파악하기 위하여 자주 사용된다. 상자그림은 데이터의 크기보다는 데이터의 순위(rank) 혹은 분위수(quantile)에 근거하여, 데이터를 다섯 가지 요약숫자(5-number summary)로 축약하고 이를 상자와 상자의 경계 및 경계 밖의 데이터를 그림으로 표현하는 방법이다. 본 논문에서는 하나의 범주형 설명변수를 고려하는 일원배치 분산분석(one-way ANOVA)에서 분위수회귀추정량을 활용하여 상자그림 구성에 필요한 추정치를 구하는 방법을 소개하고, 쌍별규합벌점함수로 벌점화된 축소된 분위수회귀추정량을 설명한다. 아울러 이를 활용하여 범주형 설명변수의 수준별로 상자그림을 탐색하고, 여러 상자그림들을 군집화하는 방법을 소개한다. 본 논문에서는 상자그림의 사분위수 범위와 상/하 사분위수 및 중위수가 동시에 유사한 상자그림을 군집분석하였다. 제시된 방법을 2015년 1분기 서울시 미세먼지 일별 데이터에 적용한 결과, 31개의 측정소들을 상자그림과 사분위수 범위가 유사한 지역들로 효과적으로 군집화할 수 있었다.
In exploratory data analysis (EDA) conducted at an early stage of data analysis, a boxplot (box-whisker plot) is often used for understanding distributional characteristics of data. Boxplot visualizes the distribution of data via 5-number summary based not on the values but on the ranks or quantiles of data and it is represented by box-shaped plot and two boundaries with respect to range of data. In this study, we consider one-way analysis of variance (ANOVA) model with one categorical explanatory predictor and introduce a simple quantile regression estimator used in estimating boxplot. Under this framework, we introduce a shrinkage quantile regression estimator using pairwise fused penalty function for parameters. Moreover, we explain how to perform clustering boxplot-valued data based on the shrinkage quantile regression estimate. By applying the method on the particulate matter data of Seoul in 2015 first quarter, among 31 measurement sites, we obtained clusters showing similar boxplots or interquartile ranges effectively.
1. 서론
2. 축소추정을 활용한 상자그림의 군집화
3. 서울시 일별 미세먼지 데이터 분석
4. 결론
References