상세검색
최근 검색어 전체 삭제
다국어입력
즐겨찾기0
153766.jpg
KCI등재 학술저널

주기도의 상관성을 이용한 시계열자료의 군집분석

Time-series Data Clustering Based on the Correlation of Periodogram

DOI : 10.37727/jkdas.2020.22.5.1751
  • 78

시계열 자료를 군집화할 때, 시계열의 계열수가 많은 경우에는 자료의 특성이 유사한 시계열들을 군집화한 후 이를 사전정보로 활용하여 모형설정 및 예측을 수행한다면 훨씬 효율적일 것이다. 시계열 자료의 군집분석 방법에는 다양한 거리가 정의될 수 있으며, 크게 두 가지로 구분한다. 첫째는 시간영역(time domain)에서의 분석으로, 시계열 자료의 특성인 자기상관함수(auto-correlation function), 부분(partial)자기상관함수로부터 거리(distance)를 정의하는 방법이다. 둘째는 주파수영역(frequency domain)에서의 분석으로, 표본 자기공분산함수(sample auto-covariance function)를 통해 얻어지는 주기도(periodogram)를 이용하여 거리를 정의하는 방법이다. 본 연구에서는 스펙트럼 밀도함수(spectral density function)의 추정량인 주기도 간의 상관성(association)에 근거한 거리를 제안하였다. 먼저 기존에 시계열 자료를 그룹화하는 데 사용된 거리들을 간략히 소개하고, 주기도 간의 상관관계로부터 거리를 제안하여 모의실험을 통해 성능을 비교하였다. 또한, 1990년 1월부터 2015년 4월까지 전국 월별 제조업생산지수 자료를 대상으로 기존의 거리와 본 연구에서 제안한 거리를 이용하여 산업 간의 군집화를 시도하였다.

The main goal of clustering time-series data is to clarify how similarity between time-series can be measured. There are two different approaches for identifying the similarity. The first approach focuses on the distances based on autocorrelation function and partial autocorrelation function inherent in given time-series measurements. The distances between estimated parameters under ARIMA model are also proposed. The second approach considers the time series clustering based on the estimator of spectral densisty function named periodogram and its transformations realized in the frequency domain. In this papar, we propose the metrics based on relationships between (smoothed) periodograms for the time-series data classification. The proposal is based on Pearson’s correlation and intra-class correlation. We evaluated the similarity metrics of our interest via three different simulation scenarios. A real-data analysis with 24 Korea manufacturing production indices data is also presented.

1. 서론

2. 유사성 거리 척도

3. 모의실험

4. 실증연구

5. 결론

References

로딩중