
구간형태 자료에서 두 집단 분포 비교
Comparison of the Two Distributions Based on Interval Valued Data
- 한국자료분석학회
- Journal of The Korean Data Analysis Society (JKDAS)
- Vol.18 No.6
- : KCI등재
- 2016.12
- 3023 - 3031 (9 pages)
이 논문에서는 관심 변수가 하나의 숫자로 관찰되는 전통적인 통계 자료가 아닌 구간형태로 측정된 자료의 통계분석에 관하여 토의한다. 가장 단순한 구간형태의 자료는 정리된 도수분포표나 응답항목이 구간으로 제시되는 설문조사 등에서 살펴볼 수 있는데 최근 디지털 기기에 의한 실시간 측정 데이터, 원격 센싱(sensing) 데이터, 이미지 데이터 등 많은 양의 데이터가 수집되고 있는 빅데이터 분야에서 수집된 모든 데이터들을 그대로 저장하기보다는 구간형태의 자료로 변형하여 저장하게 되면서 많은 사례가 나타나고 있다. 따라서 구간형태의 자료는 앞으로 많은 영역에서 활용될 수 있지만, 현재까지 제시된 방법론은 많지 않다. 이러한 상황에서 본 논문은 구간형태의 자료로부터 두 집단의 분포를 비교하는 문제를 해결하는 방안을 제안한다. 제안하는 방법은 두 집단의 분포를 비교하는 비모수적 방법인 기존의 Smirnov 검정의 개념을 구간자료에 적용할 수 있도록 확장하여 검정 통계량을 도출한다. 이때 동일개체의 구간자료는 특정분포 H(.)의 절단된 분포를 따르는 것으로 간주하며, 유의확률은 임의화 검정(randomization test)을 통하여 산출한다. 그리고 제안한 방법의 유용성을 두 하천의 특정 물질 함유량 비교 사례를 통하여 확인한다.
In this paper we discuss about the analysis of the interval valued data which is quite different from the traditional data measured as one numbers. The simplest example is the data from interval response items for the income questionnaires. More examples appear frequently in the field of big data. An example is easily found from a person’s systolic blood pressures which are measured during a specific time interval. Another one can be found in the water pollution data which is almost continuously collected by an sensing instrument. The conventional analysis for such interval data is usually done based on two numbers such as middle point and range rather than using all the interval information. This paper focuses on two sample comparison problem with testing equality of the two distributions. We suggest a test statistics by extending the Smirnov nonparametric test which has been devised for the single valued data. We show a way of computing the corresponding p-values using randomization test. Finally two data sets are analyzed as illustrations.
1. 서론
2. 모형과 가설
3. Smirnov 검정 통계량의 확장
4. 사례 적용
5. 결론
References