교통공사 고객만족도조사 자료를 이용한 결측값 대체방법 비교
A Simulation Study of Imputation Methods for Transportation Corporation’s Survey Data
- 한국자료분석학회
- Journal of The Korean Data Analysis Society (JKDAS)
- Vol.15 No.4
- : KCI등재
- 2013.08
- 1903 - 1912 (10 pages)
본 논문에서는 표본조사에서 중요하게 다루어지고 있는 비표본오차의 가장 큰 발생 원인인 결측값(missing value)에 대하여 살펴보고자 한다. 대부분의 사회, 경제 조사는 여러 가지 이유로 무응답이 발생하게 되는데, 현실적으로 무응답이 발생되지 않도록 조사하는 것은 어려운 일이며 이러한 무응답은 조사 결과에 상당한 영향을 주기 때문에 조사의 신뢰도를 높이기 위해서는 무응답률을 낮추는 일이 매우 중요하다. 그러나 일반적으로 무응답으로 인한 결측값이 생길 경우, 결측값을 무시하고 분석에 사용하는 것이 빈번한데 이러한 결측값 제거방법은 조사 변수들간의 관계를 고려하지 않고 무응답을 제외시킴으로써 자료를 효과적으로 이용하지 못하는 단점이 있어 바람직하지 않으며, 이런 경우 조사 결과에 있어서 많은 오류가 발생할 수 있다. 실제 사회분야의 표본조사 중 대부분을 차지하는 범주형 자료의 수집에 있어서 결측값이 발생되는 경우 이러한 결측값을 보완할 수 있는 방법들을 점검하여 보기로 한다. 나아가 실제 B 교통공사 표본조사 자료에 결측값 대체방법을 적용시킴으로써 각각의 보완 방법들의 결과 및 방법론적 특성을 확인해보고자 한다.
Methods of removing or ignoring an object which includes missing values has been used for a long time in order to handle it. This kind of methods is not appropriate because of the disadvantages that data can not be used more effectively, such as excluding non responses without regard for the relationship between the survey variables. In this case, plenty of errors can be occurred in the result. In case of collecting categorical data which occupies the bulk of sample surveys of the real social sector, we examine how missing values occur and how to complement them by way of checking. Furthermore, we verify each results of the complementary methods and methodological characteristics by applying the replacing methods in the survey data of B Transportation Corporation.
1. 서론
2. 무응답에서의 결측값 대체방법
3. 실제자료를 통한 모의실험
4. 결론