
재무 및 건강 설문자료에서 결측치의 논리적 한계정보를 고려한 회귀모형 기반 베이지안 다중대체 방법의 적용
Applications of Regression based multiple imputation methods considering logical boundary information of missing values in financial and health survey data
- 한국자료분석학회
- Journal of The Korean Data Analysis Society (JKDAS)
- Vol.23 No.2
- : KCI등재
- 2021.04
- 939 - 951 (13 pages)
설문조사에서 조사항목들 간의 연관성은 상관관계 뿐 아니라 그들 간의 논리적 한계조건까지 포함할 수 있다. 특히 응답이 정확한 수치로 제시되어야 하는 재무 및 건강 설문조사에서는 조사항목들 간 한계조건이 명확하게 존재할 가능성이 크다. 본 연구에서는 산업별 매출액 조사에서의 첨단세라믹 매출액 그리고 건강보험공단의 건강검진 건강 설문조사 자료에서 흡연기간 응답에 대한 결측치의 대체를 위해 다양한 회귀모형 기반 베이지안 다중대체 방법을 적용하였다. 산업별 매출액 조사에서 첨단세라믹 매출액의 경우, 금감원에서 조사된 기업의 전체 매출액이 상한(upper boundary)로 존재하며 건강보험공단의 건강검진 건강설문조사 자료에서 흡연기간의 경우 응답자의 연령이 명확한 상한으로 존재한다. 두 설문조사에서 모두 이들 상한조건을 결측치 대체 과정에 반영하고 그 분석결과를 비교 논의 하였다. 첨단세라믹 매출액에서의 결측대체 결과 높은 결측률과 응답과 무응답 기업들 간의 설명변수 분포의 차이로 인하여 방법 별 대체결과에 차이가 발생하여 가장 적절한 대체방법을 선택하였다. 반면 흡연기간에 대한 결측치 대체는 적용한 모든 방법들이 유사한 결과를 나타냄을 확인하였다.
The relationship between responses in a survey include not only correlations but also logical boundaries between them. In particular, in financial and health surveys in which responses must be presented in accurate numbers, it is highly likely that boundaries between survey items exist clearly. In this paper, several regression based multiple imputation methods were applied to the missing responses of smoking period in health survey data and sales of advanced ceramic in industry sales survey. The missing values in both surveys are cases where clearly known boundaries exist, so this fact was reflected in all imputation procedures and the analysis results were compared and discussed. As a result of missing imputation in advanced ceramic sales, a high missing rate and differences in the distribution of explanatory variables between respondents and non-responding companies caused differences in imputation results for each method, so the most appropriate substitution method was selected. On the other hand, all the methods applied for the replacement of missing values for the smoking period showed similar results.
1. 서론
2. 한계정보를 고려한 회귀모형 기반 베이지안 다중대체 방법
3. 항목별 세부 매출액 변수의 무응답 대체
4. 건강검진 자가응답 변수의 무응답 대체
5. 결론
References