
2007 광고 산업 통계조사에서 발생하는 결측값 대체방법에 관한 연구
A Study on the Imputation Method for the 2007 Advertising Industry Survey
- 한국자료분석학회
- Journal of The Korean Data Analysis Society (JKDAS)
- Vol.10 No.3
- : KCI등재
- 2008.06
- 1483 - 1493 (11 pages)
조사 대상의 응답여부에 의존하는 설문 조사의 성격상 여러 가지 이유로 결측치가 발생하게 된다. 특별히 문항들의 구성이 복잡하고 질문의 내용이 민감할수록 무응답으로 인한 결측치의 비율이 높아진다. 2007 광고 산업 통계조사의 경우 각 광고업체의 총 매출액과 총 종사자수와 더불어 각 세부 업종별 매출액 그리고 성별, 고용 형태별 종사자수 등의 변수 또한 주요 조사 항목으로 그 설문의 구성이 복잡하다. 특별히 영세업체와 대형업체의 경우 매출액이 갖는 정보의 민감함으로 응답율이 낮게 나타난다. 본 연구에서는 복잡한 자료 구조를 갖는 2007 광고 산업 통계조사 자료의 결측치 대체를 위한 방법을 모색하였다. 총 매출액과 총 종사자수의 대체를 위해서는 전년도 자료를 이용하여 Markov Chain Monte Carlo와 회귀추정 방법을 통한 대체법을 고려하였다. 각 세부 항목별 결측치의 대체를 위하여서는 중요 변수의 정보를 이용한 최근접이웃대체를 시도하였다. 대체된 자료의 이용과 추정치 사용에 있어서의 주의하여야 할 사항들을 결론에 제시하였다.
Due to the characteristics of the survey that depends on the response of interviewee, one may have a certain portion of missing values. Missing values due to nonresponse increase especially when the structure of questionnaires is complex and the content of the questions is sensitive. In 2007 advertising industry survey, due to the large number of variables of interest such as sales by detailed industry type and the number of employers by gender and employment type as well as total sales and total number of employees, the structure of the questionnaire is complex. Especially small fry and large business have a quite amount of missing values because of the sensitiveness that the questions on sales have. In our study, several imputation methods to replace the missing values in the complex data obtained from 2007 advertising industry survey are considered. Markov Chain Monte Carlo and regression imputations are considered to impute the missing values for total sales and total number of employees. For the detailed missing items, we consider the Nearest Neighborhood Imputation method. Some cautions in using the imputed data are suggested.
1. 서론
2. 결측값 대체 방법
3. 광고 산업 통계조사에서의 결측값 대체 과정
4. 결론
참고문헌