정보제약 하의 미니맥스 추정량 연구
A Study of Minimax Estimators under Local Private Constraints
- 한국자료분석학회
- Journal of The Korean Data Analysis Society (JKDAS)
- Vol.21 No.2
- : KCI등재
- 2019.04
- 673 - 686 (14 pages)
최근 원 자료로 구성된 마이크로데이터를 제공하는 국가 통계기관이 늘어나면서 공공자료의 활용성이 증대되는 반면 개인정보 노출 위험이 늘어나고 있다. 개인 정보를 보호하기 위한 방안으로 개인정보 비식별 처리 기법을 적용하여 변환된 자료를 공표할 수 있다. 이러한 변환자료에 대한 위험의 정도를 평가하는 기준으로 본 논문에서는 미니맥스 체계를 고려하였다. 정보제약하의 미니맥스 체계에서는 변환자료의 최대 위험이 최소화되는 추정량과 변환방법을 찾고 추정량의 위험이 수렴하는 최적 속도에 관심이 있다. Duchi et al.(2018)은 다양한 추정문제에서 미니맥스 최적 추정량과 수렴속도를 제시하였다. 이를 보다 면밀히 분석하기 위해 평균 추정 문제에서 정보 보호의 수준, 모수공간의 특성, 그리고 원 자료의 분포에 따른 통계적 위험을 모의실험을 통해 살펴보았다. 표본의 크기, 정보제약의 수준, 그리고 모수공간의 크기에 따라 미니맥스 위험의 크기가 다른 양상을 보이며, 정규분포에 비해 비대칭적인 분포나 꼬리가 더 두꺼운 분포를 갖는 자료에서 같은 위험의 수준을 얻기 위해 필요한 표본의 크기가 더 크다는 것을 확인하였다. 실증연구에서는 2017년 한국 가구의 소득 자료를 이용하여 소득의 평균과 중위수를 정보제약 가정 하에 추정하였다.
As the number of statistical agencies providing micro data consisting of raw data increased, the availability of public data increased, while the risk of exposure to personal information increased. As a way to protect privacy, it is possible to publish the converted data by applying disclosure control technique. In order to assess the degree of risk for such transformation, we consider the minimax system. Minimax criterion under privacy constraints pursues estimators and transformation methods minimizing the maximum risk over the parameter space, and finds optimal rates for an estimator to converge to the truth. Duchi et al. (2018) suggests minimax optimal estimators and their convergence rates under various estimation problems. To analyze these more closely, we conducted a simulation study for estimating the population mean according to the level of protection, properties of parameter spaces, and distributions of the raw data. Minimax risk varies a lot depending on these factors. We also found that the larger sample size is needed in order to obtain the same risk level when the distribution has either asymmetric shape or thicker tail than the normal. In the real data analysis, we estimate the mean and median of the income under the local differential privacy using 2017 Korean income data.
1. 서론
2. 차등정보제약과 미니맥스 추정량
3. 모의실험
4. 사례 연구
5. 결론 및 논의