
영과잉 일반화 포아송 회귀모형에서 산포모수의 효과에 관한 연구
A Study on the Effect of Dispersion Parameter in a Zero-inflated Generalized Poisson Regression Model
- 한국자료분석학회
- Journal of The Korean Data Analysis Society (JKDAS)
- Vol.27 No.1
- : KCI등재
- 2025.02
- 105 - 115 (11 pages)
본 연구에서는 과대산포가 존재하는 영과잉 계수 자료에 대한 영과잉 일반화 포아송 회귀모형에서 과대산포가 통계적 추론 결과가 어떤 영향을 나타내는지 모의실험과 실제 자료 분석을 통해 살펴보았다. 모의실험에서는 영과잉 일반화 포아송 회귀모형으로부터 모의 자료를 생성하여 영과잉 포아송 회귀모형과 영과잉 일반화 포아송 회귀모형에서 회귀계수를 추정한 후, 이를 바탕으로 과대산포가 회귀계수의 추정과 가설검정에 어떤 영향을 미치는가를 파악하였다. 모의실험 결과 과대산포가 존재할 때 이를 무시하는 영과잉 포아송 회귀모형의 평균과 영과잉 확률에 대한 회귀계수 추정치는 참값을 과소 추정하는 문제가 나타났으며, 이러한 과소 추정 문제는 과대산포가 커질수록 더 심해졌다. 더불어 영과잉 포아송 회귀모형의 회귀계수 추정치의 표준오차는 과대산포가 커질수록 심하게 과소 추정하였다. 결국 과대산포가 존재함에도 이를 무시하는 영과잉 포아송 회귀모형은 회귀계수의 참값에 대한 가설검정에서 명목 유의수준이 크게 나타났으며, 이러한 명목 유의수준에 대한 문제는 과대산포가 커질수록 심해지는 것으로 나타났다. 이러한 모의실험의 결과는 1980년도 미국 동부 텍사스의 서머빌(Somerville) 호수에 방문한 보트 여행 횟수 데이터에 대한 실제 자료 분석을 통하여 확인할 수 있었다.
In this study, we examine the influence of overdispersion on statistical inference in a zero-inflated generalized Poisson regression model by simulation experiments and real data analysis. In the simulation study, simulated data are generated from the zero-inflated generalized Poisson regression model, and the regression coefficients in the zero-inflated Poisson regression and the zero-inflated generalized Poisson regression models are estimated. The simulation experiment results show that the regression coefficient estimates for the mean and zero-inflation probability of the zero-inflated Poisson regression to ignore overdispersion underestimate the true value when overdispersion exists, and this underestimation problem becomes more severe as the overdispersion increases. In addition, the standard errors of the regression coefficient estimates of the zero-inflated Poisson regression model are more underestimated as the overdispersion increased. Ultimately, the zero-inflated Poisson regression model, which ignores the overdispersion despite its existence, shows a larger nominal significance level in the hypothesis test for the true value of the regression coefficient, and this problem of the nominal significance level becomes more severe as the overdispersion increased. The results of this simulation experiment could be confirmed through the analysis of real data on the number of boat trips to Lake Somerville in eastern Texas in the United States in 1980.
1. 서론
2. 영과잉 포아송(zero inflated Poisson; ZIP) 회귀모형
3. 영과잉 일반화 포아송(zero inflated generalized Poisson; ZIGP) 회귀모형
4. 모의실험
5. 실제 사례분석
6. 결론
References