베이지안 부분집합 회귀를 이용한 고차원 분할표 분석
The High-dimensional Contingency Table Analysis using Bayesian Subset Regression
- 한국자료분석학회
- Journal of The Korean Data Analysis Society (JKDAS)
- Vol.19 No.4
- : KCI등재
- 2017.08
- 1841 - 1852 (12 pages)
최근 데이터의 양이 증가하면서 분할표의 변수의 수도 증가하여 변수들의 고차 상호작용효과에 관심이 많아지게 되었다. 하지만 변수의 수가 관측치 수만큼 커짐에 따라 과적합의 문제점이 발생하는 경우가 많다. 이를 극복하기 위해 본 연구는 베이지안 부분집합 회귀(Bayesian subset regression, BSR) 방법을 이용하여 고차원 분할표의 포아송 로그 선형 모형에서 고차 상호 작용효과 변수선택 방법을 제안하고자 한다. 제안된 BSR 방법에서 제시하는 최대 사후 모형은 최소 확장 베이지안 정보기준(extended Bayesian information criterion) 모형과 근사적으로 동등하다. BSR 사후분포로부터 효율적인 표본추출을 위해 확률적 근사 몬테카를로(stochastic approximation Monte Carlo) 알고리즘을 이용한다. 제안된 BSR 방법의 우수성을 보기 위해, 세 개의 분할표 자료에 대해 BSR 방법을 기존의 벌점화우도 방법들인 리지(ridge), 라소(lasso), 엘라스틱넷(elastic net) 방법들과 비교를 한다. 비교 결과 모든 예제에서 BSR에 의해 선택된 모형들이 변수의 수가 다른 방법에 비해 작으면서 가장 작은 제곱근 하나남기기 교차검증(root leave-one-out crossvalidation)값을 가짐에 따라 BSR 방법이 벌점화우도 방법들보다 우수함을 알 수 있었다. 또한 벌점화우도 방법들은 분할표의 차원이 커질수록 결과가 좋지 않았다.
As the amount of data has increased recently, the number of variables in the contingency table has increased, and the interest in the higher order interaction effect of the variables has increased. However, as the number of variables is slightly smaller than the number of observations, there is often an overfitting problem. This article proposes a method for selecting high-order interaction effect variables in the Poisson log linear model of high-dimensional contingency tables using Bayesian subset regression (BSR) method. The stochastic approximation Monte Carlo algorithm has been used for efficient sampling from the BSR posterior. In order to show the superiority of the proposed BSR method, we compared BSR with ridge, lasso and elastic net methods with three contingency table data. The results show that the BSR method is superior in all examples, and the models selected by BSR have the smallest root leave-one-out cross-validation value with a small number of variables. Also, it can be seen that the larger the dimension, the worse the results of the popular penalized likelihood methods are.
1. 소개
2. 분할표에서의 베이지안 부분집합 회귀
3. BSR 표본 추출을 위한 SAMC 알고리즘
4. 실 자료 분석
5. 결론