로지스틱회귀모형에서 설명변수의 상대적 중요도 지표에 관한 연구
On the Relative Importance of Predictors in Logistic Regression
- 한국자료분석학회
- Journal of The Korean Data Analysis Society (JKDAS)
- Vol.19 No.1
-
2017.02141 - 150 (10 pages)
-
DOI : 10.37727/jkdas.2017.19.1.141
- 158
회귀분석의 주요 목적 중 하나는 설명변수들의 상대적 중요도를 파악하는 것이다. 반응변수가 연속형인 회귀모형에서 설명변수의 중요도는 흔히 결정계수 값을 각 설명변수가 기여하는 부분으로 분해함으로써 중요도를 측정한다. 대표적으로 Pratt의 곱측도, Budescu의 일반우세지수, Johnson의 상대가중치 등이 있다. 본 논문에서는 반응변수가 이항형인 로지스틱회귀모형의 경우에 이러한 지표들이 유사결정계수(pseudo R-squared)를 통해 적절히 정의될 수 있음을 살펴보았다. 특히, 일반우세지수나 상대가중치와는 달리 Pratt의 곱측도는 다중공선성이 클 때 설명변수의 중요도 지표로서 음수값을 도출하는 등의 한계가 있기 때문에 그대로 사용될 수 없음을 고려하여, 로지스틱능형회귀모형(logistic ridge regression)에서의 Pratt 곱측도를 산정하는 방안을 제시하였다. 또한, 사례분석을 통해 로지스틱회귀모형에서의 설명변수 중요도 지표들을 서로 비교하고 제안된 지표의 유용성을 실증하였다. 분석 결과 제안된 지표는 다중공선성이 있는 경우에 기존의 Pratt 곱측도의 단점을 보완하면서 상대가중치와 비슷한 변수 중요도 순위를 나타냄을 확인하였다.
One of the important objectives of regression analysis is to verify the relative importances of predictors in the constructed model. Variable importance is generally measured by the proportion at which a variable contributes on the coefficient of determination. We study on the relative importance measures such as Pratt s product measure, Johnson s relative weight, and Budescu s general dominance index in the perspective of how to derive the definition in the case of logistic regression. Furthermore, we suggest a modified Pratt s index using logistic ridge regression which is commonly utilized when the so called multi-collinearity among variables are considerable. A data analysis regarding the variable importance in logistic regression is conducted and the result shows that the proposed index is practicable in the case of multi-collinearity in that it can derive appropriate importance values compared to the Pratt s measure and produce similar importance ranks to the relative weights.
1. 서론
2. 다중회귀모형에서의 변수중요도 지표
3. 로지스틱회귀모형에서의 변수 중요도 지표
4. 자료 분석
5. 결론
(0)
(0)