문항반응이론(IRT)을 검사에 적용할 경우, 각 피험자의 능력점수(추정치)는 그 피험자의 관찰 검사점수로 간주할 수 있다. 문항모수와 이분-채점 검사 자료가 주어진 상태에서 BILOG-MG 컴퓨터 프로그램은 피험자들의 능력점수를 최대우도(ML), 사후최대(MAP), 사후기대(EAP)의 세 가지 방법을 사용하여 산출할 수 있으며, 각 유형의 능력점수들에 대해 표본 자료에 기초한 경험적 신뢰도 계수(empirical reliability coefficients)를 제공한다. 본 연구의 목적은 BILOG-MG 프로그램이 제공하는, ML 능력점수, MAP 능력점수, EAP 능력점수 각각에 대한 경험적 신뢰도 추정량의 이론적 근거를 밝히고 그 기능을 컴퓨터 모의실험을 통해 검토하는 것이다. 연구 결과, BILOG-MG 프로그램의 ML 능력점수에 대한 경험적 신뢰도 추정량은 관심 모집단에서의 평행-검사형(parallel-forms) 신뢰도 계수를 추정하며, 모의 생성된 표본 자료에 적용하였을 때 모집단 신뢰도 계수를 과대 추정하는 경향을 보였다. MAP 능력점수에 대한 경험적 신뢰도 추정량은 관심 모집단에서의 상관-제곱(squared-correlation) 신뢰도 계수를 추정하며, 모집단 신뢰도 계수를 과대 추정하는 경향을 보였다. EAP 능력점수에 대한 경험적 신뢰도 추정량은 상관-제곱 신뢰도 계수를 추정하며, 모집단 신뢰도 계수 추정에서 가장 우수한 기능을 보였다. ML 능력점수 및 MAP 능력점수에 대한 경험적 신뢰도 추정량의 과대 추정 경향을 교정하기 위해 대안적인 접근 방법을 제시하였다.
Considering item response theory (IRT) ability estimates as test scores, the computer program BILOG-MG defines the empirical reliability estimators for each of the maximum likelihood (ML), maximum a posteriori (MAP), and expected a posteriori (EAP) scores to compute reliability coefficients with sample data. This paper investigates the theoretical basis of those reliability estimators and diagnoses their performances through computer simulations. The ML score reliability estimator evaluates the parallel-forms reliability coefficient and tended to over-estimate it with sample data. The MAP score reliability estimator intends to evaluate the squared-correlation reliability coefficient and tended to over-estimate it. The EAP score reliability estimator also intends to evaluate the squared-correlation reliability coefficient but appeared to work well with sample data. Alternative approaches to BILOG-MG’s reliability estimators for the ML and MAP scores are suggested to correct their functions of over-estimating population reliability coefficients.
Ⅰ. Introduction
Ⅱ. Reliability Estimators for IRT Ability Scores
Ⅲ. Simulation Methods
Ⅳ. Results
Ⅴ. Discussion and Conclusion
References
<요약>
(0)
(0)