최근 검색어 전체 삭제
교육평가연구 제36권 제4호.jpg
KCI등재 학술저널

랜덤집단 설계 IRT 검사 동등화의 표준오차 추정을 위한 델타 방법의 기능 진단

Diagnosis on the Delta Method for Estimating Standard Errors of IRT Equating Under the Random Groups Design

DOI : 10.31158/JEEV.2023.36.4.761

학업 성취도 및 능력 검사 프로그램에서 검사 동등화(test equating)를 위해 문항반응이론(IRT) 방법이 많이 사용되고 있다. 동등화의 표준오차(standard error)는 표본 자료를 통해 두 검사형 간 모집단 동등 점수 관계를 추정할 때 발생하는 랜덤 오차의 크기를 나타낸다. 본 연구의 목적은 랜덤집단(무선집단) 설계에서 제시된 IRT 진점수 및 관찰점수 동등화의 표준오차에 대한 델타 방법 추정 공식의 정확성과 기능을 모의실험을 통해 면밀히 검토하는 것이다. 모의실험 요인으로 검사의 유형(3PL 모형 검사, 3PL+GPC 모형 검사 및 3PL+GR 모형 검사)과 표본의 크기를 고려하였다. 주요 연구 결과는 다음과 같았다. 첫째, 모든 유형의 검사에 대해 델타 방법을 통해 산출된 IRT 동등화의 표준오차는 모의실험을 통해 경험적으로 산출된 표준오차와 매우 유사하였다. 둘째, IRT 동등화의 표준오차는 표본의 크기가 증가할수록 감소하였으며, 대략적으로 표본 크기의 제곱근에 반비례하였다. 셋째, 점수 구간의 극단 지점들을 제외하고, IRT 관찰점수 동등화의 표준오차는 IRT 진점수 동등화의 표준오차보다 근소하지만 더 작은 경향을 보였다. 넷째, 30개의 선다형 문항으로 구성된 3PL 모형 검사에 대한 IRT 동등화의 표준오차는 30개의 선다형 문항과 10개의 서답형 문항으로 구성된 혼합형 검사에 대한 표준오차보다 평균적으로 더 작았다.

In the academic achievement and ability testing programs, item response theory (IRT) methods have been widely used for test equating. The standard error (SE) of equating indicates the amount of random error that is due to the sampling of examinees in estimating the population equivalent scores relationship. The purpose of the present study was to use computer simulations to examine the accuracy and performance of the delta method formulas for estimating SEs of IRT true score and observed score equating that have been presented under the random groups design. Test type (3PL model test, 3PL+GPC model test, and 3PL+GR model test) and sample size were considered as simulation factors. Main results were as follows. First, for all the test types, the theoretical SEs of IRT equating estimated by the delta method were very close to the empirical SEs computed using the simulated equated scores. Second, the SEs of IRT equating were reduced as the sample size increased, and they were, approximately, inversely proportional to the square root of the sample size. Third, except for the extreme (lowest or highest) test scores, the SEs of IRT observed score equating tended to be slightly smaller than the SEs of IRT true score equating. Fourth, on the average, the SEs of IRT equating for the 3PL model test, which consisted of 30 multiple-choice items, were smaller than those for the mixed-format tests, which consisted of the same 30 multiple-choice items and 10 constructed-response items.

Ⅰ. 서론

Ⅱ. 랜덤집단 설계 IRT 동등화의 표준오차

Ⅲ. 연구방법

Ⅳ. 연구결과

Ⅴ. 논의 및 제언

