비동등집단 가교검사(NEAT) 설계는 가교 문항을 공유하는 두 검사형 간 검사점수 동등화를 위해 널리 사용되고 있다. 본 연구의 목적은 NEAT 설계의 다집단 확장 형태의 하나인 비동등-다집단 개별가교검사(NEMSAT) 설계하에서의 문항반응이론(IRT) 검사 동등화 방법의 원리를 제시하고 이 방법의 기능을 분석하는 데 있다. NEMSAT 설계하의 IRT 검사 동등화는 (1) 각 검사 회기 내에서 모든 검사형들의 문항 모수를 하나의 IRT 능력척도에서 추정하는 과정과 (2) 가교 문항을 활용하여 두 검사 회기 간 IRT 능력척도를 연계하는 과정 및 (3) 두 검사형 간 검사점수의 동등 관계를 찾는 과정으로 이루어진다. 모의실험을 통해 NEMSAT 설계 기반 IRT 동등화 방법의 기능이 NEAT 설계 기반 IRT 동등화 방법의 기능과 어떠한 차이를 보이는지를 분석하였다. 모의실험 요인으로 검사의 유형(선다형 검사와 혼합형 검사), 검사형별 표본의 크기, 척도연계에 사용되는 가교 문항의 수 등을 포함하였다. 주요 결과로, 표본의 크기와 가교 문항의 수가 증가함에 따라 NEMSAT 설계 기반 IRT 동등화 방법은 모집단의 검사점수 동등 관계를 더 정확하게 추정하였다. 또한 NEMSAT 설계 기반 IRT 동등화 방법은 개별 가교검사의 문항들의 40% 혹은 50%를 척도연계를 위해 사용하더라도 NEAT 설계 기반 IRT 동등화 방법보다 더 작은 동등화 오차를 산출하였다.
The non-equivalent groups with anchor test (NEAT) design is widely used for test equating. This paper primarily concerns item response theory (IRT) equating procedures under the non-equivalent multiple groups with separate anchor tests (NEMSAT) design, which is a multiple-group extension of the NEAT design. The purpose of this study is to present an IRT equating procedure that can be used under the NEMSAT design and investigate the performance of the IRT equating procedure. The NEMSAT design-based IRT equating procedure consists of three steps: (1) placing all IRT item parameter estimates from several test forms on a common ability scale in each testing session, (2) linking IRT ability scales determined in each testing session using all anchor items from separate anchor tests, and (3) finding the equating relationship between the two test forms to be linked. A computer simulation study was conducted to investigate the performance of the NEMSAT design-based IRT equating procedure in comparison with the NEAT design-based IRT equating procedure. Three simulation factors were considered: (1) test type (multiple-choice test vs. mixed-format test), (2) sample size per test form, and (3) number of the anchor items used for scale linking. The NEMSAT design-based IRT equating procedure estimated more accurately the population equating relationship when larger sample sizes or more anchor items were used. Also, the NEMSAT design-based IRT equating procedure produced less equating errors than the NEAT design-based IRT equating procedure even when 40 or 50 percent of the items in each separate anchor test were used for scale linking.
Ⅰ. 서론
Ⅱ. 비동등-다집단 개별가교검사 설계 기반 IRT 검사 동등화
Ⅲ. 모의실험 연구
Ⅳ. 연구결과
Ⅴ. 논의 및 시사점