본 연구의 목적은 선다형문항 검사를 외부가교검사로 사용하는 비동등집단 설계 하에서 문항반응이론(IRT)을 이용하여 구성형문항 검사형들 간의 능력척도와 검사점수를 조정하는 것이 적절한지를 검토하는 데 있다. 구성형문항 검사의 능력척도를 선다형문항 검사의 능력척도로 연계시키기 위해서 IRT 고정문항모수 추정 방법을 제안하였고, 구성형문항 검사형들 간의 검사점수를 조정하기 위해서 IRT 진점수 및 관찰점수 동등화를 실시하였다. 이 척도화 및 동등화 방법이 외부가교검사와 구성형문항 검사의 두 구인 간의 일차원성의 가정과 피험자 집단 간의 능력의 비동등성 정도에 얼마나 영향을 받는지를 살펴보기 위해 컴퓨터 모의실험을 수행하였다. 연구 결과, 제안된 IRT 척도화 및 동등화 방법은 두 구인 간에 일차원성이 성립할 때 피험자 집단 간의 비동등성 수준이 변화하더라도 성공적으로 수행된다는 것을 보여주었다. 그러나 두 구인 간의 상관이 에서 로 낮아짐(즉, 일차원성의 위배 정도가 심해짐)에 따라 피험자 집단 간의 비동등성 수준에 많은 영향을 받았다. 피험자 집단의 능력이 동등할 때, 제안된 IRT 방법은 상관이 로 낮아지더라도 대부분의 동등화 조건에서 성공적으로 수행되었다. 반면, 피험자 집단 간의 비동등성이 뚜렷할 때(능력 평균에 있어 .5의 차이를 보일 때), 용인할 수 있는 상관의 수준은 이었다. 결론적으로, 선다형문항 검사와 구성형문항 검사가 충분히 동일한 능력을 측정하거나 피험자 집단이 능력에 있어 유사한 경우 이외에 제안된 IRT 방법을 사용할 때는 주의가 요청된다.
This paper investigates the adequacy of item response theory(IRT) scaling and equating of constructed-response(CR) item test forms through the use of multiple-choice(MC) external anchor tests under the common-item nonequivalent groups design. Fixed item parameter calibration in which MC item parameters were fixed was used for estimating the CR test form item parameters on the MC ability scale, and IRT true and observed score equating was conducted for adjusting the test scores between CR item test forms. A series of simulations were conducted to examine how the proposed IRT scaling and equating method for CR item tests would be affected by the degree of violations of the unidimensionality assumption across MC and CR items and the nonequivalence level between equating examinee groups. As expected, the proposed method worked properly when the unidimensionality assumption held, regardless of the between-examinee group nonequivalence level. However, when the two constructs for the anchor test and the CR item test were not perfectly correlated(varying from to ), the performance of the proposed method was substantially affected by the nonequivalence level. Specifically, when the equating examinee groups were equivalent in ability, the proposed method performed properly in most cases, even if the correlation was as low as . In contrast, when the examinee groups had significantly different ability distributions, the proposed method appeared to perform satisfactorily only if . It was concluded that the proposed method should be cautiously used in testing situations other than where the MC anchor test and the CR item test measure similar enough abilities or the equating examinee groups are not much different in ability.
I. 서론
Ⅱ. 이론적 배경
Ⅲ. 연구 방법
Ⅳ. 연구 결과
V. 논의 및 결론
초록
참고문헌
(0)
(0)