교육 목표에 따른 하위 영역의 점수인 하위 점수는 교육적 진단 정보를 줄 수 있다는 장점이 있다. 하위 점수는 전체 검사에 비해 적은 수의 문항으로 구성되어 있기 때문에, 검사 점수의 동등화를 적용하기 쉽지 않다. 이 연구는 가교문항 점수를 원점수를 그대로 사용하는 경우와 전체 검사와 하위 검사의 신뢰도를 반영하여 조정된 조정 점수를 사용하는 경우, 적용되는 하위 점수 동등화 방법 간의 상대적 적절성을 비교하고자 하는 목적을 갖고 진행되었다. 실제 초등학생을 대상으로 시행된 진단평가 검사를 두 부분으로 나누어 가상의 검사를 생성하는 준모의실험을 시행하였다. 동등화 방법으로는 Tucker 선형 방법, Levine 관찰 점수 선형 방법과 빈도 추정 동백분위 방법이 적용되었다. 표본 크기가 하위점수 동등화 결과에 미치는 영향을 분석하기 위해, 실제 자료에서 재표집 방법을 이용하여 500과 2,000의 가상의 표본 자료를 생성하였다. 연구 결과, 가교문항에 대해 조정된 점수를 이용한 동등화 방법이 원점수를 사용한 방법보다 상대적으로 적절한 동등화 결과를 산출하였다. 가교문항의 조정된 점수를 통해 동등화 방법이 보다 안정적이고 낮은 수준의 동등화 오차 값을 나타내었다. 또한, 가교문항에 대해 조정된 점수를 사용할 때에는 선형 동등화 방법들 간의 큰 차이가 없었다. 표본 크기가 증가할수록, 동등화 오차는 줄어들었고, 조정 점수를 사용한 것과 원점수를 그대로 사용한 것 사이에 차이는 줄어들었다. 이러한 연구 결과는 이 연구에서 분석된 다섯 개의 서로 다른 검사에서 유사한 패턴으로 발견되었다. 따라서, 전체 검사 보다 적은 수의 문항으로 구성되어 있는 하위 영역의 점수를 동등화할 때에는 원점수 보다 전체 검사와 하위 검사의 난이도를 반영하여 조정된 점수를 사용하는 동등화 방법을 추천 할 수 있을 것이다.
Educational tests have different subsections based on educational objectives or content areas. Since subscores have fewer items than the total score, it may be difficult to equate subscores using data collection methods such as the NEAT design. This study investigated the relative appropriateness of subscore equating results with raw scores and augmented scores of anchor items. A quasi-simulated study using a resampling techniques was conducted. Equating methods such as the Tucker linear method, the Levine observed score linear method, and the frequency estimation equipercentile method were implemented. Equating was conducted using either augmented or raw scores for anchor items; the sample sizes for equating were 500 and 2000 respectively. Equating using the augmented scores produced considerably more accurate results than equating using the raw scores. Augmentation resulted in equating relationships that were stable and accurate. There were minor differences between the linear methods when the augmented scores were used as anchor items. As the sample size increased, the equating errors across the equating methods became smaller. In terms of the interaction between the five subject areas and equating methods, when using augmented scores as anchor items, there were minor differences among the five areas. Therefore, when equating subscores, which often have fewer items than total scores, equating through augmented scores could be recommended.
Ⅰ. Introduction
Ⅱ. Theoretical Background
Ⅲ. Method
Ⅳ. Results
Ⅳ. Conclusions
References
저자소개
〈ABSTRACT〉
(0)
(0)