Estimating the Inter-rater Reliability of the English Speaking Proficiency Test under a Generalizability Theory Model
- 인문사회과학기술융합학회
- 예술인문사회융합멀티미디어논문지
- 9권 10호
- 2019.10
- 205 - 214 (10 pages)
영어언어 능력 시험의 평가는 주로 사람이 채점하기 때문에 평가자가 제공 한 점수가 신뢰할 수 있는지 점수 일관성에 많은 관심이 있어왔다. 이 연구의 목적은 일반화가능도 이론 관점에서 영어 말하기 능력 시험의 평가자 간 신뢰도를 추정하는 것이다. 구체적으로 이 연구에서는 측정 오차 성분의 주요 원인과 추정 된 분산 성분을 통해 각각의 크기를 식별하였다. 이 연구를 위해 원어민 평가자 3명(경험이 풍부한 평가자 2명과 경험이 많지 않은 평가자 1명)이 116 명의 한국 성인 영어 말하기 답변을 평가 했다. 평가자들이 평가한 말하기 점수는 GENOVA 프로그램을 통해 분석되었다. GENOVA 분석의 결과는 총 분산의 가장 큰 부분은 수험자의 능력으로 생긴 것이었으며 그 다음으로는 말하기 과업으로 과업의 난이도로 인한 것이었다. 평가자로 인한 분산은 매우 적었다. 한 가지 흥미로운 결과는 두 명의 평가자가 어떻게 구성이 되는지에 따라 분산에 영향이 있었다. 두명의 평가자가 모두 숙련되었을 경우 한명이 숙련되고 한명이 경험이 많지 않은 평가자로 구성될 경우 보다 수험자의 말하기 능력을 좀 더 일관성 있게 평가했으며 수험자와 평가자간의 상호작용이 덜 일어나는 것으로 확인되었다.
Since the evaluation of the language performance tests is done by human raters, there is a lot of concern on scoring consistency, and whether the scores given by raters are reliable. The purpose of this study was to estimate the inter-rater reliability of the English Speaking Proficiency Test(ESPT) from the perspective of the generalizability theory. More specifically, this study attempted to identify major sources of measurement error and the magnitude of each through the estimated variance components. The three English-speaking native teachers participated in this study as raters; two experienced raters and one novice rater. They scored 116 Korean adults English speaking responses. Their ratings were analysed through the GENOVA program. The results of the GENOVA analyses illustrated that the greatest portion of the total variance was from persons variance and a moderate effect of the tasks on the test scores due to the task difficulty. However, the variance for rater facet was extremely small. One of the interesting findings was that rater’s rating pair influenced the variance. There was a moderate interaction effect between persons and the raters when the raters consisted of one experienced and the other novice as a pair. It indicated that the rater pair containing experienced raters tended to give scores consistently more than the rater pair composing of one experienced and one novice raters.
1. Introduction
2. Contents
3. Conclusion