상세검색
최근 검색어 전체 삭제
다국어입력
즐겨찾기0
학술저널

DeBERTa를 적용한 논술형 AI자동채점의 분류모형과 회귀모형 성능 비교

A Comparison of the Performance of Classification and Regression Models for AI-based AES Using DeBERTa

  • 101
교육평가연구 제38권 제4호.jpg

본 연구는 논술형 자동채점에 인코더 모형 DeBERTa를 활용하여 논술형 자동채점에 적용하고, 자동채점과정에서 점수를 부여하는 대표적 방법인 분류모형과 회귀모형을 비교하였다. 신뢰도에 기반한 채점모형의 성능 비교와 더불어, 다국면라쉬모형(Many-Facet Rasch Model; MFRM)을 적용하여 채점자 효과를 탐색함으로써 논술형 평가에 적합한 모형이 무엇인지 탐색하였다. 신뢰도 분석 결과, 점수 구간이 6점 이하로 좁은 문항에서는 두 모형 모두 평균 70% 이상의 신뢰도를 기록했고, 분류모형의 신뢰도가 회귀모형에 비해 소폭 높았다. 반면 점수 구간이 넓은 문항에서는 회귀모형이 분류모형에 비해 높은 수준의 신뢰도를 보였다. 다국면라쉬모형으로 채점자 효과를 확인한 결과 8개의 문항 중 7개의 문항에서 인간채점자에 비해 자동채점모형의 엄격성이 높게 나타났고, 일부 문항에서 자동채점모형이 인간채점자보다 높은 중심경향성을 나타내는 것으로 확인되었다. 이러한 결과는 점수 구간과 모형의 출력구조에 따라 채점자 간 신뢰도가 달라질 수 있음을 의미하고, 점수 범위가 넓은 문항에서는 회귀모형이 분류모형에 비해 더 적합하다는 점을 시사한다.

This study implemented an encoder-only model, the DeBERTa, for automated essay scoring (AES) to evaluate the performance of classifier and regressor models. The study evaluated AES models not only through reliability indices but also rater effects using the Many-Facet Rasch Model (MFRM) to examine the relative appropriateness of classifier and regressor as output structure for AES. Based upon the results of this study for items with a narrow score ranges of 6 points or less, both models achieved similar inter-rater reliability coefficients over 70%, and the classifier model showed slightly higher coefficients than did the regressor model. For items with wider score ranges, the regressor model showed better performance in inter-rater reliability. Based upon the analysis of Many-Facet Rasch Model(MFRM), AES models showed higher levels of rater severity than human raters in 7 items out of 8 items. AES models produced some central tendency of scores compared to those from human raters. The performance of AES models depends on score ranges and the output structures. For items with a wide range of possible scores, the regressor model could be more appropriate than the classifier model.

Ⅰ. 서론

Ⅱ. DeBERTa 기반 자동채점

Ⅲ. 연구 방법

Ⅳ. 연구 결과

Ⅴ. 결론 및 제언

참고문헌

(0)

(0)

로딩중