본 연구의 목적은 단문 형식의 쓰기 답안 평가를 위해 개발한 자동채점 프로그램의 성능을 검증하여 대규모 쓰기 평가에서의 적용 가능성을 탐색하기 위한 것이다. 본 연구에서 성능 검증에 사용한 문항은 ‘상황에 맞는 짧은 글쓰기’(15~25단어, 5분) 문항과 ‘그림의 세부묘사 완성하기’(하위문장별 10단어 이내, 5분) 문항이다. 본 연구에서는 단문 형식의 쓰기 평가를 위한 자동채점 프로그램의 성능을 검증하기 위해 인간채점과 자동채점에 따른 상관계수, 유사일치도 통계에 근거한 채점자 간 신뢰도의 차이, 다국면 라쉬 모형에 근거한 채점자 엄격성의 차이, 일반화가능도 계수에 근거한 검사점수 신뢰도의 차이, 시간 및 비용 차이 등에 대한 통계적 분석을 실시하였다. 분석 결과, 자동채점이 인간채점자 1명을 대체할 경우 채점자 간 신뢰도, 검사점수 신뢰도를 인간채점과 유사한 수준으로 유지하면서 채점자 엄격성에 의한 영향력과 시간 및 비용을 큰 폭으로 감소시킬 수 있음을 확인하였다.
This study seeks to the possibilities of applying automated short-answer scoring to large-scale English writing tests through verifying the performance of an automated short- answer scoring program customized for the Level 3 Writing Section of National English Ability Test (NEAT). Two items of the NEAT Level 3 Writing Section, that is 'Wring a short story' and 'Completing four detailed picture descriptions' require short answers which are scored analytically. To verify the performance of automated scoring, differences of automated and human scoring in correlations, agreement indices, rater severities, generalizability coefficients, scoring time and expenses were investigated. Results revealed that automated scoring could maintain inter-rater and test-score reliabilities as high as human scoring. Furthermore, automated scoring drastically reduced the scoring time and expenses as well as the fluctuation of rater severity.