가교문항-고정 다집단 IRT 추정을 위한 BILOG-MG 프로그램의 적용 가능성 진단
A Diagnosis on the Applicability of the Computer Program BILOG-MG for Fixed-Anchor Multiple-Group IRT Estimation
문항반응이론(IRT); 다집단 검사 자료; BILOG-MG; 가교문항-고정 IRT 모수 추정; item response theory (IRT); multiple-group test data; fixed-anchor IRT estimation
교육평가연구, v. 28, NO 4, Page. 1021-1048
검사동등화를 실시하는 검사 프로그램의 대부분은 여러 검사형에서 얻어진 문항들의 집합인 문항은행을 구축하고 있다. 문항반응이론(IRT)을 이용하여 검사동등화를 실시할 경우 문항은행에 포함된 모든 문항들은 공통의 능력척도 상에 표현된 문항 모수들을 가지게 된다. 본 연구의 목적은 공통 문항을 가진 둘 이상의 새로운 검사형들이 문항은행의 일부 문항을 가교문항으로 포함하여 개발될 때, BILOG-MG 프로그램을 사용하여 가교문항-고정 다집단 IRT 추정을 적절하게 실시할 수 있는지를 진단하는 것이다. 이를 위해 단일집단 검사 자료에 작동하는 것으로 알려진 BILOG-MG 기반 Simple Update 방법과 DeMars-Jurich 방법을 다집단-다검사형 검사 자료로 확장하여 그 기능을 진단하였다. 단일집단 및 다집단 검사 모의실험의 결과, BILOG-MG를 활용한 Simple Update 방법과 DeMars-Jurich 방법은 단일집단 검사 자료에 대해서는 올바르게 작동하지만 다집단 검사 자료에 대해서는 문항 모수들을 왜곡 추정함을 발견하였다. 이러한 결과는 BILOG-MG를 활용하여 다집단 검사 자료의 비가교문항의 모수들을 기존의 능력척도 상에서 올바르게 추정하기 위해서는 각 검사형에 대해 가교문항-고정 IRT 추정을 개별적으로 실시하거나, 통상적인 “0-1” 다집단 동시 추정 후 가교문항에 기초한 척도연계 방법을 사용하여 비가교문항의 모수 추정치를 기존의 능력척도로 변환해야 함을 의미한다. Most testing programs have item pools that consist of items from many alternate forms of a test. When analyzed by item response theory (IRT), all items in an item pool are expected to have their item parameters placed on a common IRT ability scale. When two or more test forms are developed to include some items in the pool as an anchor under the common-item nonequivalent groups equating design (in which the anchor items need not be the common items between test forms), multiple-group and multiple-form test data are obtained. The purpose of this study is to diagnose the applicability of the computer program BILOG-MG for fixed-anchor multiple-group IRT parameter estimation for such multiple-group and multiple-form test data. For this purpose, two BILOG-MG based fixed-anchor estimation methods, Simple Update and DeMars-Jurich, proposed for the analysis of single-group test data were extended to the ones for fixed-anchor multiple-group IRT estimation, and their performances were examined through simulations of both single-group and multiple-group testing. The simulation results showed that both of the Simple Update and DeMars-Jurich fixed-anchor IRT estimation methods worked well with the single-group test data, but the two methods did not properly recover the true parameters of non-anchor items with the multiple-group test data. The results suggest that when using BILOG-MG to conduct fixed-anchor IRT parameter estimation with multiple-group data, the Simple Update or DeMars-Jurich method should be applied to each group’s data.
