XCALIBRE 프로그램의 가교-고정 IRT 추정 기능 분석
교육평가연구, v. 30, no. 1, page. 53-73
문항반응이론(IRT)에서 가교-고정 추정(fixed-anchor estimation)은 검사의 비가교문항의 모수를 그 모수가 알려진 가교문항의 능력척도 상에서 추정함으로써 공통의 능력척도를 유지하기 위해 사용된다. 본 연구는 XCALIBRE 프로그램의 최근 버전(4.2)이 지원하는 가교-고정 IRT 추정 방법이 초기 버전의 대안적 “가교-고정” 추정 방법(즉, 개별추정 후 척도연계 방법)과 같은지를 확인하고, ICL 프로그램과 비교하여 그 추정 방법의 적절성과 상대적 우위를 검토하고자 하였다. 이를 위해 검사 유형(Rasch 모형 검사 및 3PL 모형 검사), 가교문항의 수, 표본 크기, 기저 능력분포 등의 요인들을 교차하여 생성한 다양한 모의실험 검사 조건에서 ‘XCALIBRE Fix’ 방법, ‘개별추정 후 척도연계’ 방법 및 ‘ICL Fix’ 방법을 실시하여 그 수행을 비교 분석하였다. 연구 결과, XCALIBRE 최근 버전은 초기 버전에서 사용한 ‘개별추정 후 척도연계’ 방법과 다른 EM 알고리즘 기반 가교-고정 추정 방법을 사용함을 확인하였다. 그러나 기저 능력분포가 표준정규 분포일 때를 제외하고, ‘XCALIBRE Fix’ 방법은 ‘개별추정 후 척도연계’ 방법 혹은 ‘ICL Fix’ 방법과 달리 곤란도 모수를 상당히 과소 혹은 과대 추정하였다. 이러한 편향 추정의 원인으로 XCALIBRE는 EM 사이클의 반복 시 사전능력분포를 이전 사이클에서 추정된 기저 능력분포로 갱신하지 않고 표준정규 분포로 고정한 채 비가교문항의 모수를 추정한다는 점을 논하였다.In item response theory (IRT), fixed-anchor parameter estimation (FPE) is used to maintain an established ability scale by estimating the parameters of non-anchor items on the established scale of the fixed items whose parameters are known. The first purpose of this study was to verify that the FPE facility provided by a recent version (4.2) of the XCALIBRE program is different from that of an earlier version (1.0 or 1.1) of the program, which was actually the “separate estimation and scale linking” approach. The second purpose was to compare the performance in FPE of XCALIBRE with that of IRT Command Language (ICL) and examine whether the former would be properly functioned in its own, and better functioned than the latter. For these purposes, computer simulations, based on the Rasch model and the 3PL model, were carried out in a variety of FPE conditions in which the XCALIBRE Fix, scale-linking, and ICL Fix methods were conducted. The simulation results showed that the recent version of XCALIBRE uses a unique, EM algorithm-based FPE method, which does not equally perform as a scale linking method. However, unlike the scale-linking and ICL Fix methods, the XCALIBRE Fix method substantially under- or over-estimated the difficulty parameters of non-anchor items except when the test data were generated using the standard normal [N(0, 1)] ability distribution. It was reasoned that such biased FPE results should be related to the point that during the EM iterations for FPE, XCALIBRE does not update the prior distribution for ability as the one estimated from the previous iteration but keeps the prior distribution as the N(0, 1) distribution.
