5 운영 혁신: 인공지능과 기술을 통한 도약
이 섹션에서는 시험 개발 주기의 단계를 다룹니다. 시험 목적의 초기 구상, 시행 및 행정적 제약 조건 고려부터 문항 개발, 시험 구성, 보안, 품질 관리, 채점, 그리고 타당성 및 공정성 고려를 포함한 시험 평가에 이르기까지 전반적인 과정을 살펴봅니다. 이 섹션의 주요 주제는 기술 발전, 특히 인공지능(AI)의 발전이 시험 개발의 모든 운영과 단계에 상당한 영향을 미칠 가능성이 크다는 점입니다.
5.1 논의의 기초 마련
시험 운영은 (미래를 위한 기술 섹션에서 정의된) 구성 개념과 (혁신적인 측정 섹션에서 정의된) 시험 방법을 고려하여 시험 양식을 시행하는 것과 관련된 시험 개발의 모든 단계를 의미합니다. 이러한 단계에는 시험 목적 및 행정적 제약 조건에 맞춘 설계, 문항 개발, 시험 양식 구성, 시험 검토, 시험 전달 및 시행, 채점, 점수 보고, 시험 평가, 문항 뱅킹, 시행에서 채점에 이르기까지 보안의 모든 측면 관리, 그리고 전체 과정에 대한 품질 관리 수행이 포함됩니다. 이러한 과정은 표준화된 시험 산업의 핵심입니다. Schmeiser와 Welch (2006)는 이러한 단계가 전통적으로 어떻게 수행되었는지와 주요 문제점을 포괄적으로 개관했으며, International Test Commission (2001, 2013, 2017)과 Association of Test Publishers (2022)는 기술 기반 평가(TBA)와 관련된 최근 고려 사항을 추가하여 이 연구를 보완했습니다. Schmeiser와 Welch는 지난 60년 동안 시험 개발이 예술에서 과학으로 진화하는 과정을 설명했습니다. 이러한 진화는 예를 들어 시험 구성의 비공식적인 경험 법칙에서 최근의 혼합 정수 프로그래밍 사용(Davey, 2023; van der Linden, 2005)으로, 또는 인간 채점에서 기계 채점으로 에세이 채점 방식이 변화한 것(Shermis & Burstein, 2013) 등 다양한 단계에서 확인할 수 있습니다.
우리는 미래의 평가가 기술, 운영 연구 방법, 그리고 예측 및 생성적 AI 방법 모두의 발전을 활용하여 시험 개발의 예술에서 과학으로의 전환을 지속하고 아마도 가속화할 것이라고 믿습니다.
이 섹션에서는 상당한 혁신을 볼 수 있는 기반을 제공하기 위해 시험 개발 단계의 현재 최첨단 발전을 검토합니다. 운영 영역 내의 일부 유망한 아이디어는 기술이 평가의 공정성과 평가를 통해 얻을 수 있는 정보의 신뢰성 모두에서 발전을 가능하게 할 것이라는 기대를 갖게 합니다. 공정성 처리는 전통적으로 시험 데이터가 수집된 후 항목 반응이 다른 시험 응시자 그룹에 대해 동일하게 해석될 수 있는지 통계적으로 평가하기 위해 평가 개발의 후반부에 가장 많이 개발되었습니다 (Millsap, 2011). 기술은 과거에는 비공식적인 정책과 체크리스트에 의존했던 항목 생성의 초기 단계로 공정성 정교함을 가져올 것을 약속합니다 (ETS, 2014, 2022). 보안 또한 기술이 평가 점수가 알 수 없는 영향에 의해 손상되지 않고 의도된 목표 구성 개념에 대한 시험 응시자의 기술을 직접적으로 나타내도록 보장하는 데 이점을 가져올 수 있는 영역을 나타냅니다. 이 섹션에서 이러한 문제를 다룹니다.
5.2 검사 실시와 행정적 제약 조건건
5.2.1 시간
평가의 일반적인 원칙은 시험에 더 많은 시간을 할애하거나 개인으로부터 더 많은 정보를 얻을수록 평가의 신뢰도가 높아진다는 것입니다. 그리고 정보가 더 신뢰할 수 있을수록 측정에서 도출된 추론이 정당화되고 유용할 가능성이 높아집니다. 예를 들어 미래 결과를 예측하는 데 유용합니다. 추가 정보가 있으면 측정 오차 잡음 속에서 구성 개념 신호가 점점 더 명확하게 나타납니다. 이러한 결과는 다른 모든 조건이 동일할 때, 사격 연습에서 체중 측정에 이르기까지 모든 평가 영역에서 참입니다. 즉, 시험이 문항 수나 시간 면에서 길수록 좋습니다. 대부분의 경우 문제는 개인들이 긴 시험을 치르기를 원하지 않고, 후원 기관이 긴 시험을 시행하거나 비용을 지불하기를 원하지 않는다는 것입니다.
이 문제를 해결하기 위한 몇 가지 전략이 있습니다. 시험 문항이 제공하는 정보량뿐만 아니라 시간도 고려하여 전통적인 심리 측정 접근 방식을 통해 시험을 보다 효율적으로 만들 수 있습니다. 이는 시험 시간의 50% 절감을 약속했던 적응형 검사의 주요 동기 부여 요인이었습니다 (van der Linden & Glas, 2010). 관련 시험(또는 척도)의 수행 능력을 사용하여 현재 응시 중인 시험(또는 척도)의 점수 추정치를 업데이트하는 다차원 적응형 검사(Segall, 1996)는 이 아이디어를 한 단계 더 발전시켜 동일한 측정 정밀도에 대해 추가적으로 33%의 시간 절감을 약속합니다. 이 아이디어의 미래 적용은 개인에 대한 모든 가용 정보 소스(소셜 미디어, 교육 기록, 추천서, 이력서, 자발적으로 제출된 자료)를 개인 정보 보호 제한 하에 단순히 기술 추정의 시작점으로 활용하여 시험 또는 평가 세션의 새로운 정보로 업데이트하는 것입니다. 이는 시험 세션에서 추가적인 시간 절약을 가져올 수 있습니다.
또 다른 전략은 시험 응시 경험을 응시자에게 더 유용한 방식으로, 즉 반환되는 이점을 통해 만드는 것입니다. 예를 들어, 교육은 일반적으로 평가와 함께 이루어지지만, 교육을 받는 학습자는 교육 시간이 부분적으로 평가에 사용된다 하더라도 기술 향상이라는 직접적인 이점을 얻게 되므로 자신의 시간을 정당하게 사용했다고 인식할 수 있습니다. 형성 평가, 지능형 튜터링 시스템 및 평가와 혼합된 기타 교육 형태는 학습자가 평가에 더 많은 시간을 할애하도록 유도하고, 원칙적으로 기술 측정을 개선하기 위해 이 원칙을 활용합니다.
또 다른 전략은 시험 응시 경험을 더욱 매력적이고 즐겁게 만들어 응시자들이 기꺼이 더 많은 시간을 시험에 할애하도록 하는 것입니다. 멀티미디어 시험, 게임 기반, 게임화된 및 게임 방식으로 설계된 평가(Landers & Sanchez, 2022)는 많은 어린이와 성인이 게임을 즐기고 보상 없이 또는 인지된 외적 직접적 이점 없이 자발적으로 그렇게 한다는 사실을 이용합니다. DARPA의 DARWARS 프로그램은 학생들이 가상 세계에서 시뮬레이션, 지능형 에이전트 및 온라인 커뮤니티를 갖춘 멀티플레이어 게임을 통해 훈련 경험에 자발적으로 수백 시간을 소비함으로써 기술을 습득할 것이라는 아이디어를 기반으로 했습니다 (O’Neil et al., 2004). 대역폭 문제는 일부 상황과 세계 일부 지역에서 존재할 수 있으며, 이는 타당성 위협이 될 수 있습니다.
5.2.2 언제, 어디서나, 보안과 함께
언제 어디서나 시험을 볼 수 있는 방식(Anytime-Anywhere Testing)은 시험 응시자의 편의성과 비용 절감을 위한 요구에 맞춰 오랫동안 연구되어 왔습니다. Bennett(1998)는 이미 전용 시험 센터가 사라질 가능성을 제기했으며, 코로나19 팬데믹이 이러한 변화 속도를 가속화했습니다. 현재는 대규모 시험에서도 언제 어디서나 응시할 수 있는 방식이 현실이 되었으며, 이는 비용 절감, 편의성 증가, 접근성 향상이라는 큰 이점을 가져왔습니다. 그러나 시험 센터는 여전히 존재하며, 많은 사람들이 시험 센터에서 응시하는 것이 더 편리하고 비용이 적게 드는 경우도 있습니다. 특히 기업, 대학, 협회 등에서는 보안 문제, 추가 평가 요소 활용, 응시자 경험 개선, 공정한 디지털 접근성 보장 등의 이유로 대면 시험을 여전히 요구하고 있습니다.
원격 시험(At-home Testing) 또는 모바일 시험(Mobile Testing)은 고위험 시험(High-Stakes Testing)에서 보안 문제가 더 복잡해집니다. 현재 보안 문제는 다양한 방식(Choi et al., 2021; ETS, 2023b; Qian et al., 2018a, 2018b)으로 해결되고 있으며, 지속적인 모니터링과 개선이 필요합니다. 한편, 보안이 크게 중요하지 않은 저위험 형성 평가(Low-Stakes Formative Testing)에서는 모바일 시험이 많은 장점을 가집니다. 예를 들어, Karay et al.(2020)의 연구에 따르면, 모바일 기기에서 시간 제한 없이 시험을 보는 것이 점수에 영향을 주지 않으며, 오히려 다음과 같은 긍정적 효과를 보였습니다. - 학생들이 시험에 더 많은 시간을 할애함. - 책이나 온라인 자료를 적극적으로 활용함. - 결과적으로 학생들에게 더 높은 수용도를 얻음.
5.2.3 새로운 기기
일부 시험은 여전히 종이와 연필 형식으로 시행되지만, 점점 그 빈도가 줄어들고 있다. 심지어 SAT도 2024년부터 완전히 디지털 방식으로 전환되었다(College Board, 2023). 대학원 및 전문대학원 입학을 위한 고위험(high-stakes) 시험들은 2000년대에 디지털 기반 평가로 전환되었으며, 세계 여러 나라를 대상으로 하는 대규모 국내외 평가도 2015년부터 2020년 사이에 디지털 방식으로 전환되었다. 다만 일부 예외가 존재하는데, 예를 들어 OECD의 개발도상국 대상 프로그램인 PISA-D는 여전히 전통적인 시험지 방식으로 시행되고 있다. 초기 디지털 시험 전환은 종이 시험 형식에 비해 큰 기능적 차이를 제공하지 않았으며, 단순히 더 많은 시험 형태를 제공하고 적응형 평가를 가능하게 하는 수준에 그쳤다. 그러나 점차 새로운 기능들이 추가되면서 동영상, 시뮬레이션, 상호작용이 가능한 시험 환경이 도입되었으며, 이러한 추세는 앞으로도 계속될 것으로 보인다. 궁극적으로 교육 평가 분야에서도 더욱 몰입감 있고 흥미로운 형식의 시험이 가능해질 전망이다. 다만, 기술 투자의 수익성이 교육보다 엔터테인먼트 분야에서 훨씬 높기 때문에 이러한 변화는 상대적으로 더디게 진행될 가능성이 크다.
애플 비전 프로(Apple Vision Pro)의 혼합 현실(MR) 헤드셋이나 마이크로소프트의 키넥트(Azure Kinect)와 같은 새로운 기술은 시험의 입력 방식(예: 지시문, 문항 자극, 문항 프롬프트)과 응답 방식(예: 제스처, 물건 잡기, 전신 움직임)에 혁신적인 변화를 가져올 수 있다. 이를 통해 새로운 구인을 새로운 방식으로 측정할 가능성이 열리게 된다. 하지만 이러한 기술들은 시장 변동성에 따라 빠르게 변화하기 때문에, 새로운 유형의 시험을 개발하기 위해 특정 기술에 투자하는 것은 상당한 위험을 수반한다. 예를 들어, 마이크로소프트는 2017년에 키넥트 생산을 중단했으며(Lee, 2023), 한때 주목받았던 사회적 측정 배지(sociometric badge) 기술도(Lederman et al., 2016) 이미 단종된 상태다.
5.3 문항 개발
5.3.1 생성형 AI와 문항 모델을 사용한 자동 문항 생성
문항 개발은 전통적으로 전문가들에 의존해왔으며(Lane 외, 2016이 검토 제공), 따라서 비용이 많이 들고 시간이 오래 걸리는 과정이었습니다. 자동 문항 생성(AIG)은 이 과정을 더 효율적이고 표준화된 방식으로 만들 수 있는 매력적인 대안입니다. 초기 AIG 시도들(Irvine & Kyllonen, 2002)은 표본 문항으로 측정되는 목표 지식, 기술, 능력의 포괄적인 문항 모델을 구축하는 데 초점을 맞추었고, 모델의 핵심 구성요소를 조작하여 많은 유사한 변형을 생성했습니다. 이러한 초기 시도들은 원본과 유사한 고품질 문항을 생성하는 데 효과적이었지만 두 가지 중요한 한계가 있었습니다: 각 문항마다 고유한 모델이 필요했기 때문에 확장이 어려웠고, 목표 구성개념에 맥락을 제공하는 텍스트의 다양성이 제한적이어서 문항들이 비슷하게 보였고, 따라서 독립적인 문항만큼의 정보를 제공하지 못했습니다(Bejar 외, 2002). 생성형 AI는 이러한 한계를 극복하는 데 특히 적합합니다; 여러 문항 유형에 걸쳐 광범위한 텍스트를 생성할 수 있습니다. 따라서 최근의 AIG 접근법들은 많은 다양한 문항 유형에 대한 맥락, 문두, 선택지를 생성하기 위해 LLM을 자주 활용합니다(예: Attali 외, 2022; Chan 외, 2022; Gao 외, 2022; Stowe 외, 2022; Zu 외, 2023). 신중한 문항 모델링과 유능한 LLM의 성공적인 결합은 문항 개발에 자동화를 구현하는 매우 유망한 접근법으로 보입니다. 모든 형태의 글쓰기와 마찬가지로 문항을 작성하는 것은 여러 단계로 구성된 과정입니다. 지금까지 문헌에 소개된 AIG 접근법들은 초기 생성에만 전적으로 초점을 맞추었습니다. 이러한 관점에서, 현재의 AIG 접근법들(LLM 기반 접근법 포함)에 대한 더 정확한 표현은 ’자동 문항 초안 작성’일 것입니다. 문항 개발에서 자동화의 잠재력을 완전히 실현하기 위해서는, 전체 과정이 자동으로 생성된 문항 초안을 활용하도록 설계되어야 합니다. 초안 문항들은 정확성, 적절성, 공정성에 대해 검토되어야 하고; 난이도와 변별도를 추정하기 위해 보정되어야 하며; 시험자들에게 도달하기 전에 전달 단위(예: 시험지)로 조립되어야 합니다. ETS와 많은 다른 시험 회사들의 문항 개발 과정은 수십 년 전에 정기적인 간격으로 도착하는 일정한 수의 수동으로 작성된 문항 초안을 수용하도록 설계되었습니다; 이러한 기존 과정들은 문항 개발의 효율성과 규모를 달성하기 위해 자동으로 생성된 많은 수의 초안을 활용하는 데 상당한 병목 현상을 일으킬 수 있습니다. 따라서 초기 생성 능력과 함께 전반적인 문항 개발 과정을 혁신하는 것이 매우 중요합니다.
5.3.2 LLM을 활용한 난이도 모델링
문항의 난이도는 시험지를 구성하고 점수를 결정하는 데 중요한 요소이다. 일반적으로 문항 난이도는 많은 수의 응시자(보통 문항당 500~1,000명)의 실제 응답을 바탕으로 추정된다. 그러나 이 방식은 새로운 문항의 수가 응시자 수보다 훨씬 적다는 전제하에 가능하다. 하지만 효과적인 자동 문항 생성(AIG) 시스템이 즉시 많은 문항을 만들어 낼 수 있다면 이 전제는 성립하지 않으며, 기존 방식으로 난이도를 추정하는 것이 새로운 문항 활용의 큰 장애물이 된다. 따라서 문항 난이도를 예측하는 방법이 대안이 될 수 있다. 과거에는 문항 유형별로 개별적인 예측 모델이 필요했고, 예측 알고리즘의 성능도 제한적이었다. 하지만 대형 언어 모델(LLM)은 문항을 입력하면 난이도를 예측할 수 있는 유연한 모델링 도구로 활용될 수 있다. Zu & Choi (2023a, 2023b)의 연구에서는 오픈소스 LLM을 미세 조정(fine-tuning)하여 문항 난이도를 예측한 결과, 기존 최고 성능의 예측 모델(Loukina et al., 2016)을 뛰어넘었으며, 전문가의 난이도 판단보다 훨씬 정확한 결과를 보였다. 또한 ETS 연구진은 예측된 난이도의 불확실성을 보정하는 방법을 개발하여, 이를 평가 심리학적(psychometric) 분석 과정에 반영하고 있다(Lewis, 2001; Mislevy et al., 1993).
5.4 맥락화와 개인화
OECD의 PISA, PIAAC 또는 SSES와 같은 대규모 국제 평가는 전 세계 여러 국가 및 언어로 시행되며, 국가별 성과를 순위표로 비교하므로 비교 가능성이 핵심입니다. 시험은 영어(또는 프랑스어) 원본을 바탕으로 2단계 과정, 즉 적응 및 번역을 거쳐 준비됩니다 (cApStAn & Halleux, 2019; Hambleton, 2002). 적응 단계에서 해당 국가의 이중 언어 사용자는 특정 개념이 자국 문화에서 의미가 있는지, 그리고 원본 국가에서와 동일하게 해석될 것인지 여부를 나타냅니다. 적응이 무엇을 의미하는지 파악하기 위해 ITC 지침(International Test Commission, 2017) 몇 가지를 고려해 보십시오.
- 관심 집단의 시험 의도된 사용과 관련 없는 문화적, 언어적 차이의 영향을 최소화합니다.
- 적응 과정에서 관련 전문 지식을 갖춘 전문가 선택을 통해 대상 집단의 언어적, 심리적, 문화적 차이를 고려해야 합니다.
- 점수에서 도출된 추론의 타당성에 영향을 미칠 수 있는 시행 절차 및 응답 방식으로 인해 발생하는 문화 및 언어 관련 문제를 최소화하기 위해 시행 자료 및 지침을 준비합니다.
일상적으로 모든 국제 시험에서 요구되는 이러한 종류의 적응은 관련 언어와 문화, 시험 내용 및 시험 원칙에 대한 전문 지식을 필요로 합니다. 이는 언어 및 문화 집단 간의 평가 결과 비교 가능성을 보장하기 위한 비용이 많이 들지만 필수적인 과정입니다. 이러한 작업은 국제적인 대규모 평가 작업에만 국한되지 않습니다. 일반적으로 고용 시험인 시험이 여러 국가에서 지역적으로 사용되는 경우(예: ETS의 이전 Workskills for Job Fit은 18개 언어로 시행되었습니다)와 미국 내의 언어 하위 집단(예: 영어 학습자인 스페인어 사용 시험 응시자를 위한 문화적 적응에 대한 ETS의 캘리포니아 K-12 노력)에서도 이러한 적응이 필요합니다. 미국 내의 문화적 하위 집단에도 유사한 종류의 적응을 적용할 수 있다고 주장할 수 있습니다. 물론, 교차 문화 평가에서 확인된 편향(구조적 편향, 방법 편향 및 문항 편향)은 언어 집단 내의 하위 문화에 대한 시험 점수의 적절한 해석에도 관련이 있습니다(van de Vijver & Poortinga, 2005).
비슷한 종류의 적응은 예를 들어 여러 문화권을 대표하는 여러 국가의 잠재 고객을 위한 제안서나 광고를 준비하는 비즈니스 또는 광고 분야에서도 이루어집니다. AI 운영 분야의 선구자이자 Sageable CEO인 Andi Mann은 팟캐스트에서 이러한 종류의 적응이 곧 AI를 통해 이루어질 것이며, 다양한 문화를 위해 콘텐츠의 맥락을 재구성할 것이라고 제안했습니다 (Turchin, 2023). Mann은 사업 제안서나 광고 브로셔를 가져와 대상 문화적 가치에 맞게 조정하는 예를 들었습니다. 예를 들어, 문화적으로 더 적절하고 덜 불쾌하게 만들거나, 격식 있는 어조에서 비격식적인 어조로 바꾸거나, 목표를 재구성하여 문화적으로 더 호환되도록 하는 것입니다. 그는 자동 맥락 재구성이 곧 이미지 크기 조정만큼 쉬워질 것이라고 제안했습니다. Lee et al. (2024)은 개인 맞춤형 마케팅에 LLM을 사용하는 방법을 보여주었습니다.
관련 아이디어는 “특정 개인의 특성/자질 집합을 고려하여 경험이나 상호 작용을 적절하게 조정하는 것”으로 정의되는 개인 맞춤형 학습 문헌(Walkington & Bernacki, 2020)에서 비롯됩니다. 그렇다면 개인 맞춤형 평가는 개인 맞춤형 학습에 대한 평가입니다. (이에 대한 추가 논의는 본 보고서의 피드백 섹션에서 참조하십시오.)
5.4.1 개인 맞춤화 및 맥락화 구현을 위한 LLM 활용
기술과 AI는 이전에는 불가능했던 수준으로 시험 콘텐츠 생성에서 개인 맞춤화 또는 맥락화를 (경제적으로 그리고 대규모로) 가능하게 합니다. ETS Human Progress Study(ETS, 2023a) 응답자의 높은 비율(78%)이 AI가 각 개인 학습자의 필요에 맞게 맞춤화하여 학습 평가를 향상시킬 잠재력이 있다는 데 동의했습니다. 이러한 종류의 개인 맞춤화는 자동 문항 생성의 맥락 내에서 또는 외부에서 수행될 수 있습니다.
미리 만들어진 문항 세트에서 시험 양식을 구성할 때 모든 종류의 적응은 주요 과제가 됩니다. 평가에 개인 맞춤화를 통합하려는 노력은 개인을 위한 콘텐츠의 온라인 적응 또는 실시간 경험을 유사하게 만들 수 있을 만큼 충분히 큰 다양한 문항 풀을 통해 이러한 과제를 극복해야 합니다. 미리 만들어진 콘텐츠에 의존하는 현재의 시험 개발 과정에서는 두 가지 옵션 모두 실현 가능하지 않습니다. 따라서 평가 콘텐츠의 자동 적응은 개인 맞춤형 평가로의 전환을 가속화할 수 있는 매우 영향력 있는 혁신이 될 수 있습니다. LLM은 광범위한 텍스트에 대해 이미 사전 학습되었기 때문에 자동 적응 작업에 매우 적합합니다. 또한 텍스트를 의미 정보가 포함된 숫자 벡터로 인코딩할 수 있으므로 컴퓨터 비전에서 신경 스타일 전송 접근 방식의 성공(Gatys et al., 2016)이 텍스트 영역의 적응 문제에 적용될 수 있음을 시사합니다(Hu et al., 2017; Prabhumoye et al., 2018; Shen et al., 2017; Yang et al., 2018).
그러나 이러한 접근 방식을 적절하게 구현하려면 잠재적인 결과를 신중하게 고려해야 합니다. ETS Human Progress Study(ETS, 2023a)에서 응답자의 71%는 AI가 시스템 내의 의도치 않은 편견과 프로그래밍 결함으로 인해 학습 평가에 부정적인 영향을 미칠 가능성을 우려했습니다. LLM은 사전 학습 샘플에 포함된 편견을 물려받으며 이러한 편견을 결과물에 재현할 수 있습니다. 따라서 순진한 LLM 기반 적응 접근 방식은 기존 편견의 추가적인 확산 및 강화로 이어질 수 있습니다. 그러므로 자동화된 적응의 이점을 기존 편견의 재생산 없이 실현할 수 있도록 적응 결과를 감시하고 통제하는 강력한 메커니즘을 구축하는 것이 중요합니다. 여러 문화와 언어에 대한 대규모 교육 설문 조사를 조정해 온 ETS의 역사와 전문 지식, 그리고 콘텐츠를 생성하는 AI 모델에서 이러한 문제를 완화하기 위해 수행된 작업은 이러한 과제를 성공적으로 해결하는 데 중요한 이점을 제공합니다.
5.5 검사 구성
검사 구성
시험 구성은 시험지에 포함할 문항을 선택하는 과정입니다. 문항 선택은 일반적으로 시험 설계도에 명시된 제약 조건에 따라 이루어집니다 (Davey, 2023; Lane et al., 2016). 이러한 제약 조건은 여러 시험지 간의 비교 가능성을 확보하고, 평가하려는 구인(construct)의 정의에 부합하며, 시험이 측정하고자 하는 내용 영역의 모든 측면을 포괄하고 (구인 과소 대표 방지), 구인과 관련 없는 특징을 최소화하는 데 목적을 둡니다. 포함할 수 있는 제약 조건의 종류는 사실상 무한하지만, 일반적으로 시험 길이, 구인, 내용 (예: 1차, 2차 및 특정 내용), 문항 유형 또는 형식, 독립형 또는 세트 내 문항, 인지 수준 또는 지식 깊이와 관련됩니다 (Davey, 2023). 문항 난이도, 문항 변별도 (측정되는 특질에서 높은 점수를 받은 응시자와 낮은 점수를 받은 응시자가 해당 문항을 정확하게 풀 가능성 정도) 및 문항 완료 예상 시간과 같은 심리 측정 속성, 그리고 일반적으로 문항 응답에 영향을 미치는 구인과 무관한 영향을 최소화하기 위해 균형을 맞춘 시험지에서 남학생과 여학생의 언급 횟수와 같은 문항 내용과 관련된 모든 종류의 세부 사항도 포함될 수 있습니다. 심지어 형식 (예: 7페이지 이하, 페이지당 최대 50줄)도 구성 과정의 일부로 포함될 수 있습니다 (Diao & van der Linden, 2013).
Stocking과 Swanson(1993)의 초기 운영 시연과 van der Linden(2005)의 자료집 이후, 자동화된 구성의 이점, 즉 시험 구성을 조합 최적화 문제로 취급하는 것의 이점은 분명해졌습니다 (Davey, 2023). 이는 항공사가 좌석을 채우는 데 사용하는 기술과 군대 및 소매업체가 진열대를 채우는 데 사용하는 기술과 동일합니다. 조합 최적화에서 목적 함수는 제약 조건 집합에 따라 최소화됩니다. 시험 설계도는 제약 조건 집합으로 지정되고, 목적 함수는 목표 평균 문항 난이도 또는 목표 시험 특성 곡선(예: 모든 숙련도 수준에 대한 정보를 제공하는 양식 또는 특정 절단점 주변에 가장 많은 정보를 제공하는 양식) 또는 시험 정보 함수 또는 둘 다를 달성하는 것과 같은 시험 설계를 위한 특정 목표를 달성하도록 선택됩니다 (Ali & van Rijn, 2016). 목적 함수는 내용 목표 또는 보안 목표(예: 문항 노출 최소화; Davey, 2023)를 달성하는 데에도 사용될 수 있습니다.
시험 구성에 대한 조합 최적화 접근 방식은 매우 강력하며 시험의 질적 향상에 기여할 수 있는 기반 역할을 할 수 있습니다. 이 접근 방식은 제약 조건과 목적 함수로 사용할 수 있는 문항에 대한 가용 데이터에 의해서만 제한됩니다. Davey (2023)는 기술 초기 시절의 한 사건을 회상했는데, 자동화된 시험 구성이 한 양식을 만드는 데 사용되었고, 검토하던 시험 개발자들이 그들에게는 명백하지만 알고리즘에는 분명하지 않은 결함을 발견했는데, 그것은 물을 주제로 한 문항이 너무 많았다는 것이었습니다. Davey는 물에 대한 공식적인 내용 요구 사항이 없었기 때문에 알고리즘은 그러한 과다 대표를 알 수 없었고, 이는 인간 검토자들에게 두드러져 보였다고 말했습니다.
물”과 같은 많은 문항 특징이 문항 은행에 포함되지 않는 이유는 이전에 이를 포함해야 할 이유가 없었고 (인간 작성자가 쉽게 발견할 수 있는 것) 관련 있을 수 있는 모든 가능한 특징에 대해 문항을 수동으로 코딩할 시간과 인력이 없었기 때문입니다. 이제 자동화된 구성 접근 방식이 더 널리 사용되고 많은 문항 특징을 쉽게 처리할 수 있게 되었으므로 “물” 문제, 즉 문항을 손으로 코딩하지 않고도 많은 수의 특징별로 분류하는 문제는 새로운 접근 방식에 적합한 영역으로 보입니다.
5.6 보안과 품질 관리
중요한 시험 환경(학교 입학, 장학금 제공, 취업 선발 시험)에서 시험 업계는 고용주 또는 교육 기관이 의사 결정 목적으로 정보를 필요로 하는 학생 또는 지원자의 기술에 대한 신뢰성 있고 타당하며 신뢰할 수 있는 정보를 독점적으로 제공합니다. 이러한 결과는 표준화된 시험 가치 제안의 주요 구성 요소입니다. 개인의 기술에 대한 다른 정보 소스(추천서, 자기소개서, 이력서)는 후보자의 기술에 대한 제한적인 유용한 정보를 제공하며 손상 및 편견에 매우 취약합니다. 자기소개서는 시험 점수와 이전 성적이 고려된 후에는 성적이나 교수진 평가를 예측하지 못합니다 (Murphy et al., 2009). 아마도 자기소개서가 후보자 자신으로부터의 입력뿐만 아니라 (예: 친구, 가족 구성원, 전문가) 다른 출처의 입력을 반영하기 때문일 것입니다 (Powers & Fowles, 1997). 추천서는 자기소개서보다 결과 예측력이 더 높지만 (Kuncel et al., 2014) 자체적인 문제가 있습니다. 부정적인 언급에 대한 강한 편견이 있고, 두 평가자 간의 합의 수준이 작은 경향이 있으며, 추천서 작성자는 평가 심각도에 차이가 있고, 평가에 영향을 미칠 수 있는 평가자의 동기 (예: “내 학생에게 직업을 찾아주겠다” vs. “신뢰할 수 있는 정보 소스라는 내 명성을 유지하겠다”)가 투명하지 않습니다. 이력서는 표준화되지 않았으며 후보자의 성별, 인종 및 연령과 같이 기술과 관련 없는 많은 특징을 드러내어 후보자 평가에 편견을 줄 수 있으며 (Kessler et al., 2019) 차별적인 기회를 반영합니다. 이력서와 표준화된 대응물인 바이오 데이터 또한 위조에 취약합니다 (Law et al., 2002).
표준화된 시험은 이러한 대안적인 측정 방법과 관련된 편견과 타협에 덜 취약합니다. Leonhardt(2024)가 지적했듯이 “아마도 시험에 찬성하는 가장 강력한 주장은 입학 과정의 다른 부분들이 훨씬 더 큰 인종적, 경제적 편견을 가지고 있다는 것일 것입니다.” Chetty et al.(2023)은 시험 점수가 고등학교 성적보다 결과(엘리트 대학원 진학, 명문 회사 취업)의 더 강력한 예측 변수임을 보여주었습니다. 그들은 또한 상위 1% 소득 학생들의 명문 학교 입학 특혜의 대부분이 시험 점수가 아닌 더 높은 비학업적 평가(세습적 선호도 및 운동 선수 모집과 함께)에서 비롯됨을 보여주었습니다.
그러나 이는 시험 점수의 신뢰성이 보안 절차와 품질 관리를 받는 한에서만 유효합니다. 표준화된 시험을 통해 얻은 점수 정보를 보안상의 허점이나 품질 관리 실패로 인해 신뢰할 수 없다면 표준화된 시험의 가치는 크게 감소합니다.
시험에 대한 잠재적인 보안 위협의 성격은 무엇일까요? 기본적으로 세 가지 위협, 즉 사칭자, 정보 제공자, 그리고 유출된 정답 및 문제 자료가 있지만, 이들은 다양한 형태로 나타납니다. 사칭자는 전통적으로 시험장에서 후보자를 대신하여 시험을 보는 사람이었으며, 이는 원격 시험으로 인해 더 쉬워질 가능성이 있습니다. 정보 제공자는 사칭자와 유사하며, 가정 시험 중에 컴퓨터 카메라 시야 밖에서 방에 숨어 있다가 후보자에게 답을 알려줄 수 있습니다. 또 다른 종류의 정보 제공자는 뛰어난 시험 능력을 보여준 ChatGPT입니다 (Panthier & Gatinel, 2023). 미래의 정보 제공자는 정교한 통신 기술을 통해 후보자에게 정보를 전달하거나 후보자를 대신하여 시험을 보면서 보안 취약점을 악용할 수 있습니다. 마지막 보안 위협은 유출된 정답이며, 이는 전통적으로 전문 시험 응시자 또는 다른 시험 응시자의 시험 문항에 대한 집단 기억으로부터 생성되었습니다. 미래의 유출된 정답은 ChatGPT와 같은 AI 도구를 사용하여 생성될 수 있습니다. 기술을 보여주려는 개인적인 동기와 그러한 증거의 진실성을 보장해야 하는 더 큰 시스템의 필요성이 충돌하는 한, 부정행위와 적발은 고양이와 쥐 게임으로 남을 수 있습니다.
5.6.1 부정행위 탐지와 품질 관리 수행을 위한 접근법
Lee 외(2014)는 대리시험(가짜 응시자), 답 복사(비의도적 정보 제공자), 사전 문제 유출, 집단 공모(정보 제공자)를 탐지하기 위해 설계된 다양한 통계적 부정행위 탐지 방법과 품질 관리 도구에 관한 연구를 검토했습니다. Sinharay(2023)는 Lee 외의 연구에 추가 방법을 보완했습니다. 탐지 방법에는 큰 점수 차이 분석법, 관련된 구성 요소를 측정하는 시험 영역 간 불일치 수행 탐지법, 응답 시간 분석을 통한 개인의 불일치 응답 패턴 파악 등이 포함됩니다. 널리 사용되는 부정행위 탐지 방법은 시험장에서 가까이 앉은 응시자들처럼 ‘객관식 시험에서 두 응시자의 오답이 비정상적으로 일치하는 경우’(Holland, 1996, p. 2)와 같이 응시자 그룹의 특이한 응답 패턴을 찾는 것입니다. 이는 k-지수와 오답 일치의 본페로니 조정 확률(PMIR; Lewis & Thayer, 1998)을 통해 수행됩니다. 현대의 통신 기술로 인해 응시자들이 서로 가까이 있지 않더라도, 많은 그룹이 유포된 정답을 공유하여 일치하는 응답을 할 수 있습니다. 통계적 방법은 정확히 또는 거의 일치하는 패턴이 비정상적인지를 식별할 수 있으며(Haberman & Lee, 2017), 이를 위한 특허 시스템도 있습니다(Haberman 외, 2022).
시험 과정의 신뢰성을 평가하는 또 다른 방법은 장기적 품질 모니터링입니다(Lee 외, 2014). 누적합 차트는 품질 관리에서 흔히 사용되며 시험에도 적용할 수 있습니다(Lee & Lewis, 2021). 예를 들어, 반복 노출 후 더 이상 이전과 같은 응답을 이끌어내지 못하는 문항을 식별하는 데 도움이 될 수 있는데, 이는 과다 노출을 나타낼 수 있습니다. 더 넓게 보면, 시간에 따른 개별 문항의 급격한 변화를 탐지할 수 있는 다양한 새로운 통계적 방법들이 있습니다. 여기에는 조화 회귀분석(Lee & Haberman, 2013, 2021), 시계열 방법(Lee & von Davier, 2013), 그리고 시험을 포함한 다중 데이터 스트림과 관련된 많은 응용에 적용할 수 있는 순차적 변화 탐지(Chen 외, 2022)가 포함됩니다. 이러한 방법들은 적어도 자주 시행되는 시험에서는 채점과 문항 풀에서 제외해야 할 문제가 있는 문항을 식별하는 데 적용될 수 있습니다. 이러한 새로운 방법들의 추가 발전은 앞서 제안된 새로운 시험 형태들에 대한 적용 가능성을 확장하고, 문항당 응시자 수가 적은 더 큰 문항 풀에 대한 적응을 포함할 수 있습니다.
5.6.2 AI를 활용한 LLM 부정행위 탐지의 새로운 접근법
ChatGPT와 다른 LLM들의 각종 고부담 시험에서의 사용은 부정행위 탐지에 새로운 도전과제를 제시합니다. 음성 복제와 딥페이크를 이용한 부정행위는 새로운 우려를 낳고 있습니다. Hao 외(2024)는 다양한 접근법을 제시했습니다. 여기에는 추가 카메라 사용과, 비판적 사고력과 수행 기반 과제처럼 LLM 도움에 덜 취약한 문항을 포함하도록 시험을 재설계하는 등의 예방 조치가 포함됩니다. 또한 특히 에세이 답안에서 ChatGPT의 기여를 탐지하도록 설계된 탐지기 조치도 포함됩니다. 이러한 탐지기는 ChatGPT를 매우 정확하게 탐지할 수 있지만, 오탐지가 우려됩니다. Hao 외(2024)는 탐지기가 성공적이려면 모든 지표(거짓 양성과 참 음성 비율, 동일 오류율과 대조 표본)를 고려해야 한다고 지적했습니다. 탐지기는 AI 생성 텍스트에 대한 인간의 수정에 강건해야 하고, 하위 집단 편향을 고려해야 하며, 짧은 응답은 구별하기가 더 어렵고, 결국 탐지기는 확률적 증거만 제공할 수 있습니다. 상황은 빠르게 변화하고 있으며, 오픈소스 LLM들은 새로운 도전과제를 제시할 것입니다(Chakraborty 외, 2023; Liu, Zhang 외, 2023; Tang 외, 2023).
5.7 채점 - AI 채점 방법
전통적인 객관식 시험과 그 변형에 대한 채점과 채점 응용은 과학적으로나 운영적으로나 잘 정립되어 있습니다. van der Linden(2018)의 편집본은 보건, 마케팅, 임상심리학, 국제평가 등 다양한 분야의 시험에서 모델링, 분석, 채점, 문항 보정, 개인 및 모델 적합에 사용될 수 있는 다양한 문항반응이론 접근법을 포괄적으로 다룹니다. 모든 종류의 시험에 적용 가능한 접근법을 다루는 다른 많은 연구들도 있습니다(Ostini & Nering, 2006; Wainer & Thissen 2001). 이러한 방법들은 아직 운영이나 연구에서 보편적으로 적용되지는 않고 있으며 - 많은 경우 점수는 단순히 응시자의 정답 수의 합계입니다 - 그러나 조직행동(Lang & Tay, 2021)과 정책 및 보건(Nguyen 외, 2014) 같은 다양한 분야에서 전통적인 합산(고전) 방식을 모델 기반(문항반응이론) 방식이 점차 대체하고 있습니다. 하지만 평가의 미래에서 중요한 부분으로 부상할 것 같은 몇 가지 채점 주제들이 있습니다. 이러한 주제들에는 자동 생성된 문항의 채점, AI 방법을 사용한 에세이 채점, 그리고 새로운 혁신적 문항 유형과 시험 없는 평가의 채점이 포함됩니다.
5.7.1 자동문항생성(AIG)과 문항 난이도 모델링을 위한 채점 방법
자동문항생성에는 여러 접근법이 있습니다(Gierl & Haladyna, 2013의 여러 장 참조; 특히 Irvine & Kyllonen, 2002; Sinharay & Johnson, 2013). 근본요인과 부수요인 접근법은 요인이나 차원들의 집합으로부터 그 차원들의 값을 변화시켜 문항을 구성하는 것을 포함합니다. 난이도에 영향을 미치는 요인들을 근본요인이라 하고, 그렇지 않은 것들을 부수요인이라고 합니다. 이러한 요인들은 영역에 대한 인지적 분석을 기반으로 합니다. 이는 Embretson(1994)과 Kyllonen 외(2019)가 취한 접근법으로, 점진적 행렬이나 수열과 같은 유동적 추론 문항과 같은 알고리즘적 문항에 이상적으로 적합합니다. 이는 데이터를 모델링하고 채점의 기반으로 선형 로지스틱 검사 모형과 그 확장을 사용합니다.”
다른 접근법은 문항-모델 접근법으로, ‘슬롯-채우기’라고도 불리며, 모델 문항의 일부(예: 산술 문장제의 수치들)를 잠재적 채우기 값들의 집합을 가진 슬롯으로 취급합니다. 이는 Bejar 외(2002)와 Graf와 Fife(2012)가 취한 접근법으로, 수학이나 물리 문장제에 이상적으로 적합합니다. Johnson과 Sinharay(2005)는 이러한 접근법들의 채점 방법을 검토하고, ’동일 형제’ 모델이라 불리는 간단한 모델이 채우기 값에 관계없이 같은 문항 모델에서 만들어진 모든 문항이 동일하다고 가정함으로써 응시자의 능력을 상당히 잘 추정한다고 제안했습니다. 하지만 이 가정을 완화한 ‘관련 형제’ 모델(Glas & van der Linden, 2001)과 ‘선형 문항 복제’ 모델(Geerlings 외, 2011)은 부가 정보의 포함을 허용하고 더 엄격한 통계 분석을 가능하게 함으로써 잠재적으로 훨씬 더 넓은 범위의 자동문항생성 평가에 적용될 수 있습니다.
5.7.2 에세이와 기타 채점하기 어려운 과제의 채점
자동화된 기계 에세이 채점은 이제 운영적 채점에서 잘 정립되어 있습니다. 현재 버전들은 주로 다중 회귀분석과 랜덤 포레스트, 그래디언트 부스팅 머신과 같은 다른 예측적 AI 접근법을 기반으로 한 통계적 학습 방법에 기초합니다(Madnani & Cahill, 2018; Rupp, 2018; Shermis & Burstein, 2013). 자동 에세이 채점은 인간 채점만큼 정확하며, 채점자의 피로도, 엄격성과 관대함, 기준 변화, 시간대, 후광 효과와 관련된 인간의 편향을 피할 수 있는 장점이 있습니다(Williamson 외, 2012). 반면, 자동 채점이 블랙박스이며 자체적인 편향을 가질 수 있다는 인식이 있어 응시자들의 신뢰 부족을 야기할 수 있습니다(Kumar & Boulanger, 2020). 딥러닝 모델과 LLM들이 에세이 채점과 다른 채점하기 어려운 과제의 평가에 사용되기 시작했습니다. 이들은 정확도를 높이고 응시자들의 평가 결과물의 장단점에 대해 더 나은 설명을 제공할 잠재력이 있습니다(Kumar & Boulanger, 2020). Hao 외(2024)는 LLM의 자동 채점 적용 사례들을 논의했습니다. 한 연구는 TIMSS 2019의 여섯 문항에 대해 8개국, 6개 언어의 학생 응답에 대한 인간 평가와 AI 기반 자동 채점 간에 매우 높은 상관관계를 발견했습니다(Jung 외, 2022). 특히 ChatGPT로 번역된 응답으로 시스템을 훈련시켰을 때 관계가 더욱 강했습니다. 다른 연구는 합성곱 신경망을 TIMSS 2019 그래픽 응답 문항 채점에 적용하여 높은 정확도와 인간 평가 편향의 식별을 발견했습니다(von Davier 외, 2023). 이 연구는 유망하지만 초기 단계에 있으며, 앞으로 수년간 단답형, 에세이, 그래픽 응답 및 기타 채점하기 어려운 과제의 채점에 LLM을 적용하는 활발한 활동이 있을 것으로 예상됩니다. 이 작업의 주요 과제는 AI 기반 채점 모델의 편향 회피가 될 것이며, 이는 Duolingo 영어 시험의 책임있는 AI 표준에서 다뤄진 주제입니다(Johnson, 2024). Johnson 외(2022)는 글쓰기 스타일, 응답 길이, 오타와 같이 수행과 관련된 ‘채점기준 외’ 응답 특성이 인구통계학적 변수와도 연관될 수 있다는 예를 논의했습니다. 이러한 문제들에 대한 해결책이 제안되기 시작했으며(Johnson & McCaffrey, 2023), 채점에서의 AI 편향은 유망한 연구 분야로 남을 것 같습니다. 현재 시점에서 LLM 지원 문항 개발과 응답 채점은 LLM의 환각과 AI 편향으로 인해 완전 자율 시스템이 불가능하므로 적극적인 인간 참여가 필요한 연구 주제로 남아있습니다.
5.7.3 무시험 평가의 채점
무시험 평가는 명시적인 시험과 연결되지 않은 행동이나 행동 흔적을 기반으로 한 기술 평가로 정의될 수 있습니다. 여기에는 문제 해결이나 학습 중의 대화, 취업 면접(Emerson 외, 2022), 게임이나 마이크로월드 환경을 자유롭게 탐색할 때 취하는 행동, 심지어 이력서 항목들도 포함됩니다 - Cattell(1965)의 용어로 L 데이터입니다. 이는 서로 다른 활동들의 집합이며, 따라서 이러한 환경에서의 행동을 모델링하기 위해 다양한 접근법이 시도되었습니다. 대부분 이러한 접근법들은 심리측정 문헌과 연결되지 않았습니다. 방법들은 성별과 시간에 따른 학생들의 과제 수행/비수행 행동 패턴 연구(Godwin 외, 2016)부터 탐색적 문항이 있는 표준화 시험에서의 키스트로크 패턴 탐색(He 외, 2019), 비참여의 지표로서 설문 문항 건너뛰기 검토(Hitt 외, 2016; Kyllonen & Kell, 2018; Mignogna 외, 2023), 기계학습 방법을 사용한 대화 코딩 특성화(Kyllonen 외, 2023)까지 다양합니다. 이 분야는 분류와 다른 종류의 데이터 탐색을 위해 LLM 접근법을 사용하는 중요한 추가 발전이 있을 것 같습니다.
5.8 공정성
공정성, 즉 편향의 최소화는 시험 점수 해석의 정당성이나 타당성에 영향을 미치기 때문에 시험에서 ’최우선적이고 근본적인 관심사’로 여겨집니다(AERA 외, 2014, p. 49). 시험 점수 해석자는 장애 여부, 언어 상태, 문화적 또는 언어적 배경과 같은 응시자의 특성에 관계없이 시험이 동일한 기저 구인을 측정한다고 가정할 수 있어야 합니다.
표준의 의미 내에서 공정한 시험은 모든 응시자에 대해 동일한 구인(들)을 반영하며, 의도된 모집단의 모든 개인에 대해 동일한 의미를 가진 점수를 제공합니다. 공정한 시험은 의도된 구인과 무관한 특성으로 인해 특정 개인들에게 이점이나 불이익을 주지 않습니다. …의도된 모집단의 모든 개인의 특성(인종, 민족, 성별, 연령, 사회경제적 지위, 언어적 또는 문화적 배경과 관련된 특성 포함)은 공정한 평가에 대한 장벽을 줄일 수 있도록 개발, 시행, 채점, 해석 및 활용의 모든 단계에서 고려되어야 합니다.(AERA, 2014, p. 50)
시험 공정성에 대한 이러한 개념은 문항 작성 단계에서 ‘제품이나 서비스의 목적을 충족하기 위해 필요한 경우를 제외하고는 일반적으로 성차별적, 인종차별적, 또는 불쾌감을 주는 것으로 여겨지는 상징, 언어, 내용을 제거하도록 설계된’ 지침들을 고려함으로써(ETS, 2014, p. 21; ETS, 2022 참조), 그리고 문항 내용의 접근성과 공정성을 점검하는 검토 과정을 통해 다룰 수 있습니다. 공정성은 또한 성별, 인종, 언어, 문화 및 기타 요인에 기반한 서로 다른 집단에 대해 시험이 동일한 구인을 측정하는 정도를 조사하는 문항 반응의 통계적 분석을 통해서도 다뤄집니다. 통계적 방법은 예를 들어 성별 집단 간 단어에 대한 차별적 친숙도(예: 스포츠 용어) 또는 문화 집단 간 차이(예: 음식 항목) 때문에 두 집단에서 같은 방식으로 작동하지 않는 문항을 식별하는 데 사용될 수 있습니다. 이 주제에 대한 논의는 Millsap(2011)에서 찾을 수 있습니다.
공정성의 두 번째 정의는 성별, 인종, 연령으로 정의된 서로 다른 응시자 집단의 선발률에 기반한 채용 시험에서의 우려사항입니다. 만약 선발 절차가 부정적 영향을 미쳐 보호 집단 구성원들을 가장 선호되는 집단보다 더 높은 비율로 걸러낸다면, 고용주는 직원 선발 절차에 관한 통일 지침을 위반할 수 있으며(EU에서는 간접 차별이라는 유사한 개념), 평등고용기회위원회의 법적 집행 조치를 받을 수 있습니다.
Bennett(2023)는 Solano-Flores(2019)와 Sireci(2020)의 견해에 따라, 이러한 정의들을 넘어서 ‘시험이 우리가 빠르게 되어가고 있는 다원적 사회에 더 이상 적합하지 않은 세계관을 대표한다’는 인식(pp. 17-18) 때문에 전통적인 표준화 시험에 대한 반대와 관련하여 교육평가의 기본 전제를 재고해야 한다고 주장했습니다. 그의 제안은 내용을 문화적으로 관련성 있게 변경하고, 인구 특정적 평가를 제공하며, 학생 특성에 맞게 평가를 조정하고, 학습자 주체성을 장려함으로써 ’사회문화적 반응형’ 평가(CRA)를 설계하는 것이었습니다(O’Dwyer 외, 2023).Bennett는 시험의 문화적으로 관련된 문제들이 응시자들의 평가에 대한 동일시, 참여와 동기부여, 사전 지식의 활성화, 그리고 결과적으로 그들의 시험 수행과 자신감, 효능감을 증가시킬 것이라고 가정했습니다. 문화간 연구의 관점에서(이 보고서의 맥락화와 개인화 섹션 참조), Bennett는 일반적인 적응보다 더 광범위할 수 있는 적응 단계를 평가에 제안했습니다. Walker 외(2023)는 ’신념, 가치관, 윤리; 그들의 삶의 경험; 그리고 그들이 어떻게 배우고 행동하고 소통하는지에 영향을 미치는 모든 것’과 같은 학생들의 배경 특성을 고려하는 CRA 설계를 위한 잠정적 원칙을 제안했습니다(p. 1). Dobrescu 외(2021)와 Kukea Shultz와 Englert(2021)는 CRA를 현장 테스트했지만, 둘 다 CRA가 비CRA 버전의 시험과 동등하다는 것을 공식적으로 입증하지는 않았습니다.
Sinharay와 Johnson(2023)은 이러한 한계를 다루고, ‘표면적으로 동등하지 않은 대안적 과제 형태로부터 응시자에 대한 동등한 증거를 얻는’ CRA의 데이터를 분석하기 위한 통계적, 심리측정적 프레임워크를 제안했습니다(Mislevy, 2018; 동등성 논의는 Feuer 외, 1999 참조). Sinharay와 Johnson(2023)은 기준 집단용(RGV)과 Bennett(2023)에 따라 초점 집단용으로 수정된(FGV) 두 가지 형태의 문항을 짝지어 이를 달성했습니다. 연구자는 전문가 판단과 형태 내 심리측정 분석(난이도, 변별도, 신뢰도, 요인 구조, 차별적 문항 기능[DIF], 검사 특성 곡선)을 통해 형태 간 동등성을 확립합니다. 이를 통해 연구자는 정책적으로 호환 가능한 형태별 점수를 산출합니다. 하지만 응시자들은 두 형태(RGV, FGV) 모두에서 점수를 받을 수도 있으며, 이는 맥락 내와 맥락 외 능력을 측정합니다. 어느 집단이 어떤 형태를 받는지와 관련된 다양한 설계를 테스트하는 시뮬레이션 연구에서, Sinharay와 Johnson(2023)은 일부 문항이 형태 간에 본질적으로 공통적이기만 하다면 두 형태의 점수를 비교 가능한 것으로 취급할 수 있을 것이라는 점을 발견했습니다.
응시자의 문화적 배경과 관련된 시험의 편향성이라는 일반적 문제를 다루기 위해 완전히 다른 형태를 만드는 것 외에도 다른 접근법이 가능할 수 있습니다. 예를 들어, De Boeck와 Cho(2021, p. 712)는 개인과 문항 효과를 고정 효과가 아닌 무선 효과로 취급하고, ‘문항 응답을 이해하는 데 도움이 된다면 문항의 하위 집합과 심지어 전체 시험에 걸쳐 DIF가 퍼지는 것을 허용하면서 변동을 설명하기 위해’ 설명 공변량을 사용하는 통계적 개념에 기반한 대안적 DIF 범주를 제시했습니다. De Boeck(2023)은 자극 자료에 대한 친숙도가 다양한 참가자들의 예를 사용했는데, 이러한 변동이 수행과 관련이 있었습니다(즉, 설명 공변량). 문화적 친숙도나 학습 기회와 같은 이러한 공변량이 조작적으로 정의된다면, 마찬가지로 문항 응답을 설명하는 데 도움이 되는 설명 공변량으로 사용될 수 있고, 문화적 친숙도나 학습 기회를 고려한 시험 채점의 기반으로 사용될 수 있을 것입니다.
5.9 결론: 운영 혁신
시험의 목적, 관리 조건과 제약사항에 대한 고려와 함께 문항 개발, 시험 구성, 보안, 품질 관리, 채점, 시험 평가를 포함하는 시험 운영은 시험 산업의 핵심입니다. 시험을 타당하고, 신뢰할 수 있으며, 공정하고, 응시자와 다른 이해관계자들에게 유용하게 만드는 것과 관련된 운영에는 많은 도전적인 문제들이 있습니다. 시험의 시작부터 그래왔듯이, 특히 LLM과 다른 AI 기술을 포함한 기술의 발전이 시험 운영에 극적인 영향을 미칠 것 같습니다. 우리는 시험이 어떻게 개발, 구성, 채점되는지, 어떻게 보안이 유지되는지, 그리고 모든 응시자가 시험의 가치를 인식하고 시험 점수를 기반으로 한 추론이 적절하고 정당하다고 확신할 수 있도록 공정성이 확보되는 방식과 관련하여 효율성과 품질에서 상당한 발전을 볼 것 같습니다.