1  요약

우리는 평가의 미래가 다음과 같은 변화를 수반할 것으로 생각합니다: 측정하게 될 능력에 대한 강조점의 변화, 이러한 능력을 측정하는 방식의 혁신, 시험 운영을 위한 첨단 기술의 활용, 그리고 평가 응시자들이 받게 될 정보의 가치와 종류의 확장입니다. 평가는 수세기 동안 우리와 함께 해왔으며, 앞으로도 계속될 것입니다. 왜냐하면 시험과 평가는 의사결정을 지원하는 데 있어 효율적이고 증거 기반적인 방식으로 가치를 제공하기 때문입니다. 평가는 응시자, 학부모, 교사, 교육 행정가, 고용주, 연구자, 정책입안자 등 다양한 이해관계자들에게 능력에 대한 유용한 정보를 제공합니다. 평가는 특히 그들의 성취나 잠재력이 인정받지 못했을 수 있는 사람들에게 기회를 제공합니다. 시험은 응시자들에게 자신의 현재 위치와 향상을 위해 무엇을 해야 하는지에 대한 피드백을 제공함으로써 더 큰 가치를 창출합니다.

1.1 미래를 위한 능력: 기술 발전의 영향

지난 세기 동안 평가 분야의 노력과 발전은 주로 교육과정 능력—수학, 읽기, 과학 등 전통적인 K-12 교육과정이 목표로 하는 능력—의 평가와 관련되어 왔습니다. 이러한 능력들은 계속해서 중요할 것이지만, 다른 종류의 능력—협력, 문제해결, 비판적 사고, 창의성, 호기심, 직업윤리—의 중요성에 대한 인식이 높아지고 있습니다. 이들은 지속가능한 능력으로, 모든 종류의 교육, 훈련, 직무 및 맥락에서의 일반화 가능성과 유용성을 나타내며, 동시에 평가의 어려움을 반영하는 측정하기 어려운 능력입니다. 기술과 AI의 발전은 어떤 능력이 가장 가치 있는지를 변화시킬 것입니다. 대학원생 이상 수준의 언어, 예술 창작, 코딩에 대한 AI의 능력은 평가에 있어 도전과 기회를 제시합니다. 도전 과제는 자기평가 등급이 앞으로 더욱 중요해질 능력에 대한 유용한 정보를 제공하는 과제에 충분하지 않다는 것입니다. 기회는 수학, 읽기, 과학을 오늘날 측정할 수 있는 것과 같은 수준의 정교함으로 측정하기 어려운 구인들을 평가할 수 있도록 새롭고 혁신적인 평가 방법을 개발할 수 있다는 것입니다.

1.2 혁신적 측정: 측정하기 어려운 능력 평가를 위한 새로운 접근

측정하기 어려운 능력을 측정하는 주된 방법은 등급척도 방식입니다. 하지만 우리는 자기보고식 방법을 개선할 수 있습니다. 타인 보고는 준거 편향과 같은 자기보고 편향에 덜 취약하지만, 후광효과와 같은 자체적인 한계가 있습니다. 강제선택형 측정도 자기보고 편향을 줄입니다. 상황판단검사는 많은 측정하기 어려운 능력에 적용할 수 있는 유연한 측정 방법입니다. 평가의 미래는 자기보고에서 이러한 다른 형태의 측정으로 이동할 것 같습니다. 더 중요한 변화는 게임과 실제 협상 세션이나 협력적 문제해결 과제와 같은 상호작용적 과제와 같은 수행기반 측정의 개발과 채택을 포함할 것입니다. 성격의 수행측정은 오랫동안 추구되어 온 목표였으며, 수행측정은 등급평정에 비해 상당한 장점이 있습니다: 평정 편향에 취약하지 않으며 행동에 대한 주관적 평가가 아닌 객관적 표본이 될 수 있습니다. 그러나 많은 중요한 구인에 대해 수행측정이 아직 잘 개발되지 않았습니다. 우리는 수행측정이 과정 분석과 데이터 마이닝을 포함하는 무검사 측정으로 보완될 것이라고 믿으며, 이는 사용자나 학생 또는 직원의 능력 수준에 대한 추론을 도출하는 데 사용될 수 있습니다. 사회정서학습부터 학업 수행과 STEM 직무 참여에 이르기까지 다양한 영역에서 좋은 사례들이 있습니다.

1.3 운영 혁신: AI와 기술 기반 발전

검사 운영은 검사의 목적과 행정적 조건 및 제약사항, 문항 개발, 검사 구성, 보안, 품질 관리, 채점, 검사 평가를 포함하며, 이는 검사 산업의 핵심입니다. 검사를 타당하고, 신뢰할 수 있으며, 공정하고, 응시자와 다른 이해관계자들에게 유용하게 만드는 것과 관련된 운영에는 많은 도전적인 문제들이 있습니다. 검사의 시작부터 기술이 그래왔듯이, 대규모 언어 모델(LLM)과 다른 AI 기술을 포함한 기술의 발전이 검사 운영에 극적인 영향을 미칠 것 같습니다. 우리는 검사가 개발, 구성, 채점되는 방식과 관련된 효율성과 품질의 상당한 발전을 보게 될 것이며, 이는 안전하게 만들어지고 공정하게 되어 모든 응시자들이 검사의 가치를 볼 수 있고 검사 점수를 기반으로 한 추론이 적절하고 정당화된다고 확신할 수 있게 될 것입니다.

1.4 피드백: 학습과학 기반 통찰과 응시자를 위한 실행 계획

평가와 검사는 흔히 제공되는 검사 점수와 규준 및 기준점을 넘어서 응시자들에게 유용한 정보를 제공할 수 있습니다. 형성평가와 검사 연습 모두 학습에 상당하고 긍정적인 효과를 제공합니다. 인간 교수는 가장 강력한 교육적 개입 중 하나로 밝혀졌습니다. 컴퓨터 기반 교수도 마찬가지로 강력한 개입입니다. 교수는 피드백과 안내된 프롬프트를 제공하고 상호작용과 건설적인 행동을 장려합니다. 교수는 학습자에 대한 인지진단을 수행하며, 검사도 마찬가지입니다. 인지진단모델링은 AI 발전을 활용하고 교수의 개별화를 통해 학습자들에게 유용한 도움을 제공합니다. 피드백은 개별화를 통해 학습을 향상시키는 강력한 수단입니다; 생성형 AI는 학습자와 학생들에게 유용한 피드백을 제공할 수 있으며, 이는 유망한 새로운 방향입니다. 피드백, 교수, 학습자 지도 수립에 있어 증거 기반 학습 원리의 사용은 평가의 가치를 크게 향상시킬 것입니다. 적절하게 설계되고 개별화된 피드백의 제공은 교육의 형평성 목표를 달성하고 모든 학습자의 학습과 수행을 촉진할 수 있습니다.

1.5 요약 및 결론

기술과 AI의 발전은 측정할 능력, 측정 방법, 응시자와 이해관계자들에게 결과를 보고하는 방식, 그리고 결과 수령자들이 그 결과로 할 수 있는 것에 이르기까지 평가의 모든 측면에 깊은 영향을 미칠 것입니다. 소프트 스킬, 지속가능한 능력, 복합적 능력의 핵심 집합이 미래에 점점 더 중요해질 것 같습니다. 생애주기에 걸쳐 나타나는 능력의 이러한 증가하는 역할과 함께, 능력 개발을 평가하고 인정하는 시스템이 자리잡게 될 것입니다. 비학위 자격증은 능력을 보여주는 가치 있는 방법이 될 것입니다; 이러한 자격증은 대학에서 나올 수 있지만 기업이나 표준화된 시험 또는 학습평가 기관에서 나오더라도 동등하게 가치 있는 것으로 취급될 것입니다. 능력 습득의 인증을 얻기 위해 평가에 의존하는 것은 이러한 인증에 대한 보안 문제의 중요성을 높일 것입니다. 우리는 미래에 점점 더 중요해질 것 같은 많은 능력에 대해 좋은 평가를 설계해야 할 것입니다. 평가에 대한 태도는 매우 긍정적입니다: 평가는 시험 사용자들이 새로운 능력을 습득하도록 동기를 부여하고 기회를 추구하고 경력을 발전시킬 준비가 되었다고 자신감을 느끼게 해주며, 이는 AI가 주도하는 직장의 변화와 함께 점점 더 중요해질 것입니다.

1.6 권고사항

우리는 몇 가지 권고사항을 제시합니다. 첫째, 능력의 변화하는 특성을 모니터링해야 합니다—노동시장에서 요구되는 능력은 교육 표준과 교육과정에 영향을 미치므로, 이러한 변화를 예측하는 것이 유용합니다. 둘째, 우리는 협력적이고 다중양식적 접근을 포함하여 더 풍부한 평가 방법과 새롭고 혁신적인 접근을 계속 추구해야 합니다. 셋째, 문항 개발, 개별화, 채점, 보안, 결과 보고와 같은 검사 운영의 다양한 측면은 기술과 AI의 급속한 발전에 영향을 받고 있으며, 그 속도가 늦춰질 것 같지 않으므로 우리는 이러한 변화에 신속히 대응해야 합니다. 마지막으로, 우리는 응시자들에게 그들이 어디에 있고 어떻게 향상될 수 있는지에 대한 통찰을 제공하기 위해 유용하고 실행 가능한 피드백을 계속 제공해야 합니다.

ETS 연구소는 네 가지 연구 분야를 통해 이러한 방향에 대응하고 있습니다. 이는 평가의 개별화; 혁신적이고 상호작용적인 디지털 평가 제작을 위한 설계 원칙 개발; 자동화된 콘텐츠 생성과 채점을 포함한 책임있고 윤리적인 AI 응용을 위한 표준 개발; 그리고 격차를 해소하는 차세대 교육 시스템의 개념화를 통한 정책과 실천에의 영향에 초점을 맞추고 있습니다. 여기서 개괄된 연구와 ETS 연구소의 연구 분야를 통해, 우리는 성취와 개발된 능력을 측정하는 전통적인 역할을 포기하지 않으면서도 인간의 학습을 더 잘 지원하도록 평가를 재목적화할 수 있는 위치에 있습니다.

이 비전의 달성을 가능하게 할 교육과 능력 평가의 발전을 촉진하기 위해, 우리는 상당한 연구 투자를 요청합니다. 전 세계 교육 지출은 연간 5조 달러 이상으로, 전 세계 GDP의 약 6%입니다. 하지만 그 투자의 작은 부분만이 인간의 학습을 지원하고 교육적 진보를 모니터링하는 데 필요한 평가와 관련되어 있습니다. 초점과 투자를 통한 평가의 발전은 평가가 인간의 학습을 더 잘 지원한다는 비전을 달성하는 데 더 가까이 다가가는 데 중심적 역할을 할 것입니다.