7 요약 및 결론
이 논문의 목적은 현재 평가 분야의 상태를 검토하고, 평가의 미래가 어떻게 될지에 대해 추측하는 것이었습니다. 우리는 검토를 바탕으로 유망한 평가 연구 방향을 고려했습니다. 평가의 미래는 주로 교육과 직업의 미래, 그리고 사회가 미래에 필요로 할 기술들에 관한 문제이며, 따라서 우리는 먼저 미래에 가장 중요한 기술이 무엇일지 고려했습니다. 미래 기술에 대한 우리의 분석은 트렌드 분석, 고용주 설문조사, 기술의 영향 분석, 전문가 의견, 그리고 17개 중상위 소득 국가의 17,000명 성인을 대상으로 한 ETS(2023a) 조사 결과를 바탕으로 했습니다. 그다음으로 우리는 이러한 기술을 측정하는 혁신적이고 유망한 접근 방식을 고려했으며, 특히 측정하기 어려운 기술을 측정하는 방법에 집중했습니다. 그 후, 우리는 시험 운영을 고려했으며, 이는 관리 측면에서부터 문항 개발, 개인화, 보안, 채점 및 평가까지 포함됩니다. 우리는 또한 AI와 기술이 이러한 운영을 어떻게 향상시킬 수 있는지에 대해 강조했습니다. 마지막으로, 우리는 학습 과학의 관점에서, 그리고 시험 응시자 및 기타 이해관계자들의 요구에 기반하여 시험 응시자에게 제공되는 피드백에 대해 고려했습니다.
우리는 연구 결과를 바탕으로 여러 가지 중요한 결론을 도출했습니다. 첫째, 특히 AI를 중심으로 한 기술의 발전은 평가의 모든 측면에 깊은 영향을 미칠 것이며, 우리는 그 영향을 지금 막 이해하기 시작했다고 할 수 있습니다. 이러한 변화는 측정할 기술이 무엇일지부터, 그것들을 어떻게 측정할 것인지, 시험 결과를 응시자와 이해관계자에게 어떻게 보고할 것인지, 그리고 결과를 받은 사람들이 그 결과를 어떻게 활용할 것인지까지 모두 포함됩니다.
두 번째로, 소프트 스킬, 지속 가능한 스킬, 복잡한 스킬의 핵심적인 세트가 미래에 점점 더 중요해질 가능성이 큽니다. 특히 교육 성취도와 직장 기술의 평가 역사에서, 그동안 주로 커리큘럼과 기술적 스킬에 초점이 맞춰졌습니다. 이러한 기술들의 평가는 계속 중요할 것이며, 특히 이러한 기술들의 변화와 성장에 대한 평가가 중요합니다. 하지만 소프트 스킬이 학교, 직장, 그리고 삶에서 성공을 위해 기술적 스킬만큼, 아니 더 중요할 수 있다는 새로운 인식이 생겼습니다. 사회적 스킬—팀워크, 협업, 커뮤니케이션—은 직업 트렌드에 따라 점점 더 중요해질 것입니다. 적응력은 AI와 기술 변화가 직장 내 업무 요구를 바꾸어 가는 상황에서 더욱 중요해질 것입니다. 이는 평생 지속적인 학습의 중요성을 부각시키며, 재정적 안정뿐만 아니라 개인의 만족과 웰빙에도 영향을 미칩니다. 창의력과 비판적 사고는 점점 더 중요해질 것입니다. 왜냐하면 이는 인간이 컴퓨터보다 우위에 있는 기술들로, 이는 일정 기간 동안 계속 유지될 가능성이 높으며, AI에 의해 대체되기보다는 보강될 것입니다.
이처럼 기술의 중요성이 증가함에 따라, 기술 개발을 평가하고 인정하는 시스템이 마련될 것입니다. 전 세계의 많은 응답자들이 비학위 자격증이 기술을 보여주는 중요한 방법이 될 것이며, 미래에는 특정 기술을 증명하는 그런 자격증이 대학 학위보다 더 중요해질 것이라고 믿고 있습니다. 이러한 자격증은 대학에서 발행될 수도 있지만, 회사나 표준화된 시험 또는 학습 평가 기관에서 발행되는 경우에도 동등하게 가치 있게 여겨질 것입니다. 기술 습득을 인증하는 마이크로 자격증 및 기타 인증을 얻기 위해 평가에 의존하게 되면, 이러한 인증의 보안 문제가 더욱 중요해질 것입니다.
네 번째 결론은 미래에 점점 더 중요해질 기술들에 대해 현재 우리가 가진 평가 방법들이 충분하지 않다는 것입니다. 많은 기술에 대한 평가 도구의 품질에 대해 회의적인 시각이 존재하는데, 이는 종종 인상이나 자기 보고서, 기타 주관적인 방법들에 의존하기 때문입니다. 이는 현재 측정하기 어려운 기술들에 대한 엄격하고 심리측정적으로 신뢰할 수 있는 평가 도구를 개발할 수 있는 거대한 기회를 제공합니다.
마지막으로, 평가에 대한 태도는 매우 긍정적입니다. 평가가 시험 응시자에게 새로운 기술을 습득하도록 동기를 부여하고, 기회를 추구하고 경력을 발전시키는 데 있어 자신감과 준비성을 느끼게 해 준다고 여겨집니다. 이는 AI 기반 변화가 직장에 미치는 영향으로 점점 더 중요해질 것입니다. 많은 사람들은 평가가 자존감을 높이고 경력 만족도를 증진시키며, 다양한 배경을 가진 사람들이 기회를 공평하게 제공받도록 기술 격차를 해소하는 역할을 한다고 보고 있습니다. 평가가 중요한 역할을 하려면, 응시자가 평가를 통해 자신에 대한 피드백과 통찰을 얻을 수 있는 방식에 달려 있습니다. 시험 응시자에게 개인화된, 유용하고 실행 가능한 피드백을 제공하는 것은 미래 평가의 중요한 목표이며 실현 가능한 목표입니다.
7.1 한계
평가의 미래를 예측하는 데에는 한계가 있습니다. 이는 일반적으로 미래를 예측하는 데 한계가 있다는 점과 같습니다. 사람들은 미래를 예측하는 데 그다지 정확하지 않습니다 (Grossmann et al., 2023; Rees, 2021). 그러나 평가의 일부를 설계하는 데 부분적인 책임이 있는 조직으로서, ETS는 단순히 미래를 예측하는 사람들보다 장점이 있을 수 있습니다. Grossmann et al. (2023)은 더 나은 예측자는 “예측 분야에 대한 과학적 전문성이 있고, 학제 간 접근을 하며, 더 간단한 모델을 사용하고, 이전 데이터를 바탕으로 예측을 한다”고 제안했습니다. 보고서 작성 팀과 검토자들은 다양한 관점에서 평가 전문성을 갖추고 있으며, 우리는 ETS 인간 발전 연구(ETS, 2023a)에 참여한 인터뷰 대상자의 전문성에 의존했습니다. ETS 인간 발전 연구의 외부 전문가들과 보고서 작성 팀을 통해 우리는 학제 간 관점에서 작업을 접근했고, 폭넓은 문헌을 검토하면서 이전 데이터를 바탕으로 했습니다. Rees (2021)은 개별 편향을 극복하기 위해 군중 소싱 전략을 제안했으며, 우리는 17개국에서 다양한 배경을 가진 17,000명 이상의 응답자 데이터를 제공하는 ETS 인간 발전 연구가 그 역할을 한다고 주장할 수 있습니다. 그럼에도 불구하고 우리는 체계적인 예측 방법론을 사용하지 않았으며, 따라서 평가의 미래에 대한 우리의 예측은 신중하게 해석되어야 합니다.
또 다른 한계점은 우리가 모든 평가 분야에 균등한 관심을 기울이지 않았다는 점입니다. 대신 기술, AI, 학습 과학 발전, 그리고 평가를 응시자에게 더 유용하게 만들 수 있는 기회와 같은 가능성과 현재 상태 간의 격차로 인해 가장 큰 변화를 겪을 분야에 집중했습니다. “미래의 기술” 섹션에서 우리는 기술-driven 변화로 인해 중요성이 커질 것으로 예상되는 기술에 초점을 맞추었습니다. National Research Council (2012)에서 다룬 기초적인 읽기, 수학, 기타 교과목의 숙달과 적용을 촉진하는 기술과 지식은 여전히 중요하게 유지될 것입니다. 우리가 다룬 새로운 측정 방법, 운영, 피드백에 관한 주제는 기초 문해력 및 기타 교과목뿐만 아니라 두 번째 섹션의 핵심이었던 새로운 내구성 있는 기술에도 적용됩니다. 그러나 우리는 K-12 평가에서 중요한 두 가지 분야인 교실 내 평가와 책임에 대해서는 집중하지 않았습니다. 이 보고서에서 다룬 기술과 전통적인 학문적 기술 및 읽기, 수학, 과학과 같은 내용 간의 관계를 더 깊이 탐구하고, 교실 내 평가와 책임에 중점을 두는 동반 보고서가 있을 수 있음을 상상할 수 있습니다. 이러한 보고서는 아마도 국제적으로 확장될 수 있습니다.
7.2 미래 방향
우리는 이 논문의 주요 섹션과 일치하는 몇 가지 주요 연구 문제와 방향을 제안하고자 합니다. 첫째, 기술의 변화가 요구하는 기술을 모니터링하는 것이 중요합니다. 노동 시장에서 요구되는 기술은 교육 기준과 교육 과정에 영향을 미치기 때문에 이러한 변화를 예측하는 것이 유용합니다. 둘째, 평가 내 학습 특성화 및 협력적이고 다중 모드 접근을 포함한 새로운 혁신적 접근 방식을 탐구하는 풍부한 평가 방법이 연구의 주목을 받을 가능성이 높습니다. OECD(2022a)의 복합 기술에 대한 혁신적 평가 고려 사항은 추구할 가치가 있는 제안으로 보입니다. 셋째, 시험 운영의 여러 측면—문항 개발, 개인화, 채점, 보안, 보고—은 이미 기술과 AI의 빠른 발전에 영향을 받고 있으며, 이러한 운영의 변화 속도는 느려지지 않을 것입니다. 마지막으로, 지난 10년 동안 발표된 수많은 평가 미래에 관한 논문에서 시험 응시자에게 유용하고 실행 가능한 피드백을 제공하여 그들이 어디에 있는지, 어떻게 개선할 수 있는지를 통찰할 수 있게 해 주는 방법에 대한 진전을 예고하거나 요청한 바 있습니다. 우리는 이러한 요청을 지지합니다.
ETS 연구소는 네 가지 연구 분야를 통해 이러한 방향에 대응하고 있습니다. 이 연구들은 평가 개인화, 혁신적이고 상호작용적인 디지털 평가 창출을 위한 설계 원칙 수립, 자동화된 콘텐츠 생성 및 채점을 포함한 책임감 있고 윤리적인 AI 응용 프로그램의 표준 개발, 그리고 불평등을 해소하는 차세대 교육 시스템을 구상하여 정책과 실천에 영향을 미치는 것에 중점을 둡니다. 이곳에서 설명한 연구와 ETS 연구소의 연구 분야를 통해 우리는 전통적인 성취 및 능력 측정의 역할을 유지하면서도 인간 학습에 더 나은 서비스를 제공할 수 있도록 평가를 재구성할 수 있는 위치에 있을 것입니다. 이는 2013년 Gordon 위원회에서 발표한 ’미래 교육 평가’에 대한 논문 모음에서 제시된 평가의 비전에 한 걸음 더 가까워질 것입니다.
마지막으로, 이러한 비전을 실현할 수 있는 교육 및 기술 평가의 발전을 촉진하기 위해, 우리는 상당한 연구 투자가 필요하다고 주장합니다. 전 세계 교육 지출은 매년 5조 달러 이상으로, 이는 전 세계 국내총생산(GDP)의 약 6%에 해당합니다 (World Economic Forum, 2022). 그러나 그 중에서 평가와 관련된 부분은 매우 적으며, 이는 인간 학습을 지원하고 교육의 진전을 모니터링하는 데 필요합니다. World Economic Forum(2021)의 ‘직장에서 필요한 기술의 글로벌 분류’는 기술 기반 노동 시장에 대한 비전을 제시합니다. 동반 보고서인 World Economic Forum(2023)의 ’Education 4.0’ 프레임워크는 글로벌 시민성, 혁신과 창의성, 기술 능력, 대인 관계 능력 등의 내용을 기술로 제시하며, 이는 다음 세대가 미래의 직장과 사회를 준비하는 데 중요하다고 강조합니다. 이 세 가지 기술은 본 보고서의 ‘미래의 기술’ 섹션에서 현재와 미래의 노동 시장 수요 분석을 바탕으로 확인한 기술들과 잘 일치합니다. Education 4.0은 또한 개인화되고 자기 주도적인, 접근 가능하고 포용적인, 문제 기반의 협력적인, 평생 학습을 강조하는 학습 경험의 중요한 발전을 제시하는데, 이는 본 보고서에서 제시한 주제와 잘 일치합니다. 평가의 발전은 집중과 투자를 통해 달성할 수 있으며, 이는 Gordon 위원회(2013)와 World Economic Forum(2021, 2023)의 보고서에서 제시된 비전을 실현하는 데 중요한 역할을 할 것입니다.
8 감사의 말
Kadriye Ercikan, Ida Lawrence, Michelle Froah, Sarah Rhame, Christine Betaneli, Kateryna Komarova, Charlotte Kirkby, Matthew Johnson이 이 보고서에 기여했습니다.
8.1 주석
1 ETS 인간 진보 연구(ETS Human Progress Study, ETS, 2023a)는 미래에 대한 9명의 세계적 사상 지도자들과의 심층 인터뷰와 해리스 여론조사(Harris Poll)와 협력하여 실시한 설문조사로 구성되어 있습니다. 이 설문조사는 2023년 9월 18일부터 27일까지 17개 고소득 및 중소득 국가(국가당 최소 1,000명)의 18세 이상 17,143명의 응답자를 대상으로 평가의 미래 및 기타 사회 문제와 사회적 결과와 관련된 다양한 주제에 대한 그들의 견해에 대해 실시되었습니다. 우리는 이 논문 전반에 걸쳐 사상 지도자들을 인용하고 연구의 설문조사 결과를 제시합니다. 데이터는 전체 인구의 대표성을 보장하기 위해 가중치가 부여되었습니다. 그러나 데이터는 전체 국가 인구로 일반화되지 않을 수 있으며, 결과는 인구의 의견이 아닌 다양한 표본의 의견으로 보아야 합니다. 국가는 세계은행 정의에 따라 고소득 또는 중소득 국가로 언급되었습니다.
2 타당도는 일반적으로 검사 및 심리학 내외의 다른 맥락에서 관련되지만 다른 해석을 가지고 있습니다. 어떤 관점에서는 타당도는 해석이 아니라 측정 도구의 속성입니다(Hood, 1998 참조). 교육 및 심리 측정 내에서의 다양한 관점은 Lissitz(2009)를 참조하십시오.
3 고부담(high-stakes)과 저부담(low-stakes)은 또한 연속체로 이해될 수 있습니다. 의사 결정에서 거의 비중을 차지하지 않는 고부담 시험은 유일한 결정 요인으로 작용하는 고부담 시험과 같지 않습니다. 그리고 보다 일반적으로, 정의에 따른 “중요한” 그리고 “직접적인” 결과는 각각 높음에서 사소함까지, 직접에서 간접까지 연속적으로 다양할 수 있습니다. Tannenbaum과 Kane(2019)은 추가적인 고려사항을 제시했습니다.
4 시험 공정성 문제는 International Test Commission(2001, 2013, 2017), International Test Commission and Association of Test Publishers(2022), Society for Industrial and Organizational Psychology(2018)에서도 고려됩니다.
5 무시험 평가(즉, 자연 발생적인 행동을 측정하는 평가)는 매우 관심이 집중되는 주제가 되었습니다. 2024년 유럽연합 AI법(https://data.consilium.europa.eu/doc/document/ST-5662-2024-INIT/en/pdf)은 “직장 및 교육 기관 분야에서 AI 시스템을 사용하여 자연인의 감정을 추론하는 것”을 금지하며(108쪽), 안전 및 의료 예외를 두고 있으며, “공공 또는 민간 주체가 자연인의 사회적 점수를 매기는 데 AI 시스템을 사용하면 차별적인 결과와 특정 집단의 배제로 이어질 수 있다”고 경고합니다(26쪽).
6 이 기사의 범위를 벗어나지만, 기술의 지리학(Moro et al., 2021)과 같은 미래 기술 우선순위를 결정하는 데 있어 중요한 추가 고려사항이 있습니다.
7 자세한 내용은 주석 6을 참조하십시오.
8 여기서 우리는 통계학에서의 기술 용어가 아닌 편향이라는 용어의 원래 의미를 사용합니다.
9 자동 에세이 채점 문헌에서 정확도 또는 정확히 일치하는 정도는 일반적으로 두 평가자 간 또는 기계와 인간 점수 간의 정확한 일치로 측정됩니다. 정확도는 또한 카파(kappa), (선형) 가중 카파(weighted kappa) (Cohen, 1968), 이차 가중 카파(quadratic weighted kappa) (선형 패널티를 넘어 불일치에 패널티를 부과함) 측정에서와 같이 무작위 기회의 기준선으로 정규화될 수 있습니다. 일반적인 접근 방식은 인간-인간 점수 일치도의 저하를 고려하는 것입니다. 이러한 측정을 사용하여 Williamson 등(2012)은 많은 유형의 에세이에 대해 인간 간 합의로부터 최소한의 저하만 있었다고 보고했으며, 실제로 “자동화된 인간 간 합의가 인간-인간 합의보다 높은 것을 관찰하는 것은 비교적 일반적”이라고 했습니다(8쪽). 트랜스포머 기반 접근법을 사용한 최근 연구(Ormerod et al., 2021)에서는 인간 수준 이상의 성능을 보고했습니다.
10 이 기사에서는 효과 크기에 대해 언급하는데, 이는 결과에 대한 조작(또는 관계)의 강도를 나타내는 지표입니다. Cohen(1992)이 제안한 고전적인 경험 법칙에 따르면 작은, 중간, 큰 효과 크기는 각각 .20, .50, .80보다 큰 효과 크기 값에 해당합니다.
11 VanLehn(2011)은 Bloom(1984)의 종료 조건(다음 수업으로 넘어가는 데 필요한 숙달 수준)이 다양했다고 주장했으며, 따라서 Bloom은 실제로 숙달의 효과에 대한 증거를 제시했습니다.