2 평가의 미래 방향 설정
2.1 평가의 가치와 효용
이 논문의 첫 번째 부분에서는 평가(시험과 같은 것)의 중요성을 보여주는 증거를 살펴보고, 기술(skill)이 점점 더 중요한 가치가 되는 시대에 평가의 역할이 어떻게 변화할 수 있는지에 대해 이야기합니다. 평가의 다양한 목적—입시나 채용 시험 같은 중요한 평가부터 학습을 돕는 작은 시험까지—를 논의하고, 평가에 대한 인식 문제, 평가의 초점, 공정성과 신뢰성 등의 도전 과제도 살펴봅니다. 마지막으로, 평가가 미래에 어떻게 발전할 수 있을지 이야기하며, 학생들에게 유용한 정보를 제공하는 것, 중요한 기술을 찾고 측정하기 어려운 능력을 평가하는 방법을 발전시키는 것, 그리고 개별적인 피드백(맞춤형 조언)을 제공하는 것의 중요성을 강조합니다. 이후의 논문에서는 이러한 주제를 더 깊이 다룰 것입니다. 이 논문은 교육과 직업 분야에서 평가를 연구하는 학자들뿐만 아니라, 정책을 만드는 사람들과 재정을 지원하는 기관을 위한 것입니다. 우리는 전문적인 내용을 다루면서도 다양한 사람들이 이해할 수 있도록 쉽게 설명하려고 노력했습니다.
평가는 수세기 동안 우리와 함께 해왔으며 앞으로도 그럴 것입니다. 표준화 검사는 기원전 3세기까지 거슬러 올라가는데(Wainer, 1987), 당시 중국의 지원자들은 중국 황제의 보좌관이 되기 위해 음악, 궁술, 산술 및 기타 과목의 시험에 합격해야 했습니다(Himelfarb, 2019). 나폴레옹은 재능을 찾고 족벌주의를 피하기 위해 검사와 시험을 채택하여 다양한 분야에 걸쳐 공과대학으로 이어지는 에콜 폴리테크닉을 설립함으로써 고등교육에 혁명을 일으켰습니다(Bradley, 1975). ETS는 초대 회장 Henry Chauncey가 언급했듯이, “명문학교” 출신만이 아닌 “잘 알려지지 않은 고등학교의 자격 있는 사람들”을 찾기 위해 설립되었습니다(Lewin, 2002). 오늘날, 학교들은 계속해서 시험과 평가를 사용하지만, 다른 분야에서도 사용됩니다. 기업들은 채용, 리더십 개발, 기술 능력 인증에 평가를 사용합니다. 정부와 전문가 협회는 특히 경제의 핵심 부분에서 능력의 면허와 인증의 필요성을 인식하여 평가를 사용합니다. U.S. Congress, Office of Technology Assessment(1992)에서 설명된 것처럼, 역사를 통해, 그리고 전 세계적으로—중국, 러시아, 프랑스—평가는 다양한 목적으로 사용되어 왔으며, 이는 본 논문의 중요한 주제입니다.
검사와 평가가 지속된 이유는 의사결정을 지원하는 데 있어 효율적이고 증거 기반적인 방식으로 가치를 제공하기 때문입니다. 검사와 평가는 응시자, 학부모, 교사, 교육 행정가, 고용주, 연구자, 정책입안자와 같은 다양한 이해관계자들에게 수험자의 능력에 대한 유용한 정보를 제공합니다(Brookhart et al., 2020). 검사가 없는 세상은 대신 현재 평가 데이터에 의존하는 결정들을 위해 구시대적인 네트워크에 의존할 수 있습니다. 다른 방법들은 문제가 있습니다. 미국과 세계의 많은 지역에서 성적은 특히 비STEM 분야에서 점점 더 인플레이션되어 지원자들에 대한 정보를 덜 제공합니다(Ahn et al., 2019). 비학문적 자격증(예: 이력서; Kessler et al., 2019)은 조작 가능하고, 불공정하며, 특권층에게 유리합니다(Chetty et al., 2023). 면접은 성별, 인종/민족, 외모 편향이 개입될 수 있게 합니다(Chamorro-Premuzic, 2021). ChatGPT와 같은 생성형 AI 제품은 지원자의 지식, 기술, 능력, 경험의 지표로서 대학 에세이, 이력서 및 기타 서면 평가 형태의 타당도를 위협합니다. 전 세계적으로 이동성이 증가하고 극심한 인재 부족 현상이 있는 상황에서, 평가는 능력과 지식을 검증하는 효율적이고 경제적인 방법을 제공합니다—한 국가의 간호사가 다른 국가에서 자격 있는 역량의 증거를 제시할 수 있습니다. 평가의 역사를 통해 형평성과 효율성 속성 사이에 지속적인 긴장이 있어왔으며, 이는 본 논문 전체에서 다시 다루는 주제입니다.
평가는 특히 그들의 성취나 잠재력이 인정받지 못했을 수 있는 사람들에게 기회를 제공합니다(Schmill, 2022). 검사는 응시자들에게 그들의 현재 위치와 향상을 위해 다음에 무엇을 해야 하는지에 대한 피드백을 제공함으로써 더 큰 가치를 제공합니다(Wisniewski et al., 2020).
2.2 기술(역량): 미래의 새로운 화폐
경제협력개발기구(OECD)의 교육 및 기술 담당 이사이자 교육 정책 특별 고문인 안드레아스 슐라이허(Andreas Schleicher)는 “기술이 점점 화폐와 같은 역할을 하게 될 것”이라고 주장했습니다(ETS, 2023a).
ETS의 Human Progress Study 설문조사에서는 미래의 평가 방식에 대한 여러 질문이 포함되었습니다. 표 1에 따르면, 많은 응답자가 대학 학위보다 특정 기술을 증명하는 것이 더 중요해질 것이며, 마이크로크리덴셜(소규모 인증)이 이러한 기술을 증명하는 수단이 될 것이라고 동의했습니다. 또한, 이 조사에서 중소득 국가와 젊은 세대의 응답자들이 특히 이러한 변화에 강하게 공감하는 것으로 나타났습니다.
또한 표 2에서는 대학뿐만 아니라 기업 교육 및 시험 기관을 포함한 다양한 인증 기관이 발급하는 자격증이 대체로 비슷한 가치를 가지게 될 것이라는 응답이 많았습니다.
이처럼 기술과 그 인증에 대한 관심은 미래의 평가 방식에 영향을 미칠 중요한 요소와도 연결됩니다. 그것은 바로 평생 학습의 중요성이 점점 커지고 있다는 점입니다. OECD(2021)는 평생 학습을 “인생 전반에 걸쳐 이루어지는 모든 형태의 기술 개발과 지식 습득”이라고 정의했습니다. 표 3에 따르면, 응답자들은 지속적인 학습이 이제는 필수적이며, 단순히 경제적 안정뿐만 아니라 삶의 만족과 행복을 위해서도 필요하다고 생각하고 있습니다. 기업들도 직원들의 생산성을 높이기 위해 지속적인 직무 교육에 투자할 것이며, 이것 역시 평생 학습의 일부로 볼 수 있습니다.
예측 | 동의 + 매우 동의 | 매우 동의 |
---|---|---|
미래에는 특정 능력의 증명이 대학 학위보다 더 중요해질 것이다. | 78% | 32% |
미래에는 마이크로 자격증(단기, 집중 인증)이 능력을 보여주는 가치 있는 방법이 될 것이다. | 81% | 27% |
주: 데이터는 ETS 인간 진보 연구(ETS, 2023a)에서 가져왔음. 설문 문항: “다음 진술에 얼마나 동의하거나 동의하지 않습니까? (매우 동의하지 않음/다소 동의하지 않음/다소 동의/매우 동의)”
인증 출처 | 다소 또는 매우 가치있음 |
---|---|
대학교 | 83% |
기업 또는 기업 교육 프로그램 | 82% |
산업별 인증 기관 | 82% |
기술 기업 | 81% |
공식 표준화 시험 또는 학습 평가 기관 | 80% |
신뢰할 수 있는 온라인 학습 플랫폼 | 80% |
산업 협회 | 79% |
정부 | 77% |
비영리 기관 | 71% |
주: 데이터는 ETS 인간 진보 연구(ETS, 2023a)에서 가져왔음. 설문 문항: “다음 각각으로부터 자격증이나 인증을 받는 것이 얼마나 가치 있을 것 같습니까? (10점 척도: 1 = 전혀 가치 없음, 10 = 매우 가치 있음)”
진술 | 동의 |
---|---|
지속적 학습은 삶을 더 충만하게 만든다. | 87% |
지속적 학습은 웰빙에 필수적이다. | 86% |
지속적 학습은 오늘날 세계에서 재정적 안정을 위해 필요하다. | 86% |
빠르게 변화하는 세상에서 지속적 학습은 이제 규범이다. | 86% |
지속적 학습은 과거 어느 때보다 지금 더 중요하다. | 85% |
주: 데이터는 ETS 인간 진보 연구(ETS, 2023a)에서 가져왔음. 설문 문항: “다음 진술에 얼마나 동의하거나 동의하지 않습니까? ’지속적 학습’이란 전통적인 학교 교육 환경 이외에서 이루어지는 학습으로, 나중의 삶에서도 지속되는 것을 의미합니다. 여기에는 직업이나 여가를 위한 새로운 기술 학습, 특정 주제에 대한 지식이나 교육 확장 등이 포함될 수 있습니다. (매우 동의하지 않음/다소 동의하지 않음/다소 동의/매우 동의)”
주: 데이터는 ETS 인간 진보 연구(ETS, 2023a)에서 가져왔음. 설문 문항: ‘다음 중 학습 평가를 받고 싶은 이유는 무엇입니까? 해당하는 것을 모두 선택하세요.’
2.3 평가의 다양한 목적
평가는 여러 상황에서 다양한 이유로 사용됩니다. 그림 1은 ETS의 Human Progress Study(ETS, 2023a)에서 응답자들이 학교 입학이나 취업 선발과 같은 필수적인 이유 외에 시험을 치르는 다양한 이유를 선택한 비율을 보여줍니다. 이러한 이유는 지속적인 기술 향상, 현재 기술 수준 및 강점 파악, 새로운 분야에서의 잠재력 발견 등으로 다양합니다.
평가의 가치를 고려할 때, 그 의도된 사용 목적을 신중하게 생각하는 것이 중요합니다. 이 원칙은 교육 및 심리 평가 표준(AERA et al., 2014)에 명시되어 있으며, 여기서는 타당성을 “시험 점수의 해석이 제안된 사용 목적에 대해 증거와 이론으로 뒷받침되는 정도”로 정의하며, 타당성이 시험 개발 및 평가에서 가장 근본적인 고려 사항이라고 주장합니다(p. 11; 강조는 우리 것).
중요한 구분은 고부담(high-stakes) 평가와 저부담(low-stakes) 평가의 사용입니다. 이는 그림 2에 정의되어 있으며, National Research Council (1999a)에서 논의되었습니다.
주: 정의는 AERA et al.(2014, pp. 219, 221)에서 인용.
교육 | 고용 | 심리 | 프로그램 평가 |
---|---|---|---|
입학 | 채용 전: | 심리상태 진단 | 효과성 결정 및 실행 |
• 능력 평가 | |||
• “무형적 요소” 평가 | |||
• 직무 미리보기 제공 | |||
• 지원자 모집 | |||
형성평가 | 승진 | 인지능력 평가 | 형성적 평가 |
학생 학습 평가 | 업무수행 평가 | 행동과 기능에 대한 통찰 | 비교 평가 |
성적 부여 | 법적 방어 가능성 제공 | 가치, 관심사 결정 | 프로그램 개선 |
미래 수행 예측 | 처치 계획 준비 | ||
진단(강점, 약점) | |||
대학 학점 | |||
우수상 수여 | |||
학교/지역/국가 모니터링 | |||
장학금, 인턴십 수여 |
이러한 이분법적 구분은 유용하지만, Tannenbaum과 Kane(2019)은 Geisinger(2011)을 따라 평가의 부담은 시험 사용과 관련된 결과에 따라 달라지며, 결과의 종류와 심각도가 다를 수 있다고 제안했습니다. 그들은 면허 시험, 취업 시험, K–12 책임성 평가와 같은 시험 적용에서 긍정적 결과와 부정적 결과, 영향, 가능성, 그리고 결과의 가역성 등 네 가지 기준을 고려할 수 있다고 주장했습니다. 예를 들어, 의사 면허 시험에서는 불합격한 지원자에게 부정적 결과가 있으며, 이는 그들이 의료 행위를 할 수 없게 되어 중요한 영향을 미칩니다. 반면, 잘못된 합격 점수는 자격이 없는 전문가를 대중에게 노출시킬 수 있습니다. 중요한 결과의 가능성은 합격 점수 근처의 응시자와 대중에게 높아지며, 결과의 지속 기간은 재시험이 허용되기까지의 시간으로, 이는 몇 달이 될 수 있습니다. 취업 선발에서는 중요성과 가능성 면에서 유사한 결과가 있을 수 있지만, 지속 기간은 덜 중요합니다. 왜냐하면 지원자는 다른 직위를 찾을 수 있기 때문입니다. 그러나 지속 기간의 또 다른 측면은 정직성 검사에서 낮은 점수를 받은 경우와 같이 시험에서 받은 피드백이 자존감에 더 오래 지속적인 영향을 미칠 수 있으며, 특히 인지된 결함을 극복하는 방법에 대한 지도가 제공되지 않을 때 그렇습니다. Tannenbaum과 Kane (2019)은 고부담 대 저부담의 이분법을 세분화한 “결과 프로필”을 제안했습니다.
타당성에 대한 위협은 평가가 고부담 또는 저부담 목적을 수행하는지, 또는 일반적으로 평가의 결과에 따라 다릅니다. 한 가지 예로, 고부담 평가에서는 부정행위가 종종 주요한 타당성 위협이 됩니다. 정의에서 언급했듯이, 평가와 관련된 부담은 반드시 시험을 치르는 사람에게만 해당되는 것이 아니라, 평가 결과에 관심이 있는 다른 사람들에게도 영향을 미칠 수 있습니다. 누가 부정행위를 할 가능성이 가장 높은지는 누가 가장 큰 이해관계를 가지고 있는지—시험 응시자, 교사, 채용 담당자, 프로그램 옹호자, 정책 결정자 등—와 관련이 있습니다. 저부담 평가에서는 동기 부여의 부족이 주요한 타당성 위협입니다(Wise & DeMars, 2005). 만약 시험 응시자가 인센티브 부족이나 다른 이유로 최적의 노력을 기울이지 않는다면, 그 시험 점수를 최적의 노력 하에서와 동일하게 해석하기는 어렵습니다. 따라서, 평가의 다양한 목적을 고려할 때 부담의 정도는 중요합니다(표 4를 참조). 고부담–저부담의 구분은 근본적으로 중요하지만 종종 간과됩니다.
2.3.1 고부담 평가의 활용
고부담 시험은 전 세계 교육 기관의 입학 여부를 결정하는 데 사용됩니다. 예를 들어, 미국의 사립 중·고등학교 입학 시험인 Secondary School Admissions Test (SSAT), 미국 대학원 입학을 위한 ETS의 GRE®, 브라질의 고등학교 졸업 인증 및 대학교 입학 시험인 Exame Nacional do Ensino Médio (ENEM), 매년 1,000만 명 이상이 응시하는 중국의 National College Entrance Examination (Gaokao), 일본 대학 입학을 위한 National Center Test, 인도의 공과대학 학부 입학 시험인 Joint Entrance Exam (JEE) 및 의대 입학 시험인 National Eligibility cum Entrance Test (NEET), 스웨덴의 Scholastic Aptitude Test (SweSAT), 호주의 Skills for Tertiary Admissions Test (STAT) 등이 있습니다. 또한, 고부담 시험은 성적 우수 장학금 지급 (예: 미국 대학 입학 시 ACT 및 SAT 성적 기반 장학금), 자격증 및 면허 시험 (예: ETS의 PRAXIS® 교사 자격 시험, 일본의 Society of Perinatal and Neonatal Medicine [JSPNM] 및 Software Testing Qualifications Board [JSTQB], 영국의 간호·조산사 면허 시험인 Objective Structured Clinical Examination [OSCE]), 채용 및 인재 선발 (예: SHL Direct, DISC Assessments, Birkman method, Predictive Index), 군사 인력 선발 및 분류 (예: 미국의 Armed Services Vocational Aptitude Battery [ASVAB], 영국 육군의 British Army Recruit Battery [BARB]) 등의 목적으로도 사용됩니다. 이 외에도, 이력서와 취업 지원서에서 경쟁력을 높이기 위해 취득하는 자격증 및 평가 기관에서 부여하는 인증(그림 1 참고)도 고부담 시험의 예시입니다. 학생들의 성적을 결정하거나 합격 여부를 판단하는 교내 시험도 고부담 시험이 될 수 있습니다. 또한, 교사나 학교에도 중요한 영향을 미칠 수 있어, 시험 대비 교육(teaching to the test)을 조장하는 요인이 될 수도 있습니다. 또한, 대학 배치 시험(placement tests)도 고부담 시험이 될 가능성이 있습니다. 2년제 또는 4년제 대학의 신입생을 대상으로 영어 및 수학 실력을 평가하는 이 시험은 학생이 대학 수업을 바로 수강할 수 있는지, 아니면 기초 과정(remedial courses)을 먼저 이수해야 하는지를 결정하는 데 사용됩니다. 다만, 일부 대학에서는 학생이 점수와 상관없이 대학 수준의 수업을 선택할 수 있기 때문에, 모든 경우에 고부담 시험이 되는 것은 아닙니다 (Bailey et al., 2010). Advanced Placement® (AP®) 시험도 마찬가지로, 성적이 좋으면 대학 학점을 인정받을 수 있다는 점에서 고부담 시험으로 간주될 수 있습니다.
한 가지 중요한 점은, 동일한 시험이 이해관계자에 따라 고부담일 수도 있고 저부담일 수도 있다는 것입니다. 예를 들어, 국가 교육 평가 시험(state accountability tests)은 학교나 교육구의 입장에서는 고부담 시험이지만, 학생 개개인에게는 저부담 시험일 수 있습니다. 이에 대한 추가적인 논의는 Tannenbaum과 Kane (2019)이 제공한 바 있습니다.
고부담 시험은 Goodhart (1984)의 법칙에 취약할 수 있습니다. Goodhart의 법칙은 특정 지표가 목표가 되는 순간, 더 이상 유효한 측정 도구로 기능하지 못한다는 원리를 말합니다. 즉, 시험의 중요성이 지나치게 강조되면, 그 시험이 본래 의도했던 평가 도구로서의 기능을 상실할 위험이 있습니다. 예를 들어, 점수 경쟁이 심화되면서 시험이 부정행위, 과도한 시험 대비 교육, 또는 시험 자체의 왜곡된 활용을 초래할 수 있습니다. 이러한 위험을 완화하기 위한 전략 중 하나는 과도한 신뢰(overconfidence)에 대한 경계입니다. 측정 과학(measurement science)은 발전을 거듭하고 있지만, 본질적으로 가정에 기반한 추정치를 생성하는 분야이므로, 시험 점수를 해석하는 대체 방식이 항상 존재할 수 있습니다 (National Research Council, 2001). 따라서, 고부담 시험의 활용과 해석에는 신중한 접근이 필요합니다.
2.3.2 고부담 사용이 혼합된 저부담 사용
저부담 검사에는 많은 종류가 있습니다. 그림 1은 지속적인 능력 향상, 학습 여정의 개별화, 새로운 영역에서의 잠재력 발견, 그리고 자신의 강점에 맞는 진로 발견을 위해 사용되는 것들을 포함한 여러 가지를 보여줍니다.
대규모 국가 교육평가(예: 미국의 국가교육발전평가[NAEP], 남아프리카의 연례국가평가[ANA])와 국제평가(예: OECD의 국제학생평가프로그램[PISA], 국제성인역량평가프로그램[PIAAC], 사회정서역량연구[SSES])는 응시자인 학생에게는 저부담 평가이며, 일부 경우에는 배경이나 맥락 설문지를 작성하는 교사, 학교, 지역에도 저부담입니다. 그러나 같은 평가가 주나 국가 정책입안자들에게는 고부담일 수 있으며, 따라서 이러한 평가의 결과는 COVID로 인한 학습 손실 발견에 대한 대응(Mervosh, 2022)이나 국가와 주가 다른 곳들과 비교하여 자신의 위치와 올바른 방향으로 가고 있는지를 볼 수 있게 하는 순위표 제시와 같은 정책적 함의를 가질 수 있습니다. 독일의 “PISA 충격”은 “뜨거운 공개 토론과 강력한 정책 대응”을 촉발했습니다(Davoli & Entorf, 2018). 결과는 환경적 효과(예: 소셜 미디어; Posso, 2016)나 세속적 추세(예: 플린 효과; Bratsberg & Rogeberg, 2018)를 평가하는 데 사용될 수 있습니다. 이러한 발견들은 응시자에게는 저부담인 평가가 정책에 상당한, 잠재적으로 의도하지 않은 결과를 미칠 수 있음을 보여줍니다(Feuer, 2012).
형성평가와 학생들의 능력 수준에 기반한 수업 맞춤화 및 피드백 제공은 평가의 또 다른 저부담 사용입니다. 적응적 교수 시스템(예: Carnegie Learning [BusinessWire, 2024], Khanmigo [DiCerbo, 2024])은 평가를 이러한 방식으로 사용합니다. 우리는 이 보고서의 피드백 섹션에서 형성평가와 피드백의 저부담 사용을 검토합니다.
또 다른 저부담 사용은 기관에 학생들의 능력에 대한, 또는 고용주의 경우 그들의 노동력에 대한 규준적 정보를 제공하는 것입니다. ETS® 주요 분야 검사는 특정 분야를 전공하는 학생들의 성취 수준에 대한 정보를 대학에 제공하기 위해 설계되었습니다. 일반적으로 해당 전공의 종합 과정에서의 데이터 수집으로 얻어지는 다양한 전공의 평가 결과는 프로그램이 교육과정을 개선하고 학생 성과를 향상시키기 위해 프로그램 효과성과 학생 수행을 평가하는 데 사용되었습니다(ETS, n.d.). 마찬가지로, OECD와 유럽연합의 교육 및 기술 온라인 프로그램은 학습자의 강점과 약점을 진단하고 국제 기준에 대비하여 훈련을 평가하기 위해 훈련생들의 문해력, 수리력, 문제해결력에 대한 정보를 제공하도록 설계되었습니다(OECD, n.d.).
상황에 따라 고부담이나 저부담이 될 수 있는 하나의 추가적인 평가 사용 사례는 AI 발전과 같은 기계 능력의 벤치마킹에서 찾을 수 있습니다. 예를 들어, PIAAC 평가는 AI 전문가들이 기계 알고리즘이 즉시 또는 예측 가능한 미래에 평가에 나타나는 문제들을 해결할 수 있는 정도를 평가하는 연구에 사용되었습니다(Elliott, 2017). 검사들은 마찬가지로 AI 챌린지 대회에서도 활용되었습니다(Friedland et al., 2004). 한 수준에서 이들은 단순히 기계 능력을 벤치마크, 이해, 진단하는 것이 목표이므로 저부담 응용입니다. 반면에, 고부담 챌린지에서 실시되는 평가는 검사를 조작하려는 일반적인 인센티브를 제공할 수 있으므로 고부담 사용으로 간주될 수 있습니다.
2.4 평가에 대한 새로운 도전과제들
검사의 다양한 용도와 그것이 제공하는 잠재적 가치에도 불구하고, 검사라는 주제는 지난 세기 동안 논란의 대상이었으며(Berman et al., 2019; Cronbach, 1975; National Research Council, 1999a, 1999b; U.S. Congress, Office of Technology Assessment, 1992) 앞으로도 그럴 것 같습니다. 여기서는 평가가 모든 사용자에게 긍정적인 결과를 제공하는 잠재력을 달성하기 위해 해결해야 할 몇 가지 새로운 도전과제들을 검토합니다.
2.4.1 검사가 충분한 가치를 제공하지 않는다는 우려
표준화 검사에 대한 불만은 오래되었습니다(Grose, 2024). 그러나 검사는 기회의 문을 열어주고 응시자, 정책입안자 및 검사 점수 정보의 다른 사용자들에게 유용한 정보를 제공할 수 있습니다. ETS(2023a)의 평가 혜택에 대한 진술에 대한 동의 수준을 특징짓는 표 5를 살펴보십시오. 응답자의 80% 이상이 평가가 직업을 찾고 배경에 관계없이 동등한 기회를 포함한 발전 기회를 제공하며, 자존감과 직업 만족도를 높이고, 새롭게 등장하는 직업과 역할에서의 능력을 측정하는 데 도움이 된다는 데 동의했습니다. 평가의 가치에 대한 이러한 긍정적인 정서는 이러한 평가 혜택에 “매우 동의”한다고 표시한 비율이 34%에서 40%에 달하는 젊은 응답자들(Z세대와 밀레니얼)에게서 특히 두드러졌습니다.
학습 평가는… | 동의 | 매우 동의 |
---|---|---|
개인이 더 나은 직업 기회와 경력 발전을 달성하는 데 도움을 준다. | 85% | 40% |
개인의 자존감 향상에 크게 기여한다. | 84% | 37% |
전반적인 경력 만족도 향상에 크게 기여한다. | 84% | 38% |
발전을 위한 가치 있는 기회를 제공한다. | 84% | 34% |
새롭게 등장하는 산업과 직무 역할과 관련된 능력을 효과적으로 측정한다. | 83% | 35% |
능력 격차를 해소하여 발전 기회를 제공한다(예: 사회경제적, 인종적, 성별 등 서로 다른 배경에 걸쳐). | 82% | 34% |
주: 데이터는 ETS 인간 진보 연구(ETS, 2023a)에서 가져왔음. 설문 문항: “다음 진술에 얼마나 동의하거나 동의하지 않습니까? (매우 동의하지 않음/다소 동의하지 않음/다소 동의/매우 동의)” “동의” 열은 모든 응답자 대상; “매우 동의”는 Z세대와 밀레니얼 세대만 해당; “매우 동의”는 X세대와 베이비부머 세대의 경우 약 10%-20% 더 낮음.
하지만 검사는 또한 응시자와 검사 수행 활동을 지원하는 사람들의 투자를 필요로 합니다. 이 투자는 준비와 검사 시간 및 노력, 그리고 잠재적인 평판 위험에 있습니다. 모든 관련 당사자들의 시간과 노력 지출을 정당화하기 위해 최소한 암묵적인 비용-편익 계산이 이루어집니다. 검사가 응시자와 지원자들에게 더 많은 가치를 제공할수록, 노력과 투자는 더욱 정당화될 것입니다. 따라서 검사가 응시자와 이해관계자들에게 지출을 정당화하는 검사 수익률(ROT)을 제공하는 것이 중요합니다.
검사는 종종 유용하고 실행 가능한 피드백을 제공하지 못합니다; 교육과 진로 목표를 달성하기 위한 다음 단계를 결정하는 데 도움이 될 수 있는 통찰을 사용자들에게 제공하지 못합니다. 평가의 미래는 주로 응시자와 관련된 모든 사람들에게 있어 검사의 비용-편익 비율을 변화시키기 위해 주요 이해관계자들, 특히 응시자들에게 유용한 정보를 제공하는 것과 관련될 것입니다. 검사는 현재 아는 것에서 검사가 제공하는 정보로 무엇을 할 수 있는지로 전환될 것이며, 앞으로 나아갈 방향에 대한 추천을 제공할 것입니다. 우리는 이러한 문제들을 피드백 섹션에서 다룹니다.
2.4.2 검사 초점이 너무 좁다는 우려
검사에 대한 일반적인 주장은 우리가 중요한 것을 측정하므로 검사가 우리의 가치를 나타낸다는 것입니다. 하지만 너무 자주 그 반대가 사실이 되어, 우리가 우연히 검사하고 있는 것의 중요성을 높이게 됩니다. Schrum과 Levin(2013)은 우리가 너무 자주 “모범적인 학교”의 의미를 높은 성취도 검사 점수를 산출하는 학교로 제한하여, 교육적 성취와 경제적 결과에 기여하는 훨씬 더 광범위한 능력 집합을 놓친다고 주장했습니다. 즉, 검사의 초점은 전통적으로 너무 좁았으며, 아마도 최소한 부분적으로는 가장 중요한 것보다는 측정하기 쉬운 것에 초점을 맞추었기 때문일 것입니다. 교육적 성취와 직업 및 삶의 성공은 수학과 언어 검사로 쉽게 측정할 수 있는 것을 넘어선 능력의 발달을 필요로 합니다. 평가의 미래를 위해서는 교육, 직업, 삶에 가장 중요한 능력을 식별하고 이를 평가하기 위한 타당하고 신뢰할 수 있는 방법을 개발하는 것이 중요합니다. 우리는 이러한 문제들을 이 보고서의 기술 발전의 영향 섹션에서 다룹니다.
2.4.3 점수의 타당도와 신뢰도 부족에 대한 우려
검사가 항상 측정하고자 하는 능력을 측정하는 것은 아닙니다. 예를 들어, 저부담 상황에서는 학생들이 동기부여가 되지 않고 참여하지 않을 수 있으며, 그러면 검사의 점수는 학생들이 알고 할 수 있는 것을 나타내는 유용한 지표가 되지 못합니다. 예를 들어, 우리는 대규모 평가로 주와 국가의 성취 수준을 비교하지만, 노력의 차이가 검사 점수에 영향을 미친다는 것을 알고 있음에도 불구하고, 이러한 차이에 부분적으로 책임이 있을 수 있는 노력의 차이를 고려하지 않습니다(Liu et al., 2012). 검사가 학생의 능력 수준에 대한 정확한 그림을 제공하지 못할 수 있는 또 다른 이유는 부정행위나 검사에 직접적으로 맞춘 교수를 경험했기 때문입니다. 여기서 더 일반적인 우려는 검사 과정의 보안 부족으로 인해 점수가 응시자의 능력 수준이나 학교 품질을 과대 평가하도록 허용하는 것입니다. 세 번째 불만은 특히 측정하기 어려운 능력과 구인에 대한 자기보고와 같은 약한 검사 방법과 관련이 있습니다(Stecher & Hamilton, 2014). 예를 들어, 인내심과 호기심이 학생들에게 중요한 자질일 수 있지만, 평가가 전적으로 자기보고에 의존한다면, 그러한 학생 자질에 관심이 있는 사람들이 평가에서 도출된 결론에 대한 신뢰를 잃게 할 수 있습니다. 평가의 미래는 측정하기 어려운 능력에 대한 더 나은 측정과 관련될 것 같습니다. 우리는 이러한 문제들을 이 보고서의 혁신적 측정 섹션에서 다룹니다.
2.4.4 공정성과 형평성에 대한 우려
많은 사람들이 검사에 대해 가지는 주요 우려는 검사가 모든 응시자에게 공정하고 형평성 있지 않다는 것으로, 이는 점수에 대한 전반적인 신뢰 부족을 초래하고 검사 자체에 대한 반대 태도로 이어집니다. 이러한 관점에서, 응시자가 문화, 성별, 언어, 장애 상태 또는 사회경제적 상태와 관련하여 검사 설계자와 다른 경우 검사는 능력을 정확하게 측정하지 못할 수 있습니다. 더 일반적으로, Solano-Flores(2019)는 검사가 문화적 산물이므로 검사의 타당도 논증의 일부로 다양한 문화 관련 문제들을 고려해야 한다고 주장했습니다.
또한, 검사는 공평한 경쟁의 장을 만들지 못하고 학습 기회의 차이를 반영할 수 있는 과거의 불평등을 고려하지 못하기 때문에 불공평한 것으로 볼 수 있습니다(Darling-Hammond, 2001). 결과적으로, 이러한 관점에 따르면, 검사는 그러한 불이익을 받는 사람들을 지원하지 못하고 대신 불평등, 증가하는 격차, 양극화에 기여할 수 있습니다(이러한 문제들을 다룬 Educational Assessment 특별호 소개는 Herman et al. [2023] 참조, 같은 호에서 Bennett [2023], Solano-Flores [2023], Randall [2023]의 성찰과 권고사항 참조). 이러한 검사의 실제 또는 인식된 장벽은 글로벌 맥락에서 보거나 한 국가의 학생이나 근로자가 다른 국가나 문화의 기준으로 평가될 때, 예를 들어 아시아 근로자가 미국에서 취업을 하려할 때 더욱 악화될 수 있습니다.
검사의 공정성에 관한 문제들은 교육 및 심리검사 표준(AERA et al., 2014)뿐만 아니라 ETS 품질 및 공정성 표준(ETS, 2014)과 ETS 공정한 검사 및 의사소통 개발 지침(ETS, 2022) 및 기타 유사한 문서들에서 다루어집니다. 이러한 문서의 표준이 자동적으로 실제로 이어지지는 않으며(Solano-Flores, 2023), 반드시 공정성 법적 방어에 독점적으로 사용될 법적 지원을 받는 것도 아니지만, 그럼에도 불구하고 “널리 적용 가능한 자문 출처”로 간주됩니다(Biddle & Nooren, 2006, p. 219). AERA et al.(2014, p. 2)에서 언급된 바와 같이:
:표준이 후원 기관들에 의해 강제될 수는 없지만, 이는 검사와 기타 선발 절차의 개발자와 :사용자들이 따르는 일반적으로 인정된 전문적 표준을 제시하는 것으로 규제 당국과 법원에 의해 :반복적으로 인정되어 왔습니다. 표준의 준수 여부는 사법 및 규제 절차에서 법적 책임에 대한 관련 :증거로 사용될 수 있습니다. 따라서 표준은 검사 과정의 모든 참여자들의 신중한 고려를 받을 :만합니다.
표준(AERA et al., 2014)은 공정성을 “가장 중요한 근본적 관심사”이자 “검사 개발과 사용의 모든 단계에서 주의가 필요한” “근본적인 타당도 문제”로 간주합니다(p. 49). 또한 검사 과정 동안 모든 응시자의 공정하고 형평성 있는 대우를 옹호합니다. 표준은 또한 “검사 점수의 공정하고 타당한 해석에 대한 주된 위협은 식별 가능한 응시자 집단의 점수를 체계적으로 낮추거나 높이고 의도된 용도에 대해 부적절한 점수 해석을 초래할 수 있는 검사나 검사 과정의 측면에서 비롯된다”고 주장합니다(AERA et al., p. 54). 이는 구인 무관 요소가 부적절한 검사 내용 표집, 불명확한 검사 지시문, 불필요한 문항 복잡성, 그리고 특정 집단에 유리할 수 있는 채점 기준에 의해 도입될 수 있으며 “학습 기회…가 의도된 용도에 대한 검사 점수의 공정하고 타당한 해석에 영향을 미칠 수 있다”고 제안합니다(AERA et al., 2014, p. 54).
평가의 미래에 있어 주요 도전과제는 여기서 명시된 공정성과 형평성 문제를 해결하는 것이 될 것입니다. ETS(2014, 2022)는 표준(AERA et al., 2014)에서 제기된 공정성 문제를 다루는 구체적인 지침을 제공하는 검사와 의사소통을 위한 공정성 지침을 개발했습니다. ETS(2022)는 네 가지 기본 원칙을 제시했습니다: (a) 의도된 구인의 중요한 측면을 측정한다; (b) 응시자의 성공에 대한 구인 무관 장벽을 피한다; (c) 다양한 응시자들이 알고 있는 것과 할 수 있는 것을 보여줄 수 있도록 하여 타당한 추론이 지지되는 평가 설계, 내용, 조건을 제공한다; (d) 다양한 응시자 집단에 대한 타당한 추론을 지지하는 점수를 제공한다. ETS(2022)는 이러한 일반 원칙을 지원하는 구체적인 지침을 이어서 제시했습니다.
검사 공정성에 대한 우려 외에도, 형평성에 대한 우려가 있습니다. 집단 간 검사 수행의 격차는 최소한 부분적으로 학습 기회의 차이를 반영할 수 있으며, 검사는 기회 격차를 식별하는 데 도움이 될 수 있습니다(National Academies of Science, Engineering, and Medicine, 2019). 그러나 검사가 불의를 전파한다는 견해는 검사가 배경에 관계없이 학생들의 학업 성취를 반영하며, 입학에서 고려되는 성적과 다른 측정치보다 더 높은 예측 정확도를 가지므로 저소득층과 소수 집단 지원자들에게 기회를 제공한다는 재활성화된 견해에 의해 도전받고 있습니다(Deming, 2024; Flanagan, 2021; Leonhardt, 2024; McWhorter, 2024). 더욱이, 검사는 교수의 한 형태로 기능할 수 있으며 이를 통해 형평성 문제를 다룰 수 있습니다; 우리는 평가의 미래에서 주요 초점이 “공평한 학습 기회를 다루는” 교육을 위한 평가를 달성하는 방법을 개발하는 것이 될 것으로 예상합니다(The Gordon Commission, 2013, p. 150). 우리는 검사가 피드백을 제공하는 문제를 피드백 섹션에서 다룹니다.
2.5 평가의 미래 전망
이 논문에서, 우리는 앞 하위 섹션에서 확인된 도전과제들과 우려사항들을 다루고, 평가의 미래를 위한 포괄적인 주제는 평가가 능력 기반이 되고, 기술이 향상되며, AI와 관련 기술의 발전에 의해 주도될 것이라고 주장합니다. 학습 증진에서의 역할을 인정하여, 미래의 평가는 부족함에 덜 초점을 맞추고, 학습자들이 교육과 진로 목표를 달성하는 데 도움이 되도록 그들의 강점을 바탕으로 발전하도록 안내할 것입니다. 부정적인 피드백은 특히 자원을 통제할 능력이 적은, 저영향력 개인들의 동기와 수행 수준에 해로운 것으로 나타났습니다(Straub et al., 2023). 미래의 평가는 응시자 중심이며 응시자가 취할 수 있는 구체적인 행동에 초점을 맞춘, 실행 가능한 피드백을 제공할 것입니다.
예측 | 동의 + 매우 동의 |
---|---|
직장에서의 AI로 인해, 대부분의 직원들은 자신의 능력을 습득하거나 갱신할 필요가 있을 것이다. | 85% |
AI는 근로자들이 기술적 능력과 인간적 능력의 조합을 갖출 것을 요구할 것이라고 생각한다. | 83% |
AI는 직장에서 필수적인 기술의 재평가를 촉진할 것이다. | 83% |
AI는 경력 전환, 재숙련화, 자기 재창조의 필요성을 증폭시킬 것이다. | 80% |
AI가 오늘날 존재하지 않는 새로운 직업 기회를 창출할 것이라고 믿는다. | 72% |
주: 데이터는 ETS 인간 진보 연구(ETS, 2023a)에서 가져왔음. 설문 문항: “다음 진술에 얼마나 동의하거나 동의하지 않습니까? (매우 동의하지 않음/다소 동의하지 않음/다소 동의/매우 동의)” AI = 인공지능
2.5.1 응시자와 이해관계자에게 유용한 정보 제공
미래의 평가는 응시자와 다른 이해관계자들에게 유용하고, 이해하기 쉬우며, 신뢰할 수 있고, 타당하며, 공정하고, 신뢰할 만한(안전한 과정에 기반한) 정보를 제공하도록 노력해야 합니다. 평가는 비용 효과적이어야 하고, 관련된 언어로 제공되어야 하며, 가능한 경우 통찰을 도출하거나 실행 가능해야 합니다. 그 정보는 응시자가 추가 교육과 현재 및 미래 직업을 위해 가장 중요한 능력에서 어디에 서 있는지를 보여주는 자격증, 점수, 배지 및 기타 지표의 형태를 취할 수 있으며, 개별 응시자가 교육과 진로 목표를 달성할 수 있는 방법에 대해 응시자와 이해관계자들에게 정보를 제공하는 실행 가능한 피드백이 함께 제공됩니다.
2.5.2 핵심 능력의 식별
응시자에게 유용한 정보를 제공하기 위해서는 교육과 진로 목표를 달성하는 데 필요한 가장 중요한 능력을 식별하는 것이 필요합니다. 핵심 능력을 식별하기 위해서는 어떤 능력이 중요성이 증가하고 어떤 능력이 쓸모없게 될 것인지를 결정하는 데 도움이 되는 다양한 방법론—설문조사, 직업 동향, 재정 스캔—을 사용하여 능력의 미래 생존 가능성에 대한 증거를 수집해야 할 것입니다. 이러한 분석을 수행하는 것(예: Autor et al., 2024; Eloundou et al., 2023; Frey & Osborne, 2017; Lassébie & Quintini, 2022)은 학교, 직업, 사회를 위해 어떤 능력에 투자할지 결정하는 투자 결정을 돕는 지표를 생산할 수 있게 할 것입니다.
2.5.3 측정하기 어려운 능력 평가를 위한 방법 발전
의사소통, 창의성, 협력과 같이 오늘날 점점 더 중요해지고 미래에 중요성이 더욱 커질 것 같은 많은 능력들은 측정하기 어려운 능력입니다(표 6 참조). 이들은 측정하기 어렵지만 중요하기 때문에, 우리는 이들을 측정하기 위해 단순한 자기보고와 타인 평가를 사용하는 경향이 있습니다. 하지만 이러한 방법들은 수학과 읽기와 같은 기술적 능력, 즉 이른바 하드 스킬을 측정하는 데 사용하는 방법만큼 강력하지 않습니다. 자기보고와 타인 보고는 계속 사용될 것이지만, 이들은 반응 양식(측정되는 구인에 관계없이 비슷한 방식으로 반응하는 경향; He et al., 2014), 후광(대상이 측정되는 속성에 관계없이 대상을 같은 방식으로 평가하는 경향; Cooper, 1981), 그리고 준거 편향(응답자가 평가에서 다른 기준을 사용하는 경향; Lira et al., 2022)과 같은 잘 문서화된 편향들과 관련이 있습니다. 이러한 측정을 보완하거나 대체하기 위해, 주관적 평정에 의존하지 않는 게임, 시뮬레이션, 상호작용 및 협력 과제를 포함한 매력적이고, 개별화되며, 맥락화된 수행 과제를 개발할 필요가 있습니다. 평가의 미래를 위한 하나의 경향은 지나치게 표준화된 접근에서 벗어나 “개별화되고, 차별화되며, 적응적이고, 문화적 언어적으로 관련되며, 맥락 기반적”인 것으로 더 잘 특징지어질 수 있는 접근으로 나아가는 것일 수 있습니다(Morell, 2017, p. 2). Sireci(2020)는 검사 조건과 상호작용할 수 있는 개인적 특성을 이해하고 그러한 개인적 특성을 수용하는 것이 “학생들의 진정한 능숙도에 대한 더 정확한 해석”으로 이어질 잠재력이 있다고 주장했습니다(p. 101).
평가의 미래는 또한 키스트로크, 대화, 반응 시간, 그리고 발달 과정과 능력의 상태에 대한 추론을 도출하는 데 사용될 수 있는 기타 학습 및 수행 지표를 포함한 프로세스 데이터의 분석을 포함하여, 자연적으로 발생하는 행동을 측정하는 방법의 개발을 포함할 것입니다. 이러한 방법들은 정의적, 행동적, 또는 인지적(ABC; Liu, Kell, et al., 2023) 어떤 유형의 능력에도 적용될 수 있다는 점에 주목하십시오.
이 노력의 중요한 부분은 우리가 새로운 측정을 고안하는 데 얼마나 성공적이었는지를 평가하는 지표를 개발하는 것이 될 것입니다. 우리는 타당도, 신뢰도, 공정성과 형평성을 포함한 전통적인 심리측정 지표에 의존할 수 있습니다. 또한 우리는 우리의 노력이 얼마나 가치 있게 여겨지고 핵심적이고 확장되는 시장과 얼마나 부합하는지를 통해 성공을 평가할 수 있습니다.
2.5.4 개별화된 피드백을 통해 응시자와 다른 이해관계자들에게 기회 제공
응시자에게 유용한 피드백을 제공하기 위해서는 효과성 증거와 함께 여러 분야에서 나오는 학습 원리의 식별과 실행이 필요할 것입니다. 이러한 분야들은 교육심리학, 인지심리학, 산업-조직심리학, 학습과학, 신경과학을 포함합니다. 인적 요인, 훈련, 인간-컴퓨터 상호작용과 같은 응용 영역과 컴퓨터 지원 협력 학습과 적응적 학습 또는 지능형 교수 시스템과 같은 교수 영역도 검사 실제에 통합될 수 있는 발견과 원리를 제공할 수 있습니다. AI와 교육 분야의 중요한 연구(Koedinger et al., 2023; Zapata-Rivera & Hu, 2022)는 검사가 어떻게 응시자들에게 그들의 학습을 향상시키고 검사로부터 받는 혜택을 증진시키기 위한 유용한 정보를 제공할 수 있는지에 대해 알려줄 수 있습니다. 피드백 제공은 또한 지속적인 과정이어야 합니다. ETS(2023a)의 응답자 87%가 “학습 평가는 수행의 일회성 스냅샷이 아닌 지속적인 피드백을 제공해야 한다”는 데 동의했습니다. 피드백의 혜택은 응시자에게만 국한되어서는 안 됩니다—정책입안자, 교사 및 다른 이해관계자들도 유익하고 실행 가능한 피드백으로부터 혜택을 받을 수 있습니다.
피드백 제공은 모든 종류의 교육 및 건강 개입과 유사성을 공유하므로 그러한 분야들로부터 교훈을 얻을 수 있습니다. 예를 들어, “연구 결과와 다른 증거 기반 실천을 일상적 실천으로 체계적으로 받아들이는 것을 촉진하는 방법의 과학적 연구, 따라서 건강 서비스의 질과 효과성을 향상시키는 것”으로 설명되는 더 넓은 실행 과학 분야(Bauer et al., 2015)는 피드백 관리가 어떻게 학습자 성과를 향상시킬 수 있는지에 대한 유용한 지침을 제공할 수 있습니다. 교훈은 또한 실행을 통한 학습을 가속화하고, 새로운 도구와 과정의 개발과 개선을 안내하도록 설계된 개선 과학으로부터도 올 수 있습니다(Hinnant-Crawford, 2020).
2.5.5 평가의 미래를 위한 주제와 논문의 구성
우리는 다음 네 섹션에 걸쳐 다룰 주제들을 중심으로 평가의 미래를 조직하는 것이 유용하다고 믿습니다. 주제들은 종종 겹치지 않는 문헌에서 다루어지는, 구별되는 작업 본체와 과학적 배경을 반영합니다. 그러나 주제들에 나타난 모든 전선에서의 발전은 평가의 미래에 필수적입니다. 다음 섹션인 ‘미래를 위한 능력: 기술 발전의 영향’은 주로 경제학과 AI 연구에 기반합니다. ’혁신적 측정: 측정하기 어려운 능력을 평가하기 위한 새로운 접근’은 인지심리학, 산업-조직심리학, 성격심리학 등 다양한 분야에서 가져옵니다. ’AI와 기술 중심 발전을 통한 운영 혁신’ 섹션은 주로 검사 개발, 채점, 보고에 있어 검사 산업의 전통적 관심사를 반영하며 교육측정과 심리측정, 운영연구, AI 등에서 가져옵니다. ‘피드백: 학습과학 주도의 통찰과 응시자를 위한 실행 계획’ 섹션은 인지심리학, 교육심리학, 학습과학, 적응적 교수에서 가져옵니다. 우리는 ‘요약과 결론’ 섹션으로 마무리합니다.