4 혁신적 측정: 측정하기 어려운 기술을 평가하기 위한 새로운 접근
이 섹션에서는 측정하기 어려운 능력을 평가하는 현재의 방법을 검토합니다. 일부 능력에 대해서는 평가 도구가 개발되었지만, 많은 경우 여전히 자기보고(Self-Report)와 타인 보고(Others’ Reports)에 의존하고 있습니다. 우리는 이러한 방법의 한계를 논의하고, 이를 개선할 수 있는 방법을 탐색합니다. 특히, 측정하기 어려운 능력을 평가하는 수행 평가(Performance Measures) 개발 노력에 초점을 맞춥니다. 여기에는 상황 판단 테스트(Situational Judgment Tests, SJTs), 게임(Game-Based Assessment), 시뮬레이션(Simulations), 상호작용 과제(Interactive Tasks) 등이 포함됩니다. 또한, 평가 대상자의 문제 해결 과정에서 발생하는 행동 데이터(Process Data)를 분석하여, 응답자의 행동 패턴, 반응 시간(Response Time), 대화 내용 등을 통해 능력을 추론하는 방법도 논의합니다.
4.1 논의의 기초 마련
이전 섹션에서는 미래에 점점 더 중요해질 가능성이 있는 기술(스킬)에 대해 논의했습니다. 이번 섹션에서는 이러한 기술을 측정하는 방법을 다룹니다. 기술과 측정 방법을 구분하는 것은 쉽지 않습니다. 예를 들어, 코딩과 같은 기술적 역량이나 수학, 독해력, 작문과 같은 전통적인 학문적 기술은 객관식 문제, 서술형 문제, 또는 기타 혁신적인 문제 형식을 통해 평가됩니다. 그러나 대인관계 기술(소프트 스킬)은 이러한 방식으로 평가하기 어려우며, 대신 면접이나 평정 척도(Self/Other Reports)와 같은 주관적인 방법에 의존하는 경우가 많습니다. 이러한 주관적 측정 방식은 정보의 신뢰성이 낮다고 여겨질 수 있습니다. LinkedIn Talent Solutions(2019) 보고서에 따르면, 인재 관리자의 91%가 소프트 스킬이 미래 채용에서 중요할 것이라고 생각했으며, 92%는 소프트 스킬이 하드 스킬만큼이나 중요하다고 응답했습니다. 하지만, 57%의 관리자들은 소프트 스킬을 정확하게 평가하는 것이 어렵다고 답했습니다. 현재 소프트 스킬 평가 방법으로는 행동 기반 질문(75%), 신체 언어 읽기(70%), 상황별 질문(58%) 등이 사용되고 있으며, 모두 주관적 요소가 강한 방식입니다.
표 8은 다양한 관점에서 평가 방법과 문항 유형을 정리한 목록을 제시합니다. Scalise와 Gifford(2006)는 Bennett(1993)의 연구를 기반으로, 컴퓨터 기반 평가의 문항 유형을 학업 과목 중심으로 분류한 체계를 제안했습니다. RAND(2020)의 평가 자료집은 K-12 교육 평가를 시험 유형별로 정리하여 교육 실무자가 쉽게 찾아볼 수 있도록 했으며, 사회·정서적 구성 요소까지 포함하도록 확장되었습니다. IMS Global(2022)의 QTI(Question Test Interoperability) 표준은 모든 디지털 평가를 지원하도록 설계되었으며, 상호작용(interaction) 유형을 포함하고 있습니다. 이는 본 섹션의 논의와 관련이 있기 때문에 목록에 포함되었습니다. 또한, Institute of Medicine(2015)과 미국 인사관리처(OPM, n.d.)의 평가 방법 목록은 각각 임상 평가 및 조직 채용과 선발에서 사용되는 방법을 제시하였으며, 해당 분야의 실무자들이 사용하는 용어를 반영하고 있습니다.
표 8에서 제시된 평가 방법 목록을 검토하면 몇 가지 문제가 명확해집니다. 평가에는 매우 다양한 접근 방식이 존재하며, 구성 개념(construct)과 측정 방법(method)이 종종 혼재되는 경우가 많습니다. 예를 들어, Institute of Medicine(2015)과 미국 인사관리처(OPM, n.d.)는 성격 검사(personality test)를 평가 방법으로 분류했는데, 이는 특정한 구성 개념이면서 동시에 평정 척도(rating scales)라는 방법론을 포함합니다. 마찬가지로, 인지 검사(cognitive tests)와 인지 능력(cognitive ability)도 평가 방법이면서 동시에 측정하려는 개념입니다. RAND(2020)의 목록은 주로 평가 유형(testing type)이라는 기준으로 정리되었지만, 평가할 내용(예: 대인(interpersonal), 개인(intrapersonal), 인지(cognitive))이라는 또 다른 차원이 존재합니다. Scalise & Gifford(2006) 및 IMS Global(2022)의 QTI 표준은 각각 다른 목적과 방식으로 구성 개념과 측정 방법을 분리하려는 노력을 했습니다. 이들은 개념과 상관없이 평가 응답을 어떻게 수집할 것인지에 초점을 맞추어 데이터 해석을 가능하게 하는 방법을 탐색했습니다. 이러한 구성 개념-측정 방법의 분리(Construct-Method Separation)는 증거 중심 설계(Evidence-Centered Design, Mislevy et al., 2003)의 핵심 요소 중 하나입니다.
원칙적으로, 동일한 기술(skill)을 여러 가지 방법으로 측정할 수 있습니다. 다특성-다방법 접근법(Multitrait-Multimethod Approach, Campbell & Fiske, 1959) 및 모델링 프레임워크(Kyriazos, 2018)는 이를 반영하기 위해 설계되었습니다. 예를 들어, ’호기심(Curiosity)’이라는 구성 개념(구인, Construct)을 측정하는 다양한 방법이 존재합니다. - 자기보고(Self-Report): “나는 사물이 어떻게 작동하는지 아는 것을 좋아한다.” (매우 그렇지 않다 ~ 매우 그렇다) - 교사 평가(Teacher Rating): “이 학생은 사물이 어떻게 작동하는지 알고 싶어한다.” (참/거짓) - 컴퓨터 기록 분석(Computer Log Data): 학생이 새로운 옵션을 탐색한 횟수를 측정 - 수행 평가(Performance Test): 컴퓨터 게임에서 문을 연 횟수나 탐험한 경로 수 - 상황 판단 테스트(SJT): “5페이지짜리 연구 보고서를 작성해야 하는데, 조사 도중 관련 없는 흥미로운 연구 방법을 발견했다면 어떻게 하겠는가?” - 행동 기반 인터뷰(Behavioral Interview): “호기심이 발휘되어 흥미로운 것을 발견한 경험을 이야기해 주세요.” 향후 평가 방식은 기술적·인지적 학문적 구인을 측정하기 위해 개발된 기존 평가 기법을 확장하여, 측정하기 어려운 기술(hard-to-measure skills)까지 포함하려는 시도가 증가할 것으로 예상됩니다.
인지적 문항 유형의 컴퓨터 기반 평가 (Scalise and Gifford [2006]) | 학업적, 사회적, 정서적 학습 (RAND [2020]) | QTI 표준 (상호작용 유형) (IMS Global [2022]) |
---|---|---|
객관식 | 지필 | 선택 |
선택/식별 | 디지털 | 텍스트 입력 |
재배열/재정렬 | 구두 | 확장형 텍스트 |
대체/교정 | 선택형 응답 | 빈칸 매칭 |
완성 | 자유 응답 | 핫스팟 |
구성 | 수행 과제 | 핫텍스트 |
발표 | 인라인 선택 |
심리학적 평가 측정과 방법 (Institute of Medicine [2015]) | 취업 적성 검사 (OPM [n.d.]) | |
---|---|---|
선별 도구 | 성과 기록 | 매칭 |
체크리스트 | 평가 센터 | 그래픽 연결 |
설문지 | 이력서 | 미디어 |
기억력 검사 | 인지 능력 | 위치 객체 |
면접 관찰 | 정서 지능 | 선택점 |
관찰 | 청렴성/정직성 검사 | 슬라이더 |
인지 검사 | 직무 지식 검사 | 업로드 |
등급 척도 | 성격 검사 | 그리기 |
신원 조회 | 사용자 정의 | |
상황 판단 검사 | 종료 시도 | |
구조화된 면접 | ||
훈련과 경험 | ||
작업 샘플 |
Roll & Barhak-Rabinowitz(2023)은 측정하기 어려운 능력 중 하나인 자기 조절 학습(Self-Regulated Learning, SRL)을 PISA 2025 디지털 환경에서의 학습(Learning in a Digital World, LDW) 평가에서 측정하는 방안을 제안했습니다. SRL은 인지 및 메타인지 과정, 정서 조절, 동기를 포함하는 복합적인 개념입니다. 현재 SRL을 측정하는 가장 일반적인 방법은 자기보고 설문(Self-Report Questionnaire)이지만, 이는 개인이 평가 기준을 다르게 적용하면서 발생하는 기준 편향(Reference Bias)의 문제가 있습니다. 이를 해결하기 위해, Roll & Barhak-Rabinowitz는 SRL을 측정할 새로운 틀을 제안했습니다. 이 접근법은 학습자가 학습 활동 중 실제로 수행하는 행동을 기반으로 평가하는 것입니다. - 실험하기(Experimenting): 상호작용이 가능한 시뮬레이션을 통해 학습자가 직접 탐색 - 피드백 받기(Receiving Feedback): 자동으로 피드백을 받거나 버튼을 눌러 요청 가능 - 정보 탐색(Seeking Information): 튜토리얼 시청, 힌트 요청, 예제 보기 등을 통해 학습 이러한 요소들을 PISA LDW 평가에서 어떻게 적용할 수 있을지 체계적으로 정리했습니다.
Roll & Barhak-Rabinowitz(2023)의 연구는 복잡한 기술을 측정하기 위한 혁신적 평가(Innovative Assessments for Complex Skills) 관련 논문 모음집(Foster & Piacentini, 2023)의 일부입니다. 이 연구 모음의 핵심 요점은 다음과 같습니다. - 쉬운 것이 아니라 중요한 것을 측정해야 한다 → 기존의 단순한 시험보다 실질적으로 의미 있는 평가가 필요함. - 평가는 실제 맥락에서 이루어져야 하며 학습과 연결되어야 한다 → 평가가 실생활과 유사해야 함. - 평가 설계의 모든 과정에서 혁신이 필요하다 → 문항 개발, 채점 방식, 결과 해석 등 전반적인 혁신 필요. - 디지털 기술을 활용하면 더 많은 것을 측정할 수 있지만, 더 정교한 측정 모델이 필요하다 → 기술 발전에 맞춰 평가 방식도 개선해야 함. - 평가의 타당성이 중요하다 → 평가 결과가 신뢰할 수 있도록 검증 과정이 필요함.
이러한 주제들은 모두 미래 평가 연구에서 중요한 우선순위를 차지하지만, 각각의 적용 분야에 따라 연구의 초점이 다를 수 있습니다. 향후 연구에서는 중요하지만 측정하기 어려운 기술(hard-to-measure skills)에 대한 관심이 더욱 증가할 것으로 예상됩니다. 실제 학습 맥락(authentic learning context)에서의 평가 개념은 새로운 것이 아니지만(Erwin & Sebrell, 2003; Frensch & Funke, 1995), 기술 발전이 이러한 평가 방식의 유용성을 더욱 높일 가능성이 있습니다. 또한, 학습을 평가하는 개념도 새로운 것은 아닙니다. 역동적 평가(dynamic assessment)에 대한 연구는 오랜 역사를 가지고 있으며(Grigorenko & Sternberg, 1998), 심리학(Bolsinova et al., 2022; Deonovic et al., 2018; Yeung, 2019)과 경제학(Heckman & Zhou, 2021)에서도 유망한 새로운 측정 접근법이 지속적으로 연구되고 있습니다.
이 섹션에서는 측정하기 어려운 능력(hard-to-measure skills)을 평가하는 주요 방법을 검토합니다. 평가 방식은 다음 네 가지로 구분됩니다. - 평정 및 순위 평가(Ratings & Rankings) - 상황 판단 테스트(Situational Judgment Tests, SJTs) - 수행 평가(Performance Measures) - 다중 양식 평가(Multimodal Measures)
4.2 평정 및 관련 방법
평정 방식은 평가자가 자신이나 타인의 특성을 평가하는 방법으로, 일반적으로 리커트 척도와 같은 평정 척도를 사용하지만, 체크리스트와 같은 변형된 형태도 존재한다. 특히 자기 평정 방식은 매우 널리 활용되며, 심리적·교육적 개념 전반에 걸쳐 적용할 수 있을 만큼 유연하고, 개발·시행·채점·결과 보고가 비교적 저렴하기 때문에 높은 인기를 끌고 있다. 평정 척도 방식에 대한 심리 측정 모델과 개념적 네트워크도 이미 잘 구축되어 있으며, 향후에도 다양한 기술과 역량을 측정하는 데 계속해서 중요한 역할을 할 것으로 예상된다. 실제로 성격(John & Srivastava, 1999), 흥미(Su et al., 2019) 등과 같은 심리학적 개념의 많은 부분이 평정 척도를 기반으로 연구되어 왔다.
그러나 평정 척도 방식에는 몇 가지 한계가 존재한다. 자기 보고 방식은 응답 스타일 편향(van de Vijver & He, 2016), 참조 기준 편향(Lira et al., 2022), 사회적 바람직성 편향(Paulhus, 2002), 그리고 의도적인 조작(Geiger et al., 2021)과 같은 문제에 취약하다. 특히, 입학 전형이나 채용 평가와 같은 고위험(high-stakes) 상황에서는 이러한 문제가 더욱 심각하게 나타날 수 있다(Niessen et al., 2017).
타인 평가 방식(정보 제공자 평정)은 사회적 바람직성 응답과 조작 가능성을 어느 정도 완화할 수 있다. 물론 평가자가 평가 대상에게 유리하도록 과장된 응답을 할 가능성도 있지만, 전반적으로 자기 보고 방식보다 미래 행동을 더 잘 예측하는 경향이 있다(Connelly & Ones, 2010; Oh et al., 2011; Poropat, 2014). 예를 들어, 추천서는 학업 성취도와의 직접적인 상관관계는 낮지만, 학위 취득과 같은 장기적 성과를 예측하는 데는 유용한 것으로 나타났다(Kuncel et al., 2014).
이러한 한계를 보완하기 위해 순위 방식과 앵커링 기법이 대안으로 제시되고 있다.
순위 방식 중 하나인 강제 선택(Forced-choice) 방식은 응답자가 특정 항목을 단순히 평정하는 것이 아니라, 항목 간 우선순위를 정하도록 요구함으로써 사회적 바람직성 응답과 응답 스타일 편향을 줄이는 데 효과적이다. 특히 입학 전형과 같은 고위험 평가에서 유용하며, 최근 강제 선택 방식의 채점 방법이 발전하면서 신뢰도가 더욱 향상되었다(Fu et al., 2024). 또한, 기존의 평정 척도 방식보다 더 높은 예측력을 보이는 것으로 나타났다(Cao et al., 2015; Salgado & Tauriz, 2014).
또 다른 접근법인 앵커링 기법은 응답 스타일 편향을 줄이는 데 초점을 맞춘다. 예를 들어, 앵커링 비네트(Anchoring vignettes) 기법은 응답자가 자신뿐만 아니라 가상의 인물도 함께 평가하도록 함으로써, 응답을 보다 객관적으로 조정할 수 있도록 한다(King & Wand, 2007). 이러한 방식은 국가 간 응답 스타일 차이를 줄여 개념의 비교 가능성을 높이는 데 효과적인 것으로 나타났다(Kyllonen & Bertling, 2013). 한편, Ludlow et al. (2022)는 유사한 기법을 활용하여 측정하기 어려운 역량인 ’삶의 목적’을 평가하는 방법을 제시하였다. 타인 평가 방식에서는 행동 기반 평정 척도(BARS) 또한 널리 활용된다. BARS는 평가 기준을 명확히 제시하여 평가자가 일관된 판단을 내릴 수 있도록 돕는 방식으로, 주로 조직 평가에서 사용된다(Kell et al., 2017; Klieger et al., 2018). 하지만 BARS는 일반적으로 자기 평가보다는 타인 평가에 사용되는 경향이 있다.
결론적으로, 평정 척도 방식은 여전히 중요한 측정 도구이지만, 여러 가지 한계를 가지고 있으며, 이를 보완하기 위한 다양한 대안적 접근법이 개발되고 있다. 향후에는 보다 정교한 평가 기법이 도입됨으로써 측정의 신뢰도와 타당성이 더욱 향상될 것으로 기대된다.
4.3 상황판단검사
상황 판단 검사(SJT)는 상황 설명을 제시하고 응답자에게 해당 상황에 어떻게 대처할 것인지 또는 최선의 대응은 무엇인지 묻습니다. 그림 4는 그 예시를 제공합니다. SJT는 특히 대인 관계 기술과 같이 측정하기 어려운 구성 개념을 측정하는 데 널리 사용되는 방법입니다 (Christian et al., 2010). SJT는 유연한 방법으로 서면 자료나 비디오를 포함할 수 있으며, 일반적으로 응답 옵션의 순위를 매기거나 평점을 매기도록 요청합니다. SJT는 직원 선별 및 때로는 교육을 위해 조직 환경에서 널리 사용됩니다 (OPM, n.d.; Cox et al., 2017).
상황 판단 검사(SJT)는 교육 환경에서도 활용되어 왔습니다 (MacCann & Roberts, 2008; Sternberg et al., 2000). College Board는 학부 입학 시험으로 SJT를 실험했으며 (Schmitt et al., 2009), SJT는 경영 대학원 (Hedlund et al., 2006) 및 치과 대학원 입학 (Buyse & Lievens, 2011)에도 사용되었습니다. 미국 의과대학 협회(AAMC)는 현재 대인 관계 기술, 문화적 인식, 문화적 겸손, 공감 및 연민, 팀워크 및 협력, 자신과 타인에 대한 윤리적 책임, 회복력 및 적응력, 신뢰성 및 의존성, 학습 및 성장에 대한 헌신을 포함한 9가지 전문 역량을 측정하기 위해 의과 대학 입학을 위한 75분짜리 SJT인 AAMC PREview Professional Readiness Exam을 제공합니다 (AAMC, n.d.). Acuity Insights (n.d.)는 14개의 시나리오(8개의 서면, 6개의 비디오)를 통해 사회 지능 및 전문성의 10가지 측면을 측정하는 90분짜리 개방형 SJT인 Casper라는 경쟁 시험을 제공하며, 매뉴얼을 발행합니다 (Acuity Insights, 2023).
상황 판단 검사(SJT)는 활용의 유연성과 측정하기 어려운 기술을 평가하는 데 적합하다는 점에서 그 가치를 입증했으며, 따라서 미래에도 평가 방법으로 인기를 유지할 가능성이 높습니다. 그러나 과제도 있습니다. SJT는 단위 시간당 검사 시간 대비 평점 척도 측정보다 신뢰성이 낮은 경향이 있으며, 신뢰할 수 있는 점수를 얻기까지 더 오래 걸리거나 더 많은 검사 시간이 필요합니다. 예를 들어, Casper는 90분짜리 시험이지만 사회 지능 및 전문성의 10가지 측면이 아닌 단일 요인만 측정합니다. 이는 SJT의 일반적인 특징입니다. 예를 들어, Oswald et al. (2004)은 12가지 고등 교육 역량(예: 리더십, 예술적 재능)을 개발했지만, 그들이 개발한 SJT는 단일 차원만 측정했습니다 (Schmitt et al., 2009). SJT 연구 및 홍보 자료에서 SJT로 여러 차원을 측정하려는 욕구를 나타내는 점을 고려할 때, SJT의 일반적인 미래 연구 과제는 합리적인 시간 내에 여러 차원을 안정적으로 측정하는 것이 될 것입니다.
4.4 수행 측정
미래를 위한 기술 섹션에서 확인된 주요 기술 중 일부에 대한 수행 평가는 비판적 사고(Liu et al., 2016) 및 창의성(Weiss et al., 2021)과 같은 경우 비교적 잘 확립되어 있습니다. 미래의 평가는 이러한 측정 방법을 응용 분야에 포함하고 추가적인 점진적 발전을 볼 수 있을 것입니다. 이러한 기술 측정의 또 다른 중요한 발전은 이러한 기술이 시간이 지남에 따라 어떻게 증가하는지와 관련될 것입니다. Koedinger et al. (2023)은 지능형 튜터링 시스템과 함께 배포된 수학, 과학 및 언어 수업의 100만 건 이상의 관찰 데이터에 기반하여 초기 지식 수준을 고려했을 때 학습 속도에서 규칙성을 발견할 수 있었습니다. Duolingo의 Birdbrain 시스템은 문항 반응 이론을 사용하여 능력과 문항 난이도에 따라 학생의 수행 능력을 예측하고, 적응형 테스트에서 해당 과정이 수행되는 방식과 유사하게 연습 수행 후 학생 능력 수준을 업데이트함으로써 참여와 학습을 위한 최적의 난이도 수준으로 어학 교육을 조정합니다 (Bicknell et al., 2023). 적응형 테스트 및 적응형 교육과 하이브리드 접근 방식에서와 같이 기술의 업데이트와 관련된 개념과 전통적인 기술 평가의 병합은 전자 교육 및 기록 유지가 더욱 보편화됨에 따라 미래 평가에서 점점 더 중요해질 가능성이 높으며, 특히 적응형 교육 응용 분야에서 하이브리드 문항 반응 이론 모델링의 사용도 중요해질 것입니다 (Scalise et al., 2023; Yeung, 2019).
또 다른 중요한 추진력은 현재 주로 체크리스트와 평점 척도로 측정되는 구성 개념 및 기술, 예를 들어 질문과 평점 루브릭을 통해 자기 동기, 독창성 및 시간 관리와 같은 다양한 지원자의 자질을 평가하는 일반적인 채용 면접에 대한 수행 평가 개발에서 나올 것입니다. 우리가 수행 측정에 적합하다고 생각하는 구성 개념의 종류에는 팀워크, 협업, 리더십, 자기 관리 및 자기 조절, 감정 관리, 직업 윤리, 유연성, 문화적 감수성 및 표 8에 나열된 기타 소프트 스킬 또는 지속 가능한 기술이 포함됩니다. 수행 측정을 통해 이러한 소프트 스킬을 측정하려는 시도는 오랜 전통을 가지고 있으며, 때로는 객관적인 성격 검사(Cattell & Warburton, 1967; Ortner et al., 2006)라는 이름으로 불리기도 합니다. Alan et al. (2019)의 그릿 게임과 내적 동기 측정으로서 코딩 속도 테스트에서 끈기를 사용한 Segal (2012)의 연구는 성격 특성의 수행 측정의 예입니다. Charness et al. (2018)는 끈기, 자기 관리 또는 성실성의 특성 측정으로 이해될 수 있는 행동 경제학 연구에서 사용된 실제 노력 과제 목록을 제공했습니다. Kyllonen과 Kell (2018)은 이러한 문헌의 대부분을 요약하여 저위험 인지 테스트(Segal, 2012), 객관적인 성격 테스트(Ortner & Proyer, 2015), 경제적 선호도 과제(Falk et al., 2018), 확신 판단(Stankov et al., 2015), 설문 조사 행동(Soland & Kuhfeld, 2021), 문항 위치 효과(Weirich et al., 2017) 및 반응 시간에서 추론된 노력(Wise, 2017)의 범주로 나누었습니다. 이 모든 것은 평점이 아닌 수행 과제를 통해 소프트 스킬을 측정하려는 시도로 이해될 수 있습니다.
협력적 문제 해결은 의사 소통, 팀워크 및 협업과 같은 소프트 스킬 또는 소프트 스킬 세트의 수행 측정의 한 예입니다. ETS는 협력적 평가 및 학습을 위한 ETS 플랫폼(EPCAL; Hao et al., 2017)과 협상(Martin-Raugh et al., 2020), 문자-숫자 문제 해결, 숨겨진 프로필 의사 결정(Kyllonen et al., 2021) 등을 포함한 일련의 과제를 개발했으며, 이는 팀 성과와 개인의 협업 기술을 모두 측정합니다(Hao et al., 2019). 미래 인력에서 사회적 기술의 중요성을 고려할 때(Deming, 2017), 이러한 종류의 평가 프로젝트는 미래에 중요성이 커질 가능성이 높습니다.
4.5 생활 자료(L-데이터)
Cattell (1965)은 “실제, 일상생활에서의 행동”으로 정의되는 L-데이터(생활 데이터)를 대상의 기술에 대한 추론의 근거로 사용하는 것을 제안했습니다. 행정 기록, 소셜 미디어, 휴대폰, 웹사이트 등 모든 종류의 기록을 광범위하게 이용할 수 있게 되면서, Cattell이 L-데이터 사용을 제안했을 때보다 L-데이터 수집이 훨씬 쉬워졌습니다. 이러한 종류의 데이터는 설문지나 SJT 응답에서 얻은 데이터와는 상당히 다릅니다. 이 데이터는 개인의 속성에 대한 추론을 이끌어낼 수 있는 개인들이 남긴 흔적과 지표입니다. 연구에서는 행정 기록을 사용하여 학생들의 학업 및 비학업적 기술과 행동을 반영하는 종합 점수를 생성하여 졸업을 예측하고 교사의 효과를 평가하는 데 사용했습니다 (Jackson, 2018; Kautz & Zanoni, 2014; Novarese & Di Giovinazzo, 2013). 소셜 미디어 및 기타 행동 흔적은 성격의 반영으로 간주되었습니다 (Gosling et al., 2011; Kosinski et al., 2014; Youyou et al., 2015). 예를 들어, Gosling et al. (2002)은 기숙사 방의 외관과 내용물을 기반으로 성격을 측정했습니다. 배경과 경험은 전통적인 설문 조사, 구조화된 이력서 또는 바이오 데이터(Mumford & Owens, 1987), 외래 평가(Trull & Ebner-Priemer, 2013) 및 휴대폰, 웨어러블 및 비콘의 모바일 감지 데이터(Mattingly et al., 2019; Mirjafari et al., 2019)를 사용하여 측정할 수도 있습니다. 미래의 평가는 학생과 근로자의 지식, 기술, 능력, 행동, 가치 및 태도에 대한 추론을 도출하는 데 사용될 수 있는 다양한 종류의 데이터를 통합하는 것을 점점 더 포함할 수 있습니다. 그러나 2024년 유럽 연합 AI 법, 미국 및 기타 지역에서 예상되는 규제, 그리고 많은 기관에서 발표하는 일반적인 AI 윤리 성명(Abrams, 2024; Blackman & Ammanath, 2022)을 고려할 때 개인 정보 보호 문제는 해결해야 할 것입니다.
4.6 게임 기반 접근법
게임 기반 평가는 “[응시자]가 핵심 게임 플레이 루프에 참여하는 플레이어인 동안 특성 정보가 추론되는 평가 방법”으로 정의할 수 있습니다 (Landers & Sanchez, 2022, p. 1). Landers와 Sanchez (2022)는 또한 게임화된 평가를 게임 메커니즘 또는 게임 개념이 기존의 전통적인 평가에 적용된 평가로, 게임 방식으로 설계된 평가를 테스트 개발자가 새로운 테스트를 설계할 때 게임 개념을 사용한 평가로 정의했습니다. 게임 기반 또는 게임화된 평가가 사용될 수 있는 몇 가지 이유가 있습니다. Landers와 Sanchez가 초점을 맞춘 응용 분야인 직원 선발과 같은 중요한 목적을 위해 평가는 지원자의 기술을 측정하는 데 도움이 될 뿐만 아니라 잠재적으로 현실적인 직무 미리보기 또는 후보자에게 “매력적인 경험”을 제공하는 채용 수단으로 사용될 수 있습니다 (Landers & Sanchez, 2022, p. 21). 게임 기반 평가는 호기심 및 사회적 선호도(Tang & Kirman, 2023)와 같이 측정하기 어려운 특정 기술을 고유하게 측정할 수도 있습니다. 세 번째 이유는 시험 응시자의 참여를 높이는 것입니다. 중요한 시험 상황의 응시자는 이미 시험 응시에 참여할 충분한 동기를 가지고 있지만, 학교 책임성 시험, 국내외 대규모 평가 및 연구 환경과 같이 응시자에게 중요도가 낮은 설정에서는 그렇지 않습니다. 이러한 설정에서 동기 부족은 점수에 영향을 미칠 수 있으며(Liu et al., 2012), 게임화된 버전의 테스트는 참여와 동기를 증가시켜 결과적으로 응시자의 기술을 더 잘 반영할 수 있습니다. Buckley et al. (2021)은 SimCityEDU: Pollution Challenge (Mislevy et al., 2014), ACTNext의 Crisis in Space (Chopade et al., 2019) 및 Imbellus의 Project Education Ecosystem Placement (PEEP)을 포함한 교육 분야의 게임 기반 및 게임화된 평가를 검토했습니다.
4.7 다중양식 측정 또는 과정 데이터
다중 모드 측정은 생리적 데이터(예: EEG, 심박수), 로그 파일에 기록된 행동 데이터(예: 대화, 채팅, 키 입력, 시선 추적) 및 인간 평가자가 분석하거나 자동으로 분석하는 오디오 및 비디오 녹화에서 포착된 자세와 표정을 사용하는 것으로 정의할 수 있습니다 (Molenaar et al., 2023; Slavich, 2019). 이러한 데이터는 평가 응용 분야에서 사용되기 시작했으며 그 사용은 증가할 가능성이 높습니다 (Martin-Raugh et al., 2023). 예를 들어, Chen et al. (2014)의 ETS 프로젝트는 17명의 발표자에게 4가지 발표 과제를 부여하고 오디오, 비디오 및 3D 장치를 사용하여 수행 능력을 포착하여 대중 연설 기술을 분석했습니다. 그들은 NLP 방법, 음성 처리 및 (Microsoft의 Kinect[Zhang, 2012] 사용) 음성 및 비언어적 의사 소통(손짓 및 머리 방향 포함)을 포착하는 다중 모드 감지를 사용하여 특징을 추출했습니다. Chen et al. (2014)는 추출된 데이터에 대한 채점 모델을 개발하고, 결과 점수가 대중 연설 수행에 대한 인간의 전체적인 평가와 상관관계가 있음을 발견했습니다.
다른 두 가지 ETS 프로젝트에서 Martin-Raugh et al. (2020)과 Jiang et al. (2023)은 협상 및 협력적 문제 해결 과정에서 대화를 분석하여 성공적인 협업과 덜 성공적인 협업 간의 처리 차이에 대한 통찰력을 얻었습니다. 그들은 자연어 처리 방법을 사용하여 대화 내용을 인사, 정보 공유, 기여 인정 및 협상과 같은 범주로 구성된 루브릭으로 분류하고, 개인과 팀이 수행한 대화의 성격과 과제 성공 간의 상관관계를 발견했습니다. 평가의 역사는 대부분 제한된 상호 작용과 시험과 응시자 간의 매우 제한된 데이터 스트림에 기반해 왔습니다. 다중 모드 평가는 시험 응시자가 알고 있고 할 수 있는 것에 대한 추론을 도출할 수 있는 훨씬 더 풍부한 형태의 표현에 대한 문을 엽니다.
4.8 결론: 혁신적 측정
미래를 위한 기술 섹션에서 검토된 종류의 기술을 측정하는 주요 방법은 평점 척도법입니다. 해당 분야는 강조된 기술이 측정하기 어려운 기술이기 때문에 이 방법을 채택했으며, 평점 척도는 정의를 명확하게 설명할 수 있는 거의 모든 기술을 측정하기 위한 일반적이고 유연한 접근 방식입니다. 자기 보고식 평점을 개선하는 방법이 있습니다. 타인 보고는 준거 편향(Lira et al., 2022)과 같은 자기 보고와 관련된 편향에 덜 민감하지만, 후광 효과(Cooper, 1981)와 같은 자체적인 제한 사항이 있습니다. 강제 선택 측정 또한 자기 보고와 관련된 편향을 줄이므로 일반적으로 자기 보고보다 선호됩니다. SJT는 많은 측정하기 어려운 기술에 적용할 수 있는 또 다른 유연한 측정 방법입니다. 이는 일반적인 행동 평가가 아닌 정확하거나 적절하거나 유용한 행동에 대한 지식을 측정할 수 있다는 점에서 자기 보고보다 개념적 이점을 갖습니다. 미래의 평가는 자기 보고에서 이러한 다른 형태의 측정으로의 보다 일상적인 전환을 포함할 가능성이 높습니다.
그러나 우리는 미래 평가의 더 중요한 움직임은 미래의 중요한 기술을 측정하기 위해 게임과 같은 수행 기반 측정과 실제 협상 세션 또는 협력적 문제 해결 과제와 같은 상호 작용적 과제의 개발 및 채택을 포함할 것이라고 믿습니다. 성격의 수행 측정은 해당 분야에서 오랫동안 추구해 온 목표였으며(Ortner & Proyer, 2015), 일부 진전이 이루어졌습니다(Kyllonen & Kell, 2018; Linzarini & Catarino da Silva, 2024). 수행 측정은 원칙적으로 평점에 비해 상당한 이점을 갖습니다. 수행 측정은 후광, 준거 편향, 반응 양식, 사회적 바람직성과 같은 평점 편향에 영향을 받지 않으며, 행동에 대한 주관적인 평가보다는 객관적인 행동 표본이 될 수 있습니다. (그러나 관찰자 평점을 요구하는 수행 과제는 여전히 후광/뿔 효과[Noor et al., 2023], 엄격/관대함[Cheng et al., 2017] 및 편류[McLaughlin et al., 2009]와 같은 평점 편향의 영향을 받을 수 있습니다.) 수행 측정이 아직 많은 중요한 구성 개념에 대해 잘 개발되지 않았기 때문에 이러한 구성 개념은 측정을 위해 주관적인 평점에 계속 의존합니다. 우리는 수행 측정이 사용자, 학생 또는 직원의 기술 수준에 대한 추론을 도출하는 데 사용될 수 있는 프로세스 분석 및 데이터 마이닝을 포함하는 시험 없는 측정에 의해 보완될 것이라고 믿습니다(Baker & Yacef, 2009). 사회적 및 정서적 학습(Jackson, 2018; Kautz & Zanoni, 2014)에서 학업 성취도(Waheed et al., 2020) 및 STEM 직업 참여(Yeung & Yeung, 2019)에 이르기까지 다양한 영역에서 좋은 사례가 있습니다.