6  피드백: 학습과학 기반의 시험 응시자를 위한 통찰과 실행 계획

“과거에는 모든 사람이 동일한 기준에 따라 평가받았습니다. 하지만 미래에는 개인의 능력과 목표에 기반한 맞춤형 평가를 개발할 수 있을 것입니다. 이는 평가의 큰 발전을 의미합니다.” — 조아나 렌코바 (미래학자, 전략가, Futures Forward)

이 절에서는 평가가 학습을 어떻게 촉진할 수 있는지에 대한 다양한 연구를 검토합니다. 여기에는 평가와 학습의 결합, 형성평가, 테스트 효과, 개별 지도 및 지능형 튜터링 시스템과 관련된 연구가 포함됩니다. 또한 진단 평가, 과정 분석, 효과적인 방법에 대한 기존 연구, 피드백의 영향 등을 살펴보고, 학습 원리에 대한 논의로 마무리합니다. 이러한 모든 연구는 평가를 통해 수험생에게 유용한 정보를 제공하고, 그들이 교육 및 진로 목표를 효과적으로 달성할 수 있도록 지원하는 방법에 대한 시사점을 제공합니다.

능력 평가로 인한 다양한 정서의 증가 가능성을 보고한 응답자 비율

주: ETS 인간 진보 연구(ETS, 2023a)의 데이터. 설문 문항: ‘능력 평가를 받고 성장을 위한 지침을 받을 수 있다면, 다음 각각을 느끼거나 실행할 가능성이 더 높아지거나 낮아질 것입니까? (덜 가능함/변화 없음/더 가능함)’

6.1 논의의 기초 마련

시험 응시자는 단순히 합격 여부, 입학 여부, 혹은 수상 여부를 넘어 더 많은 정보를 얻기를 원하고 있습니다. ETS의 Human Progress Study (ETS, 2023a)에 따르면, 진로 상담이 포함된 평가를 제공받을 경우 응시자들은 새로운 기술을 배우려는 동기가 더 커지고, 도전에 대비할 수 있으며, 자신의 성과를 인정받고 있다고 느끼고, 자신의 역량과 새로운 직업 기회를 추구하는 데 대한 자신감을 갖는 등 긍정적인 반응을 보였습니다(그림 5 참조).

많은 경우, 시험 점수는 응시자가 자신의 성적을 해석할 수 있도록 기준 점수, 비교 집단 정보, 그리고 기술적 설명과 함께 제공됩니다. 그러나 응시자가 교육 및 진로 목표를 달성하는 데 실질적으로 도움이 될 수 있는 피드백을 제공하기 위해 더 많은 노력이 필요합니다. 이 절의 목적은 학습 과학 원리와 형성 평가, 학습을 위한 평가, 테스트 효과, 피드백, 개별 지도와 관련된 연구 결과를 바탕으로, 응시자에게 실질적이고 실행 가능한 정보를 제공하는 방안을 탐색하는 데 있습니다.

진단 평가는 오랫동안 응시자의 지식과 기술에 대한 깊이 있는 통찰을 제공하고, 보다 맞춤형 피드백의 기반이 될 것으로 기대되어 왔습니다. 그러나 진단 평가의 심리측정 모형이 상당한 발전을 이루었음에도(Rupp et al., 2010), 실제로 그 기대를 완전히 충족시키지는 못했습니다.

진단 평가의 개선과 응시자에게 보다 유용한 정보를 제공하는 데 기여할 수 있는 방법 중 하나는 과정 분석(process analysis)입니다. 과정 분석은 단순히 문항 응답 결과를 해석하는 것을 넘어, 응답 시간, 특정 응시자 행동, 그리고 협력적 문제 해결이나 협력 학습의 경우 문제 해결 과정에서 이루어지는 대화와 같은 추가 정보를 분석하는 기법입니다. 이러한 과정 분석은 학습자가 무엇을 알고 수행할 수 있는지, 혹은 무엇을 모르는지에 대한 유용한 통찰을 제공할 수 있는 원천 데이터를 제공합니다. 또한, 과정 데이터를 진단 모형과 결합하면 응시자의 지식과 개념 이해 수준에 대한 보다 구체적인 해석을 가능하게 할 수도 있습니다.

지능형 교수 시스템(Intelligent Tutoring) 또는 적응형 훈련(Adaptive Training)은 과정 분석이 활용되는 대표적인 분야 중 하나입니다(Greif et al., 2017). 학습자의 행동이 기록된 로그 파일(과정 데이터)을 실시간으로 분석하여 학습자의 지식 상태를 동적으로 모델링하고, 이를 바탕으로 적절한 교수 전략을 선택하며 학습자의 숙달도를 추정합니다. 과정 데이터와 응답 데이터는 학습자의 지식 평가에 기여하며, 학습 전반에 걸쳐 피드백이 제공됩니다.

인간 교사가 학생의 이해도를 질문을 통해 확인하고 이에 맞춰 수업을 조정하는 것과 유사하게, 지능형 교수 시스템도 학습자의 반응을 분석하여 적절한 피드백을 제공합니다. 인간 교사(Nickow et al., 2020; VanLehn, 2011)와 컴퓨터 기반 튜터링 시스템(Duolingo Team, 2023; Sottilare et al., 2018)에서 피드백이 활용되는 방식을 분석하면, 평가 환경에서 피드백을 효과적으로 활용하는 방안을 모색하는 데 도움이 될 수 있습니다.

결론적으로, 평가에서 유용한 피드백을 제공하기 위한 노력은 학습 원리에 기반해야 합니다. 피드백은 교수의 한 형태이며, 효과적인 학습 방법에 대한 기존 연구를 검토하는 것이 중요합니다. 이러한 연구는 학습 원리의 형태로 정리되어 있으며, 이를 평가와 피드백 설계에 반영하는 것이 필요합니다.

6.2 평가와 학습의 결합을 위한 패러다임

이 섹션은 다음과 같은 순서로 구성됩니다. 먼저, 평가와 학습을 결합하는 다양한 패러다임을 살펴봅니다. 여기에는 형성 평가(formative assessment), 이와 거의 동일한 개념인 학습을 위한 평가(assessment for learning), 인지심리학의 기억 연구에서 비롯된 테스트 효과(testing effect), 그리고 인간 및 기계 기반 교수(tutoring)가 포함됩니다. 다음으로, 교수 과정에서 피드백이 미치는 영향을 분석한 연구들을 검토합니다. 이후, 진단 평가(diagnostic assessment)와 과정 분석(process analysis)에 대한 논의를 진행한 후, 학습 원리에 대한 검토를 수행합니다. 마지막으로, 시험 과정에서 제공되는 피드백이 개인의 학습 성과를 향상시키고, 교육적 형평성을 증진하며, 궁극적으로 사회 전체에 긍정적인 영향을 미칠 수 있는 방안을 논의하며 결론을 맺습니다.

6.2.1 형성평가(학습을 위한 평가)

평가가 학습을 향상시키는 방법에 대한 개념과 연구는 매우 다양하다. 그중 하나가 형성 평가(formative assessment)이며, 이는 다양한 정의를 포함하는 폭넓은 개념이다(Bennett, 2011). Xuan et al.(2022, 부록 A)은 여러 연구에서 제시된 19개의 정의를 수집하여 무엇(what), 왜(why), 언제(when), 누구(who), 어떻게(how)라는 질문을 기준으로 체계화하였다.

Xuan et al.(2022)의 정의를 비공식적으로 요약하면, 형성 평가는 학습자의 현재 위치와 목표를 파악하고, 학습 능력을 향상시키거나 교수 방식을 조정하는 과정(혹은 도구)이며, 수업 중(혹은 교수 과정에서) 교사(혹은 학생 또는 동료)가 다양한 접근법을 활용하여 수행하는 평가이다.

Shepard(2017)는 형성 평가를 “수업 중 교수와 학습을 개선하는 평가”(p.279)라고 가장 간결하게 정의하였다. 반면, Black & Wiliam(1998)의 정의는 가장 영향력이 크며, “형성 평가는 학생의 필요에 맞춰 교수와 학습을 조정할 수 있도록 정보를 제공하는 평가 활동”(pp. 7-8)이라고 설명한다.

형성 평가와 관련된 개념으로는 학습을 위한 평가(Assessment for Learning, AfL), 학습 자체로서의 평가(Assessment as Learning), 형성적 평가(Formative Evaluation), 교육과정 기반 평가(Curriculum-Based Assessment) 등이 있다. 하지만, Xuan et al.(2022)과 Klute et al.(2017)의 메타분석에서는 이러한 개념들을 본질적으로 구분되지 않는 것으로 보았다. 특히, Xuan et al.(2022)은 형성 평가의 메타분석에서 피드백 개념도 포함하였다. 학습을 위한 평가(AfL)에 대한 비교 가능한 정의 목록이 존재하지 않기 때문에, 두 개념을 동의어로 간주하는 것이 편리하다.

형성 평가의 효과를 분석한 여러 메타분석 연구가 진행되었으며, 다양한 정의로 인해 효과 크기(Effect Size)에 대한 추정치도 상이하게 나타났다.

Fuchs & Fuchs(1986)는 형성 평가의 효과 크기를 0.7로 보고했지만, Kingston & Nash(2011)는 연구 포함 기준의 엄격성 차이로 인해 영어(0.32), 수학(0.17), 과학(0.09)에서 더 낮은 효과 크기를 제시했다.

Klute et al.(2017)의 연구에서는 수학(0.36), 읽기(0.22), 쓰기(0.21)의 효과 크기를 보고했으며, 형성 평가가 학생 주도(student-directed)인지 교사 주도(other-directed)인지에 따라 차이가 있음을 발견했다.

학생 주도(student-directed) 평가: 학생들이 교사 없이 정해진 절차에 따라 그룹 활동을 수행 (수학 효과 크기: 0.45) 교사 주도(other-directed) 평가: 교사가 직접 지도하고 수업을 조정 (수학 효과 크기: 0.30) 읽기에서는 교사 주도 평가가 학생 주도 평가보다 더 높은 학습 향상을 보임. 그러나 학생 주도 vs. 교사 주도 평가를 비교한 연구 수가 적고, 연구별 개입 방식이 달랐기 때문에 이러한 차이가 학생 주도/교사 주도 여부 때문인지 여부는 명확하지 않다.

Xuan et al.(2022)의 메타분석에서는 추가적으로 다음과 같은 결과를 보고했다.

교사-학생 협력 형성 평가가 교사 주도 형성 평가보다 효과적 맞춤형 지도(differentiated instruction, 평가 결과에 따라 교수법을 조정)비맞춤형 지도(nondifferentiated instruction)보다 효과적 앵글로권(Anglophone)과 유교 전통(Confucian-heritage) 문화권 간 차이가 존재하며, 유교 전통 문화권에서 더 높은 효과 크기가 나타남

6.2.2 검사 효과

검사 효과는 검사를 받는 것의 기억에 대한 이점을 설명하는 용어입니다—특히 개념에 대해 검사를 받는 것이 그 개념의 학습을 향상시킬 수 있다는 것입니다. 검사 효과는 인지심리학의 인간 기억 문헌에서 나왔습니다(Karpicke & Blunt, 2011). 기본 아이디어는 학습이 초기 교수(노출), 이어서 학습(또는 연습), 그리고 최종 검사로 나눠질 수 있다는 것입니다. 실증적 발견은 일부 중간 검사가 일부 학습을 대체하면, 최종 검사가 대체 없이보다 자료에 대한 더 큰 기억을 보여줄 것이라는 것입니다. 이 발견은 비교 조건인 학습 단계가 단순 시연보다 더 큰 기억 향상을 산출하는 것으로 알려진 기억 정교화와 같은 능동적 학습을 포함하는 경우에도 사실입니다. 검사 자체가 학습에 비해 왜 향상을 산출하는지에 대해 생각하는 한 가지 방법은 중간 검사가 특히, 하지만 중간(및 최종) 검사가 회상 검사인 경우에만은 아닌, 인출 연습의 기회를 제공한다는 것입니다. 인출 연습은 나중 검사가 인출을 포함하기 때문에 나중 검사 동안 가치가 있습니다. 따라서 검사 효과 현상의 또 다른 용어는 연습 검사 또는 검사 연습으로, 학습자가 검사를 볼 때 하는 것이 검사 응시를 연습하는 것이라는 아이디어를 전달합니다(Adesope et al., 2017).

Bangert-Drowns et al.(1991)의 초기 연구 이후 검사 효과에 대한 발견을 지지하는 여러 메타분석이 있었습니다. 실험실 연구에 초점을 맞춘 Rowland(2014)는 검사 효과의 다양한 이론적 설명에 대한 증거를 조사했습니다. 그는 재학습과 비교했을 때 검사 효과에 대해 0.50의 효과 크기를 발견했습니다. 또한 검사 효과가 회상에서 더 크지만 재인 검사에서도 여전히 존재하며, 단기와 장기 간격 모두에서 작동하고, 언어적 및 비언어적 자료 모두에서 작동한다는 것을 발견했습니다. 검사 효과는 실험실 연구에 국한되지 않습니다. Phelps(2019)의 메타분석은 검사 효과를 훨씬 더 광범위하게 정의하여 지난 세기 동안 일반적으로 검사의 효과에 대해 수행된 많은 연구를 포함했으며, 0.55에서 0.88에 이르는 효과 크기를 발견했습니다. Adesope et al.(2017)은 Phelps에 비해 범위를 제한하여 양적, 저부담 연구만을 포함했으며, 118개 실험에서 272개의 효과를 조사하여 0.61의 평균 효과 크기를 발견했습니다(학습 자체와 비교했을 때 0.51; 통제 조건이 검사와 무관할 때 0.93). 또한 처치로서 객관식 검사(0.70)가 단답형 검사(0.48)보다 더 큰 향상을 주었고 둘을 함께 했을 때 더 높았으며(0.80), 하나보다 더 많은 연습 검사보다 단일 연습 검사가 가장 좋았고, 효과는 실험실과 교실 환경 그리고 초등, 중등, 고등 환경에서 유사하게 발생했다는 것을 발견했습니다.

검사 효과 외에도, Roediger et al. (2011)은 시험이 교육에 미치는 실질적인 이점들을 확인했습니다. 직접적인 이점은 회상 연습이 학습한 내용을 더 잘 기억하게 하고(테스팅 효과), 관련된 자료까지 기억하는 데 도움을 주며, 새로운 상황에 적용할 수 있도록 도와준다는 것입니다. 개방형 평가 또한 학생들이 정보를 조직하는 데 도움을 줍니다. 간접적인 이점으로는 자주 시험을 보면 학생들이 더 많이 공부하게 되고, 자신의 지식에서 부족한 부분을 발견할 수 있게 됩니다(이것은 명시적 또는 암시적인 피드백, 특히 시험 결과를 알게 되어 발생합니다). 또한 더 어려운 부분에 집중하게 됩니다. Roediger et al.는 자기 시험과 자주 퀴즈를 풀기를 권장했습니다.

6.2.3 튜터링

개인 튜터링, 즉 1:1 또는 소규모 그룹(5명 이하)은 가장 효과적인 교육 방법 중 하나로 간주됩니다. Bloom(1984)은 세 가지 연구에서 얻은 증거를 통해, 좋은 튜터의 1:1 튜터링이 전통적인 교육 방식보다 2 표준편차만큼 향상된 성과(즉, 효과 크기 2.0)를 보였다고 발표했습니다(그리고 형성 평가가 포함된 숙련도 학습보다 약 절반 정도의 향상). 그는 1:1 튜터링이 너무 비용이 많이 든다고 주장하면서, 사회적 목표는 튜터링의 이점을 더 실용적이고 현실적인 방법으로 달성하는 방법을 찾는 것이라고 언급했습니다. 이를 그는 “2시그마 문제”라고 불렀습니다.

Dietrichson et al. (2017)의 메타 분석에서는 36개의 연구를 통해 튜터링이 피드백, 진척도 모니터링, 협력적 학습과 함께 가장 강력한 학업 개입 방법으로 나타났다고 결론지었습니다. 이들 개입은 모두 약간 낮은 효과 크기를 보였지만, 여전히 표준화된 성취도 시험 점수에 미치는 영향에서 가장 큰 영향을 미친 것으로 평가되었습니다(이 연구에서는 14개 개입 유형 중). 특히 저소득층 학생들을 대상으로 한 연구에서 튜터링의 효과 크기는 .36으로 더 겸손하지만 여전히 상당한 효과가 있었습니다(피드백의 경우 .32, 협력적 학습은 .22). 이는 읽기와 수학에서 평균 개입 효과 크기인 .09와 .08에 비해 훨씬 큰 차이를 보입니다. Dietrichson et al.은 연구의 엄격성을 검토했으며(예: 치료 대 통제군 설계, 대부분은 76%가 무작위 통제 시험), 또한 표준화된 성취도 시험을 결과로 사용했는데, 이는 개입 내용의 오염 편향을 피하기 위한 조치였습니다. 이로 인해 Bloom(1984)의 튜터링 효과 크기 추정과 Dietrichson et al.의 추정치 간 차이가 일부 설명될 수 있습니다.

Dietrichson et al. (2017)은 개입 방법에 초점을 맞춘 반면, Nickow et al. (2020)은 튜터링 자체에 초점을 맞추어 96개의 연구를 검토하고 프로그램 특성과 맥락이 미치는 영향을 조사했습니다. 이들은 효과 크기 추정치를 .37로 제시하며, “튜터링 프로그램은 PreK-12 수준에서 가장 유연하고 잠재적으로 혁신적인 학습 프로그램 유형”이라고 결론지었습니다. 연구에서는 튜터링을 교사나 교사 보조원이 진행할 때, 부모가 진행할 때보다 효과가 더 컸으며, 초등학교 저학년에서 더 큰 효과가 나타났고, 학교에서 진행되는 튜터링이 방과 후에 진행되는 튜터링보다 효과적이었다고 밝혔습니다. 또한, 연구팀은 방과 후 부모 튜터링이 실행의 통제가 더 어려운 방식이라고 제안했습니다.

튜터링은 지금까지 확인된 가장 강력한 교육 개입 방법인데, 왜 그렇게 효과적일까요? Nickow et al. (2020)은 여러 가지 가능성을 제시했습니다. 첫 번째 가능성은 튜터링이 일반적으로 교실 수업을 보완하는 방식으로 사용되기 때문에 학습 시간을 더 많이 제공하기 때문입니다. 두 번째는 튜터링이 학생의 수준에 맞는 맞춤형 학습을 제공한다는 점으로, 이는 추적이나 학급 규모 축소를 통해 어느 정도는 구현될 수 있습니다. 세 번째는 튜터링이 학생의 참여를 촉진하고 빠른 피드백을 가능하게 하여, 학생이 더 많은 노력을 기울이도록 자극한다는 것입니다. 마지막으로, 튜터와의 인간적인 연결이나 멘토십 관계가 중요한 역할을 할 수 있습니다.

VanLehn (2011)은 튜터링이 학습 결과에 영향을 미칠 수 있는 잠재적인 메커니즘을 제시하면서, 인간 튜터가 컴퓨터 튜터보다 더 잘할 수 있는 부분에 집중했습니다. 그가 충분한 연구 지원을 찾지 못한 가능한 가설들은 다음과 같습니다:

인간 튜터는 학생의 지식과 오해에 대한 자세한 진단 모델을 개발한다고 여겨지지만, 실제로 인간 튜터가 이를 수행한다는 경험적 증거는 거의 없습니다. 튜터는 학생에게 필요한 정확한 과제를 선택한다고 여겨지지만, 이는 컴퓨터 튜터도 마찬가지로 할 수 있기 때문에 인간의 장점이라고 할 수 없습니다. 인간 튜터는 정교한 튜터링 전략을 사용할 수 있다고 생각되지만, 연구에 따르면 인간은 실제로 복잡한 튜터링 전략을 잘 사용하지 않는다고 합니다. 인간은 주제에 대해 깊은 지식을 가지고 있어 관련 아이디어를 제공할 수 있다고 여겨지지만, 관련 지식이 제공되더라도 결과에 큰 영향을 미치지 않는다고 연구에서 밝혀졌습니다. Nickow et al. (2020)와 마찬가지로 VanLehn은 “따뜻한 몸” 효과, 즉 튜터가 칭찬을 통해 동기 부여를 높일 수 있다는 가설을 제시했지만, 이 또한 연구에서 충분한 지지를 받지 못했습니다. 하지만 VanLehn (2011)은 다음과 같은 가설들에 대해 지지를 받았습니다:

인간 튜터는 필요한 순간 즉시 피드백과 힌트를 제공한다. 인간 튜터는 학생의 사고 과정을 돕는 스캐폴딩을 제공한다 (즉, “유도된 프롬프트”를 제공한다). 튜터는 학생이 더 능동적이고 건설적인 행동을 하도록 격려하여 학습을 촉진한다.

VanLehn (2011)은 또한 경험적 문헌에서 지지를 받은 이 세 가지 가설이 Chi와 Wylie (2014)의 상호작용적, 구성적, 능동적, 수동적 (ICAP) 프레임워크와 일치한다고 제안했습니다. 이 프레임워크는 학생들의 참여 행동을 네 가지 ICAP 모드(상호작용적, 구성적, 능동적, 수동적)로 분류할 수 있으며, 학습은 학생들이 학습 자료와 더 많이, 그리고 더 적극적으로 참여할수록 증가한다고 설명합니다. 상호작용적 학습은 참여의 최고 단계로, 그만큼 학습 효과도 가장 큽니다.

6.2.4 지능형 교수(적응형 교수) 시스템

지능형 튜터링 시스템(ITS) 또는 적응형 교육 시스템(AIS)은 컴퓨터를 튜터로 활용하는 방법으로, Bloom(1984)의 2-시그마 문제를 해결하려는 노력의 일환입니다. ITS에 관한 방대한 문헌이 존재하며, 11권의 시리즈(및 분석)에 포함된 연구들이 있습니다(Sinatra et al., 2023). 이에는 ITS의 모든 측면에 대한 강점-약점-기회-위협 분석도 포함되어 있습니다(Goldberg & Sinatra, 2023). 전통적인 ITS의 구조는 학습자 모델, 도메인 또는 커리큘럼 모델, 교육학적 모델로 구성됩니다. 학습자 모델은 학습자의 현재 지식과 기술 수준, 그리고 현재 상태를 나타냅니다. 도메인 모델은 가르칠 커리큘럼이나 지침을 나타내며, 도메인 콘텐츠 선택을 위한 규칙(적응적 순서 지정)을 포함합니다. 교육학적 모델은 학습자의 수행에 따라 언제 피드백이 필요한지를 식별합니다(적응적 피드백), 이는 ITS 아키텍처에서 중요한 요소입니다. 더 간단하게 정의하자면, ITS는 문제 해결 중에 개인화된 프롬프트, 힌트, 지원 피드백을 제공하는 시스템입니다(VanLehn, 2011).

적응성이 중요한 요소라는 일부 증거가 있는 것으로 보입니다. 적응형 교육 시스템은 학습자 모델을 사용하여 개인화를 구현합니다(예: 적응형 피드백, 과제나 활동의 적응형 순서). 이 학습자 모델에는 학습자의 인지적, 메타인지적, 정서적, 성격적, 사회적, 지각적 특성에 대한 정보가 포함될 수 있습니다(Abyaa et al., 2019; Shute & Zapata-Rivera, 2012). 학습자 모델은 또한 학습자, 교사 및 다른 대상에게 제공되어 메타인지적 과정, 협력, 내비게이션, 신뢰 및 모델의 정확성을 지원할 수 있습니다(Bull & Kay, 2016). 학습자 모델 정보를 공유하는 데 사용되는 정보 유형과 메커니즘은 각 대상의 필요, 지식 및 태도에 따라 달라집니다(Zapata-Rivera & Forsyth, 2022; Zapata-Rivera, Graesser et al., 2020).

“입력 기회 간 참가자에게 요구되는 추론의 양”을 곡물 크기(grain size)로 정의할 수 있습니다(VanLehn, 2011, p. 202). VanLehn(2011)은 피드백이 답변 후에만 제공되는 답변 기반 튜터링(적응형 테스트와 유사)에서부터, 문제 해결 단계 후에 피드백이 제공되는 단계 기반 튜터링, 문제 해결 단계보다 더 세분화된 피드백과 스캐폴딩을 제공하는 서브단계 기반 튜터링에 이르기까지 상호작용의 크기(세분화 수준)가 점진적으로 커지는 연속체를 제안했습니다. 인간 튜터링은 언제든지 개입할 수 있습니다. VanLehn은 상호작용의 세분화 가설을 제안하며, 튜터링이 효과적인 정도는 문제 해결 단계 내 또는 단계 후에 피드백을 제공하는 방식에 따라 달라진다고 했습니다. 그는 단계 기반 튜터링이 서브단계 튜터링만큼 효과적이라는 증거를 발견했으며, 따라서 단계 기반 튜터링이 최적의 곡물 크기라고 결론지었습니다.

피드백은 또한 매우 중요합니다. Shute(2008)에 따르면, 적응형 피드백은 제공되는 정보의 양(예: 확인 피드백, 힌트, 상세한 피드백), 피드백의 시기(예: 즉시, 지연된 피드백), 그리고 피드백의 목표(예: 즉각적인 다음 단계 안내, 학습 목표 달성의 진행 상황에 대한 안내) 등에 따라 달라질 수 있습니다. 적응형 기능(예: 개인화된 피드백)은 매크로 수준에서 학습 목표를 달성하기 위한 최적의 과제를 선택하거나, 마이크로 수준에서 현재 과제의 다양한 측면과 피드백의 수준을 조정하는 방식으로 제공될 수 있습니다(VanLehn et al., 2007).

6.3 진단 평가와 과정 분석

인지 진단 모델링(CDM)은 문제 해결과 관련된 인지 처리 요구 사항을 나타내는 특징으로 코드화된 문제 항목이나 과제에 대한 반응을 모델링하는 방법의 집합입니다. CDM을 사용하여 반응 데이터를 모델링하는 동기는 학습자의 기본적인 정보 처리 방식을 드러내기 위해서입니다. 이를 통해 학습자가 올바르게 또는 잘못 답한 항목의 패턴을 바탕으로 학습자가 무엇을 알고 무엇을 모르며, 그들이 가질 수 있는 오해를 추론할 수 있습니다. 인지 진단 모델링의 약속은 학습자의 문제 해결 특성을 진단 목적으로 드러내어, 학습과 피드백을 학습자에게 맞춤화할 수 있게 하는 것입니다. CDM의 동기와 접근법은 학생 모델링을 다루는 ITS 문헌의 동기와 접근법과 유사하며, 이 역시 맞춤화에 관심이 있지만, 최근까지 그들의 역사적 배경은 독립적이었습니다. CDM은 심리측정학의 한 분야이고(von Davier, 2010), ITS 학생 모델링은 완전히 인지 심리학의 학습 문헌에서 발전하였으며(Corbett & Anderson, 1994), 학생 모델링을 위해 ’지식 추적’이라는 방법을 채택했습니다(Liu, Kell, et al., 2023).

인지 진단 모델링과 평가에 대한 연구는 오랜 역사와 방대한 문헌이 있습니다(Rupp et al., 2010). 최근에는 응답 시간과 같은 과정 데이터를 통합하여 개인의 학습 과정을 더 잘 이해하려는 노력이 진행되고 있습니다(Zhan et al., 2018). 또한, CDM과 ITS 학생 모델링 문헌을 연결하려는 시도도 있었습니다(Wang et al., 2018). 한 가지 접근 방식은 CDM을 Bayesian 지식 추적(BKT)에 사용하는 것으로, 이는 숨겨진 마르코프 모델(HMM)을 기반으로 ITS 문헌에서 사용되는 학생 모델링 방법입니다(Wang et al., 2018, 2020). Wang et al. (2018)은 BKT HMM과 CDM 프레임워크를 결합하여 여러 기술의 성장 추적을 가능하게 하고, HMM 기술 전이를 모델링하기 위해 공변수를 수용할 수 있도록 했습니다. 이 분야는 빠르게 성장하고 있으며, 점점 더 정확하고 해석 가능하며 실행 가능한 인지 진단을 통해 맞춤화가 강화될 것으로 기대됩니다(Wang et al., 2020).

6.4 피드백

지금까지의 논의는 피드백이 많은 교육 개입의 핵심 요소임을 시사합니다—형성 평가, 테스트 효과, 인간 및 기계 튜터링 등에서 중요한 역할을 합니다. 또한, 피드백이 교육적 성과에 미치는 영향에 대한 독립적인 연구 문헌도 존재합니다. 컴퓨터 기반 교육의 잠재력을 보여준 초기 연구에서 Azevedo와 Bernard(1995)는 컴퓨터 기반 교육에서 피드백이 즉각적인 성취도 사후 테스트에서 0.80, 지연된 사후 테스트에서 0.35의 효과 크기를 나타냈다고 보고했습니다. Hattie와 Timperley(2007)는 0.79의 효과 크기를 추정했으며, 최근 Wisniewski et al.(2020)은 더 엄격한 배제 규칙을 사용하여 0.48의 효과 크기를 추정했지만 상당한 이질성이 있었습니다. 피드백 효과는 인지 및 운동 기술에 비해 동기 및 행동 기술에서 더 컸습니다. 또한, 피드백은 제공되는 정보의 양에 따라 더 효과적이었으며, 실수의 원인과 그 해결 방법을 학생들이 이해할 수 있도록 도와주는 것이 가장 유익했습니다. 피드백의 타이밍도 중요한 요소로 밝혀졌습니다(Hattie & Timperley, 2007). 즉각적인 피드백은 종종 더 효과적이지만, 학습자가 복잡한 과제에 참여하는 경우 지연된 피드백이 더 효과적일 수 있습니다(예: Attali & van der Kleij, 2017; Fyfe et al., 2021; Hattie, 2009).

효과적인 피드백은 교육적 맥락, 과제의 성격, 학습자의 특성을 고려해야 한다고 Shute (2008)는 제안했습니다. 무엇이 가장 효과적인지는 상황에 따라 달라질 수 있습니다. Panadero와 Lipnevich (2022)는 다양한 상황에서 효과적일 수 있는 피드백의 통합적인 유형을 제시했습니다. 이 유형은 피드백을 내용(예: 확인, 설명), 기능(예: 학습 지원, 동기 부여, 숙달 지향성 증진), 제시 방법(예: 즉시성, 빈도, 학습자의 진전에 따른 적응성, 피드백을 전달하는 매체의 수), 출처(예: 교사, 동료, 자기, 컴퓨터)로 분류합니다.

정보성 피드백은 성취도뿐만 아니라 학습자의 참여도, 노력, 지속성, 만족도와 같은 동기 변수에도 영향을 미칩니다 (Narciss, 2004). Shute (2008)는 효과적인 교수 피드백이 여러 가지 특성을 가져야 한다고 주장했습니다. 피드백은 다음과 같은 특성을 가져야 합니다:

편향되지 않아야 함: 피드백은 공정하고 균형 잡혀야 합니다 (Kluger & DeNisi, 1996; Panadero, 2023). 학습자가 아니라 과제에 초점을 맞춰야 함: 피드백은 학습자가 아닌 과제에 초점을 맞추어야 합니다 (Fyfe et al., 2023). 구체적이고 명확해야 함: 피드백은 학습자의 오해를 해결하고 장기적인 학습을 유도할 수 있도록 구체적이고 명확한 형식으로 제시되어야 합니다 (Attali & van der Kleij, 2017; Moreno, 2004). 학습자가 과제를 시도한 후 제공되어야 함: 피드백은 학습자가 학습 과제를 시도한 후에 제공되어야 합니다 (Hattie & Gan, 2011). 지속적인 학습을 촉진해야 하며, 학습자의 현재 성과와 의도된 학습 결과 사이의 불일치를 줄여야 함: 피드백은 학습자의 성과와 목표 간의 차이를 줄이고 학습이 계속해서 이루어지도록 돕는 역할을 해야 합니다 (Leenknecht et al., 2019).

6.5 혁신적 평가 설계에 대한 시사점

효과적인 피드백은 학습자가 자신의 학습을 개선할 방법과 그 개선을 도울 수 있는 자원을 어떻게 사용할지 안내하는 도구입니다 (Hattie & Timperley, 2007). 효과적인 피드백의 특성을 이해하는 것은 인간 간 피드백의 이점을 훨씬 더 큰 규모로 제공할 수 있는 디지털 학습 및 평가 시스템의 설계에 도움이 될 수 있습니다. 이러한 지식은 혁신적인 평가 시스템 내에서 피드백 기능을 구조화하는 데 사용되어 모든 학습자가 특정 학습 목표에 맞는 다양한 유형의 피드백을 받을 수 있도록 보장할 수 있습니다.

미래의 디지털 평가 설계는 각 학습자의 강점과 약점에 맞춘 개인화된 피드백을 제공하는 방법을 고려해야 하며 (Panadero & Lipnevich, 2022), 이를 통해 보다 효과적인 학습 경험을 이끌어낼 수 있습니다. 모든 학생이 공평한 학습 경험에 접근하고 참여할 수 있는 기회를 가질 수 있도록 하기 위해, 디지털 평가는 명확하고 접근 가능하며 다양한 학생의 요구를 수용하는 피드백을 제공해야 합니다. 잘 설계된 개인화된 피드백은 또한 매우 동기 부여가 될 수 있으며, 학습을 향상시킬 수 있는 정보만 제공하는 것이 아니라 학습 과제와 관련된 더 큰 흥미와 가치를 전달할 수 있습니다 (Narciss et al., 2014). 평가 설계에 따라 피드백은 교사, 동료 또는 시뮬레이션된 에이전트와의 대화형 상호작용을 통해 학습자를 참여시킬 수 있으며, 이는 학습 경험을 더 상호작용적이고 협력적이며 흥미롭게 만들 수 있습니다.

디지털 평가에서 학습자를 위한 피드백을 이해하고 포함시키는 것은 여러 면에서 평가의 혁신과 개선으로 이어질 수 있습니다. 디지털 학습 플랫폼 내에서 피드백을 찾는 행동은 스스로 조절하는 학습(self-regulated learning)과 관련된 행동을 나타내는 지표가 될 수 있습니다. 예를 들어, 이러한 행동과 관련된 클릭스트림 데이터를 분석하면 학생들이 학습 과정을 어떻게 관리하고, 지도나 피드백을 어떻게 구하며, 이를 바탕으로 전략을 어떻게 조정하는지에 대한 통찰을 제공할 수 있습니다 (예: Aguilar et al., 2021; Bernacki, 2018; Ober et al., 2023; Tenison & Sparks, 2023). 이 이해는 자가 조절 학습을 촉진하고 학생들이 더 효과적인 학습 습관을 개발하도록 유도하는 평가 설계를 돕는 데 활용될 수 있습니다. 학습자에 대한 지원은 개별 학생이 피드백에 얼마나 반응하는지, 피드백에 따른 행동, 그리고 개선이 필요한 특정 영역에 맞춰 맞춤화될 수 있습니다. 다중모드 데이터 소스를 활용하면 학생들의 학습 행동에 대한 더 포괄적인 시각을 제공하고, 보다 효과적이고 개인화된 개입을 가능하게 합니다 (Lehman et al., 2018; Sparks et al., 2024; Zapata-Rivera, Lehman, & Sparks, 2020). 이러한 발전은 전체 학습 경험을 향상시키고 디지털 학습 환경에서 더 나은 교육적 결과를 이끌어낼 잠재력을 지니고 있습니다.

6.6 학습 원리

시험 응시자에게 피드백을 제공하는 기반은 학습 원칙에 뿌리를 두어야 합니다. 이전 섹션에서는 피드백 생성 및 전달을 지원하는 학습 원칙을 다루었지만, 지난 한 세기 동안 발전해 온 더 넓은 학습 원칙들을 고려하는 것도 유용합니다. 이 문헌은 방대하지만, 미래의 평가 맥락에서 특히 적합할 수 있는 몇 가지 유용한 종합이 존재합니다. Thorndike는 효과(강화), 연습(실습), 준비성(준비성)의 세 가지 학습 법칙을 제안했으며, 이는 여전히 유효합니다. 미국심리학회(APA, 2018)는 PreK–12 교육을 위한 심리학 원칙 중 상위 20가지를 제시했으며, 여기에는 사고 및 학습, 동기 부여, 사회적·정서적 맥락, 교실 관리, 학생 진척도 평가와 관련된 원칙이 포함됩니다. 카네기 멜론 대학교의 Eberly Center(2024)는 효과적인 학습을 위한 일곱 가지 원칙을 제시했으며, 그 중 일부는 학습에 도움이 되거나 방해가 될 수 있는 이전 지식, 지식 조직이 학습에 미치는 영향, 동기가 학습 행동을 지배한다는 점, 기술 구성 요소를 결합하고 목표 지향적인 연습과 피드백이 중요하다는 점, 사회적·정서적 요소와 지적 요소가 모두 중요하다는 점, 그리고 자기 모니터링과 조정이 자기 주도적 학습자가 되는 데 중요하다는 점을 강조합니다. Schwartz et al. (2016)은 교육자들이 사용할 수 있도록 설계된 26개의 학습 원칙에 대한 근거 기반 요약을 제공했습니다.

Bjork와 Bjork(2011)는 ’바람직한 어려움(desirable difficulties)’이라는 개념을 중심으로 학습 원칙들을 강조했습니다. 바람직한 어려움은 학습에 어려움을 주지만, 그 결과 더 오래 가고 유연한 학습을 유도하는 학습 조건을 의미합니다. 여기에는 연습 조건을 다양하게 설정하기, 시험 전에는 벼락치기보다는 학습 세션과 연습 세션을 간격을 두고 배치하기, 전체적인 학습의 일부로서 학습해야 할 과제들을 차례대로(차단하지 않고) 가르치는 것, 그리고 생성 효과 및 관련된 시험 효과가 포함됩니다(앞서 다룬 내용). 각 조건에서 쉬운 조건은 단기적으로 성과를 올릴 수 있지만, 어려운 조건은 장기적인 성과와 습득한 지식을 더 유연하게 활용할 수 있게 하므로, 바로 이러한 조건들이 바람직한 어려움입니다.

국립연구위원회(National Research Council, 2000)와 국립과학기술학회(National Academies of Science, Engineering and Medicine, 2018)는 다양한 학문 분야에서 학교 및 직장 환경을 아우르는 학습 원칙을 요약한 “How People Learn”“How People Learn II”라는 두 권의 포괄적인 시리즈를 발행했습니다. 이 시리즈는 문화, 학습 유형, 지식과 추론, 동기, 학교 학습, 기술, 생애 전반에 걸친 학습 등 다양한 주제를 다루며 결론을 도출하고 있습니다. 또한, 학습 맥락과 기술이 학습에 미치는 중요성에 관한 향후 연구에 대한 권장 사항도 제시하고 있습니다. 이 두 권과 그 외의 자료에서 다룬 학습 원칙들은 평가 맥락에서 적용될 수 있는 피드백 개발을 안내하는 데 사용할 수 있습니다.

6.7 결론: 피드백

이 섹션에서 다룬 문제는 테스트가 종종 시간, 노력, 비용 면에서 수험자에게 많은 요구를 하지만, 그에 비해 교육적 가치는 거의 제공하지 않는다는 점입니다. 질문은 시험이 수험자에게 어떤 가치를 제공할 수 있을까요? 이 섹션에서는 평가와 테스트가 수험자나 평가 대상에게 유용한 정보를 제공하거나 기술 습득을 돕는 여러 방법을 살펴보았습니다. 또한, 시험이 제공할 수 있는 정보의 가치나 지원에 대한 근거 기반 추정치를 제공했습니다. 우리는 시험 점수와 종종 제공되는 규범적 기준 외의 정보를 중점적으로 다루었으며, 규범적 및 해석적 정보가 여전히 중요한 가치를 제공한다는 점도 언급했습니다.

형성 평가는 테스트를 교육 과정의 중요한 부분으로 사용하는 것으로, 매우 다양한 방식으로 구현되지만, 학습에 상당히 긍정적인 영향을 미친다는 것이 입증되었습니다. 테스트 효과, 또는 테스트 연습은 학습자의 공부 시간을 일부 테스트 시간으로 대체하는 것인데, 이는 학습 결과에 강한 긍정적인 효과를 미친다고 보여졌습니다. 인간 튜터링은 가장 강력한 교육적 개입 중 하나로 밝혀졌으며, 컴퓨터 기반 지능형 튜터링 또는 적응형 교육도 마찬가지로 강력한 개입으로 확인되었습니다. 인간 또는 기계 튜터링이 강력한 이유는 완전히 이해되지 않았지만, 피드백 제공, 유도된 프롬프트, 상호작용 촉진 및 건설적인 행동을 장려하는 것이 중요한 요소라는 증거가 있습니다. 튜터링은 또한 학습자의 인지 진단을 수행하며, 테스트도 유사한 역할을 합니다. 점점 더 정교해지는 인지 진단 모델링은 AI 기술의 발전을 활용하고, 테스트 응답자의 더 많은 과정 행동을 학습자 모델에 통합하여 학습자에게 맞춤형 지도를 제공하는 데 유용한 지원을 약속합니다.

피드백 역시 학습을 개선하는 강력한 수단으로 개인화가 중요한 역할을 한다는 것이 밝혀졌습니다. 어떤 종류의 피드백이 가장 효과적인지에 대해서는 이미 많은 것이 알려져 있으며, 생성적 AI를 활용하여 학습자와 학생들에게 유용한 피드백을 제공하는 것은 유망한 새로운 방향입니다. 마지막으로, 학습 과정 자체에 대해 우리는 몇 십 년 전보다 훨씬 더 많은 것을 알고 있으며, 이를 통해 향상된 학습 결과를 도출할 수 있는 방법도 많이 알게 되었습니다. 피드백, 지도, 학습 지침을 수립할 때 증거 기반 학습 원칙을 따르는 것이 평가의 가치를 상당히 향상시킬 것입니다.

따라서 평가는 학습자가 자신의 기술 수준에 대한 정보를 교사나 정책 입안자에게 제공하고, 동시에 그들 또한 학습 여정에서 다음에 무엇을 해야 할지에 대한 지침을 받아 현재의 기술 수준과 학습 목표 사이의 격차를 좁히고, 기술을 향상시키며, 자율성, 능숙함, 소속감을 개발하는 두 가지 방향으로 이루어질 수 있습니다. 적절하게 설계되고 개인화된 피드백 제공은 교육의 공평성을 위한 목표를 달성하고 모든 학습자의 학습과 성과를 촉진하는 데 기여할 수 있습니다.