8 감사의 말씀
Kadriye Ercikan, Ida Lawrence, Michelle Froah, Sarah Rhame, Christine Betaneli, Kateryna Komarova, Charlotte Kirkby, Matthew Johnson이 이 보고서에 기여하였습니다.
8.1 주석
ETS Human Progress Study (ETS, 2023a)는 세계적인 미래 분야의 사상가 9명과의 심층 인터뷰 및 Harris Poll과 협력하여 진행된 설문조사입니다. 이 설문조사는 2023년 9월 18일부터 27일까지 17개 고소득 및 중소득 국가에서 18세 이상 17,143명의 응답자를 대상으로 진행되었으며, 응답자들은 평가의 미래와 기타 사회적 문제 및 사회적 결과와 관련된 다양한 주제에 대한 의견을 제공했습니다. 본 논문에서는 사상가들의 의견을 인용하고, 연구의 설문 결과를 제시합니다. 데이터는 전체 인구를 대표할 수 있도록 가중치가 부여되었습니다. 그러나 이 데이터는 전체 국가 인구를 일반화할 수 없으며, 결과는 다양한 샘플의 의견으로 해석되어야 합니다. 국가들은 세계은행의 정의에 따라 고소득 국가 또는 중소득 국가로 분류되었습니다.
타당도는 테스트와 심리학 분야 내외에서 다르게 해석될 수 있습니다. 일부 관점에서는 타당도가 해석이 아니라 측정 도구의 특성으로 간주됩니다 (Hood, 1998 참조). 교육 및 심리학적 측정에서의 다양한 관점에 대해서는 Lissitz (2009)을 참조하세요.
고위험과 저위험은 연속체로 이해될 수 있습니다: 결정에 미치는 영향이 적은 고위험 테스트는 유일한 결정 요인으로 작용하는 고위험 테스트와 같지 않으며, 일반적으로 “중요한”과 “직접적인” 결과는 각각 고위험에서 미미한 위험, 직접적인 결과에서 간접적인 결과로 연속적으로 변할 수 있습니다. Tannenbaum과 Kane (2019)은 추가적인 고려사항을 제시했습니다.
테스트 공정성 문제는 또한 International Test Commission (2001, 2013, 2017), International Test Commission과 Association of Test Publishers (2022), Society for Industrial and Organizational Psychology (2018)에서 다루어졌습니다.
시험 없는 평가(즉, 자연적으로 발생하는 행동을 측정하는 평가)는 매우 논란이 많은 주제가 되었습니다. 2024년 유럽연합 AI 법률(https://data.consilium.europa.eu/doc/document/ST-5662-2024-INIT/en/pdf)은 “직장과 교육 기관에서 자연인 감정을 추론하는 AI 시스템의 사용”을 금지하며 (p. 108), “공공 또는 민간 주체가 수행하는 자연인에 대한 사회적 평가가 차별적인 결과와 특정 그룹의 배제를 초래할 수 있다”고 경고합니다 (p. 26).
이 기사의 범위를 벗어나지만, 미래의 기술 우선순위를 결정하는 데 중요한 추가 고려사항이 있으며, 그 중 하나가 기술의 지리적 분포입니다 (Moro et al., 2021).
추가 정보를 원하시면 주석 6을 참조하세요.
여기서 ’편향’이라는 용어는 통계학에서의 기술적 의미가 아니라 원래의 의미로 사용됩니다.
자동화된 에세이 점수화 문헌에서는 정확도 또는 정확한 일치를 두 평가자 또는 기계와 사람의 점수 간의 정확한 일치로 일반적으로 측정합니다. 정확도는 또한 무작위 기회라는 기준으로 정규화될 수 있으며, 예를 들어 카파, (선형) 가중 카파 (Cohen, 1968), 그리고 선형 처벌을 넘는 차이를 처벌하는 이차 가중 카파 측정이 있습니다. 일반적인 접근법은 사람-사람 점수 일치에서의 퇴화를 고려하는 것입니다. 이러한 측정 방법을 사용한 Williamson et al. (2012)은 많은 유형의 에세이에서 사람 간 점수 일치에서 퇴화가 거의 없음을 보고했으며, 실제로 “자동화된-사람 점수 일치가 사람-사람 점수 일치보다 높은 경우가 상대적으로 흔하다” (p. 8) 고 밝혔습니다. 최신 연구들에서는 트랜스포머 기반 접근법을 사용하여 사람 수준을 넘는 성과를 보고했습니다 (Ormerod et al., 2021).
이 기사에서는 효과 크기를 언급하며, 이는 결과에 대한 조작의 강도를 나타냅니다. Cohen (1992)이 제안한 고전적인 규칙은 작은, 중간, 큰 효과 크기가 각각 .20, .50, .80을 초과하는 값과 일치한다고 합니다.
VanLehn (2011)은 Bloom(1984)의 종료 조건(다음 레슨으로 넘어가기 위해 필요한 숙련도가 다를 수 있음)을 주장하며, Bloom은 사실 숙련도의 효과에 대한 증거를 제시했다고 합니다.