技术赋能教育评价不仅是纵深推进教育评价改革的关键途径和重要突破口,而且是加快推动教育高质量发展的必然选择。场景化评价作为一种能够评估学生在真实性场景中的行为表现的评价方法,不仅能使评价更具场景真实性、智能动态性、融合连接性和内隐联结性,还能更全面、更真实地反映学生的能力与素养,是当前智能化评价阶段的新趋向。
快跟着信息科技考试系统的小编一起来看,技术赋能教育评价有哪些现实困境?如何科学设计场景化评价?
发挥智能技术优化教育评价结构,创新教育评价手段的支撑作用,可以让教育评价改革牵引育人方式转变,使教育评价回归促进学生全面发展本位。然而,目前技术赋能教育评价仍面临学生复杂特征难以表征、评价工具的发展瓶颈难以突破、评价结果的人机互信危机难以规避等评价能力不足的现实困境。场景化评价作为一种能够评估学生在真实性场景中的行为表现的评价方法,不仅能使评价更具场景真实性、智能动态性、融合连接性和内隐联结性,还能更全面、更真实地反映学生的能力与素养,从而提供更准确、更具指导意义的评价结果,促进学生全面发展。
近年来,国际测评和教育评价改革实践强调技术赋能推动学生核心素养发展与评价,以引导教育教学改革。但由于核心素养具有综合性、复杂性和内隐性的特征,目前还难以对其进行准确和客观的评价。此外,现有技术手段在表征学生复杂特征、突破评价工具发展瓶颈、规避人机互信危机等方面仍面临评价能力不足的困境,未能有效地对学生关键能力与素养进行评价,也无法满足创新人才培养和选拔需求,制约着教育评价改革的纵深推进。
核心素养评价要求全面深入地表征学生复杂特征,但现有评价模式侧重单次、单一知识点的评价,评价结果只能提供对学生特征的简单化表征,无法全面反映学生能力与素养。其中存在的主要问题有二。一是缺少人机交互的表现性任务。尽管我们普及了在线测试,但多是将传统纸笔测试以电子化形式“搬运”到在线平台,偏向于知识传递与获得的标准化任务,缺乏动态环境下对能力与素养的评估,限制了学生展现自我的机会。二是评价标准难以调整。评价标准仍以知识记忆和理解为主,缺少对问题解决、批判性思维、创造力等素养指标的评价,适用性和可操作性不强,导致评价难以捕捉学生复杂特征,亦难以真实反映学生能力与素养发展情况。
为实现全面评价学生的核心素养,评价工具需要超越对知识记忆和理解的评价范畴,转向通过模拟真实性场景下的评价任务,以获取学生能力与素养评价的多维度信息。然而,这一转变面临技术局限、数据利用问题和场景适应性不足三个发展瓶颈:一是技术支持的不充分使得实时反馈和持续评估难以实施,在很大程度上限制了教学、学习与评价的一体化迁移至多样化学习环境中,进而影响了教学精准化、学习个性化和评价智能化的实现;二是多模型评价数据利用问题,包括数据采集的局限性,难以精准捕捉表现性和非结构化学习任务中的复杂、动态和多维数据,导致许多评价研究仅限于特定情境,同时数据运用方法尚未成熟,在构建评价模型时需要克服多模态数据之间的同步性、互补性、冗余性以及特征提取和整合等一系列问题;三是评价工具的场景适应性不足,难以灵活应对复杂多变的教育环境和场景,特别是在资源有限和数字化基础设施不健全的情况下,无法在不同场景间实现有效应用,进而造成评价与实践的分离。
评价模型的可解释性是指其产生的评价结果能够被人们理解和接受的程度。随着深度学习和机器学习技术的发展,可解释性评价模型主要分为三类:独立于模型的方法、依赖于模型的方法以及因果解释方法。尽管人工智能可解释性评价模型的准确性显著提升,但仍存在精度不稳定、教育场景适应能力弱、单一模型分析不足等问题,导致人机信任危机,影响教育评价结果的公平性和科学性,容易误导教育决策。究其根本:一是源于算法偏见,评价结果可能嵌入技术构建者的价值观,导致价值观窄化;二是由于认知决策偏差,现有技术未能完全模拟人类思维和缺乏情感理解,加剧了智能机器决策过程中的不确定性;三是因为缺乏对可解释性评价模型效度的验证,预测准确性验证相对较多,而对可解释性的验证相对缺乏。
学生需要完成的真实性任务,包括任务的性质和要求等,必须基于真实性场景。真实性场景作为真实性任务的实践场域,包括时空背景和数字化资源等,需要贴近现实,评价目标被精心融入场景中,从而引导学生解决现实和未来生活问题,促进能力与素养的逐层深化。同时,通过创设涉及现实世界中经济、社会和环境等方面的人机交互真实性任务,不仅能够测试学生的知识记忆和理解,更能助推学生将知识和技能迁移到现实生活场景中,实现对学生能力与素养的直接评价,并发挥场景化评价在“主动育人”方面的积极作用。
智能动态性体现为通过高度智能化和动态适应能力,使场景化评价能够根据学生学习进度和实时反馈,灵活调整真实性场景和个性化评价方案。具体表现在:一方面,真实性场景可动态调整,通过利用追踪技术、动态模拟技术和事件触发器,实时接收、传输和整合来自现实世界的变化与数据,智能化调整场景设置,能够增强场景的真实感知、动态互动和智能适应,使评价工具与教育实践、教育场景、教育环境相衔接,从而为学生提供最适宜的真实性场景;另一方面,个性化评价方案的智能适配,借助智能监测和多模态学习情感计算等技术,持续跟踪分析学生的认知过程、自我调节过程、情感状态变化等全过程学习行为表现,进而向学生提供智能化、个性化的学习资源和学习策略等服务与支持,以提升评价的精确度。
场景化评价环境依托“AI+真实性场景”的教学评一体化数字空间,不仅消除了传统教育场景的壁垒,还实现了学校、社区、场馆、工作等多场景联动、数据互通共享以及技术、教学、评价的深度融合。一是人机融合互动。利用可穿戴和嵌入式传感器等智能设备,提供丰富的学生体验视角,使学生能够无意识地、自然地融入虚实融合的真实性场景中,并在多个场景间自由切换,从而全面捕捉和记录学生学习行为表现。二是角色与场景的融合。真实性场景提供情感沉浸体验,不仅能够充分调动学生的多感官参与,还能增强人与人之间以及人与场景之间的价值观传递,有效促进学生在真实性场景中实现情感与认知的深度互动。三是评价过程与评价结果的紧密结合。通过应用贝叶斯知识追踪模型、知识情境感知的深度知识追踪模型等自适应学习技术,能够持续监测和诊断学生与真实性任务的互动情况,为教师和学生提供实时且有意义的反馈信息,有效弥合教学、学习与评价之间的鸿沟。
场景化评价的内隐联结性体现在其以一种不易被学生察觉的方式,持续且稳定地对学生在真实性场景中展现的、难以直接观测到的个人能力与素养进行评估,并能够预测学生的未来潜力和发展趋势,为学生全面成长提供坚实的支撑。场景化评价通过与教学活动的无缝对接,使得评价过程自然地融入真实性场景之中,学生几乎不会察觉到评价的存在,确保了教学与评价的同步性和连贯性。在真实性任务的完成过程中,学生能够获得持续的学习支持和即时反馈,这将帮助他们超越现有能力,向更高层次发展。同时,借助脑机交互和信号传递等技术,场景化评价能精确捕捉并映射学生实时的思维活动、意识细胞功能变化、神经元动态突变以及认知过程进展,从而揭示他们在创新思维、问题解决、沟通协作和价值观形成等方面的发展情况。
学习者模型旨在确立评价目标和描述学生能力与素养,通过明确学生评价指标体系和构建学生评价观测指标框架两个环节,确保教育工作者能够捕捉和观察到更为精细、微观的学生学习行为表现。
为了精准、客观和科学地评价学生的能力与素养,首先需要明确学生评价指标,深入分析所要评价的学生能力与素养的内涵与特征,并有机整合权威评价指标体系/框架,进行指标的系统提取和优化,最终形成学生评价指标体系的一级和二级维度。在此基础上,为了构建一个更精准、可操作的学生评价观测指标框架,还需要深入分析评价指标体系的一级和二级维度,明确各个评价维度与学生行为之间的具体联系和表现特征,并据此分别确立每个评价维度的观测指标、具体行为表现及其相对应的数据采集类型。例如在“师范生智能教育素养测评”的场景化评价中,以已有的“师范生智能教育素养框架”为基础,将其3个一级维度和9个二级维度作为师范生智能教育素养评价指标体系,并分别确立35个观测指标、具体行为表现及所对应的数据采集类型,形成师范生智能教育素养评价观测指标框架。
真实性任务模型需要创建真实性场景,并在场景中设计真实性任务,引发学生展现出与评价观测指标紧密相关的行为表现,为收集学生行为过程流数据提供基础,以便深入理解学生如何应用知识和技能解决实际问题。
第一,创建真实性场景,通过构建数字技术丰富的评价环境,为学生提供与现实世界紧密相连、直面真实性问题的线上线下、课堂内外虚实融合的实践场域。通过利用元宇宙、AI大模型、动态模拟等技术,整合人物、时间、空间、事件等场景数据维度,创建硬件设备场景、软件操作场景和任务解决场景,使评价活动和内容与现实世界、学科领域、工作场景保持高度一致,促进学生在与场景实时融合互动中有效应对真实性问题。此外,真实性场景的设计还需嵌入问题解决材料、认知发展资源、探究活动工具等支架,并结合场景识别算法和频繁序列挖掘算法,对学生在场景中的特征状态进行感知分析,从而提供实时的、持续的引导和支持。
第二,以真实性场景为基础,紧扣观测指标,力求贴近现实生活且具备认知挑战性,设计基于递进式问题链的学习理解型、应用实践型、迁移创新型三类真实性任务,通过逻辑关联、层次递进的任务活动,引导学生在解决现实问题的过程中循序渐进地展现出全面的行为表现。同时,结合自适应学习和生成式人工智能等技术,根据学生表现动态提供模块化任务,确保学生持续保持在最优学习路径上,提升学生能力与素养发展水平的可见性。
正日信息科技考试系统基于对学生能力的评定及考查而设计,并依据2022年版课程标准及理念设计多种“新”考查形式。基于真实情境下,设计考查学生信息感知能力、信息社会责任意识及综合利用数字技术计算、处理应用能力的试题,借助综合式、大单元式、项目式的考查形式,多维度呈现学生数字行为考查结果。目前,基于情景下的综合式考查形式已在多个地市成功应用,例如在某地市数字素养考查上,借助信息科技考试系统设计了情景式综合式材料分析题、流程图题、网络拓扑题等,综合评定学生学科核心素养在知、情、意、行等方面协调发展情况,有效检验学生的创新能力及素养应用实践能力。
学生行为表现数据是揭示他们在完成真实性任务时知识掌握、能力展现与素养体现的重要依据。为了精确评估这些能力,需要在过程流数据与具体推论或假设之间建立联系,从而使数据能够作为有效证据使用。为此,通过提取数据证据和建立评价分析模型两个方面,将过程流数据与观测指标紧密关联,以此来推断学生在知识、能力与素养等方面的真实情况。
一方面要提取数据证据。首先,建立证据规则,将过程流数据与评价目标相关联,并制定评分机制为数据直接赋予分值或通过算法程序进行计算;其次,通过数据预处理和行为模式识别,筛选出与观测指标高度相关的数据证据;最后,将这些数据证据与观测指标建立映射关系,为评价分析模型和评价结果提供可靠支持。
另一方面要建立评价分析模型。可以通过数据证据特征提取、模型建立与训练和模型信效度检验,并依据各观测指标,构建准确性和可解释性能力强的智能评价分析模型,实现各维度能力与素养的智能分析、评价反馈和预测发展。基于此,可以通过文本报告、可视化画像等多种方式,全方位输出学生个体或群体的特征型、发展型和比较型评价结果,并能够提供包括个性化反馈和差异性建议的评价反馈,从而实现对学生素养水平与发展潜能的精准刻画,并为制定培养方案和相关教育决策提供科学依据。
来源丨节选自中国远程教育微刊,作者丨郭炯(西北师范大学教育技术学院教授),邹佳人(西北师范大学教育技术学院);本文转载自号“中关村互联网教育创新中心(ID:zgc-mtb)”。
版权声明:以上图文,贵在分享,版权归原作者及原出处所有。如涉及侵权,请权利方及时与我们联系,我们将及时更正、删除或依法处理。