返回首页

机器学习进入大规模教育质量评价-表现性评价将更加普及化

时间:2017-01-08 00:16来源:知行网www.zhixing123.cn 编辑:麦田守望者

近年来,教育部基础教育质量监测中心(以下简称“中心”)对义务教育阶段学生的学习质量、综合素养、身心健康状况以及影响学生发展的相关因素进行全面、系统、深入的监测,准确地向国家报告义务教育质量的现状,为教育决策提供信息、依据和建议。传统的教育评价难以进行大规模的学生高阶认知能力,尤其是过程性、表现性的测试,如英语口语、音乐演唱等,一方面数据收集困难,另一方面评分困难、费时费力。如何利用语音技术,尤其是语音识别技术与语音合成技术对学生的高阶认知能力,如语文的口语表达、英语的听说能力、艺术的演唱能力,以及这些过程中表现出来的动机与态度等进行自动的分析与评价是当前面临的重要问题之一。随着云计算、大数据、机器学习等技术的发展,义务教育质量综合评价正在朝着自动化、智能化、可视化、智慧化方面大步迈进。

  2016年,中心在全国范围内借助人机对话方式完成了对四、八年级学生的音乐表现水平评价,这在全国尚属首次,在国际上也是首创。科学的音乐监测指标和工具通过专业的音乐演唱测试平台、结合专用演唱测试设备进行学生音乐演唱数据的采集、存储及回收,并在此基础上利用智能语音识别与分析技术、机器学习技术等人工智能算法进行评分,既符合国际技术规范,又具有中国本土特色,开创了我国对学生的音乐表现性水平进行监测评价的先例。

  表现性数据采集平台化

  依据数据采集的后台监控统计,2016年全国参加演唱测试的学校近万所,全国共有近5万学生参加此次演唱测试的数据采集,总回收音频数据近10万条,达到了监测抽样的数量和质量要求。

  灵活智能的音乐测试数据采集平台满足不同地区、不同层级、不同教学目标的测试需求。音乐测试数据平台分为小学、中学、区县、简谱版、五线谱版等多个版本,中、小学系统版本功能基本一致,但内置的测试指标与测试工具不同。系统具有交互自然、操作便捷、安全可靠等多重性能保障。

  平台的过程质量监控保证了数据采集规范、科学,以及采集数据的准确可靠。除承担演唱测试数据收集功能外,平台还具有测试数据上传、数据导出(音频数据特殊加密,导出数据只可用作网络故障、他处上传之用)等功能;区县版本具有对该测试区县属辖内测试学校的数据回传及监控功能,以便县级单位随时监控督管、协助,保证数据的采集全面可靠。

  演唱测试流程清晰、灵活,为个性化的测评奠定基础。演唱测试过程分为语音采集设备调试环节、必唱环节、选唱环节三个阶段。参测者通过实时反馈的录音效果来反复调试专用耳麦,以保证所采集的音频质量达到标准;确保无误后,依照每一环节简洁明了的指导语完成必唱和选唱歌曲的演唱,既保证了测试流程的科学性、规范性,又保证了不同孩子个性化的需求。

  智能语音识别与机器学习对学生演唱测试数据评分

  此次采用智能语音识别与机器学习技术来进行评分要经历标准制定,专家评分定标、机器不断调整学习、学习结果验证检验、在学习结果可靠的情况下对所有数据进行评分,评分之后进行数据校验和评分质量检验等环节,过程复杂但结果可靠,奠定了开展大规模音乐表现性评价的基础。

  科学、专业的评分标准是评价结果科学可靠的基础。不同于传统的专家逐一评分方式,此次回收的音频数据采用了智能语音识别技术进行电子化批量评分。首先,参照统一严格的评分标准,邀请一定数量的学科专家对随机抽样的小样本数据进行各维度及总体评分。演唱测试的计算机评分定标数据均取自真实监测数据,根据前期的实验和验证,原则上每首歌曲取用150-200条数据用于定标,中小学共22首测试曲目。鉴于实际测试情况,共计抽选3000多条录音数据用于定标、训练机器打分模型及效果验证。随后计算机通过对定量专家标准化评分标准进行反复多次精准的学习,从而实现对表现力、流畅性完整性、音准、节奏、歌词表达等维度的高质量电子化大面积自动评分。

  对评分结果进行质量验证,验证结果认定本次评分结果可靠、有效。国家义务教育质量监测——音乐演唱测试的圆满实施迈出了机器学习进入国家大规模教育质量测评的跨越性一步。(作者:张生,作者单位:北京师范大学中国基础教育质量监测协同创新中心)

顶一下
(1)
100%
踩一下
(0)
0%
标签(Tag):表现性评价 机器学习 教育质量评价
------分隔线----------------------------
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
验证码:点击我更换图片