返回首页

MOOC停学学生及原因的预测研究

时间:2017-11-29 22:04来源:知行网www.zhixing123.cn 编辑:麦田守望者

MIT的研究人员利用edX在2012年的一门课程的数据,建立了参与学生行为的预测模型,并进行预测和验证。

  • 分析1.3亿点击流事件进行预测

利用大数据和机器学习技术可以解决MOOCs的一个重要问题:谁最有可能停学MOOC课程学习?为什么?即,用什么方法可以预测学生是否会坚持学习edX课程直到最后?(这里称所有辍学的学生为”stopout”(停学),因为传统上辍学具有消极意义。相反,stopout表示中途停止参与,而不是放弃。)

关于MOOC停学学生及原因的预测研究 - 深圳大学图书馆 INFO.MOOC@SZU - 1

研究人员建立了机器学习模型,纵向变量表示每周(即,每个学习模块)每个学生的可能预测行为。研究使用edX最早的2012年春季课程6.002x数据检验测试,初步确定了建模方法。那次里程碑式的课程产生了惊人的数据——154763位学生注册,参与200多万个事件和60 GB个原始点击流数据,有7157位学生试图获得课程证书,但只有少部分人(低于5%)真正拿到了证书。

关于MOOC停学学生及原因的预测研究 - 深圳大学图书馆 INFO.MOOC@SZU - 2

之前在另一个平台的MOOC课程研究,通过分析论坛帖子来预测停学情况。为了最大限度地纳入研究的学生人数,研究人员对至少试图解决一个问题的学生预测停学情况,无论他们是否在论坛或维基上发表了帖子。学生被分为四个不同的组群:参与论坛(讨论发起者),编辑维基百科(内容发起者),两者都参与(完全合作者)和两者都不参与(被动合作者)学生。”不作为”组的学生从不提交任务,根据研究人员定义,被认为是在第一周停学。

利用1.3亿点击流活动的数据报告,揭示了这52,000多名学生的互动(作业、小测验、课堂练习)和学习资源(如视频、教程、实验室等)。在14周的课程里,特定某周j有14-j种预测问题(见下图)。每个预测问题,需要一个独立的判别模型。研究人员建立了每个分组的每种模型,共91种模型。其他研究只照方抓药式的提取一小部分问题并设置几个预测因子,而本研究则使用5倍甚至更多的预测因子(对每周数据设置27个预测因子)。完整列表详见表2和表3。

关于MOOC停学学生及原因的预测研究 - 深圳大学图书馆 INFO.MOOC@SZU - 3

  • 主要研究成果:

这里提供了一些对原始研究各方面延伸问题的回答,如:

  • 问:仅一周后,如何准确预知哪些人最后会停学?
    • 答:问得好!只参考第一周数据就预测最后课程选课情况确实是粗略的,我们引入了AUC曲线(点击这里和这里了解更多AUC知识)精确度为0.7左右(1.0是最佳状态)。
  • 问:在各组学生中,哪个因子最能表明即将停学?
    • 答:四组学生所有5项预测因子中的”交作业的预截止时间”,是指学生从开始解决问题到完成任务的时间。这有可能反映学习者在课程之外的忙碌程度。
  • 问:如何证明学生自始至终都在学习该课程?
    • 答:相对于其他学生,某学生平均每周提交任务数(尝试解决问题的次数的每周上交次数),如果有一个百分点的浮动就很有预测性了。结合相关趋势变量可准确预测。学生每周的实验成绩比任务提交次数更具预测性。
  • 问:需要追溯多久之前才能预测学生未来的状况?
    • 答:一般来说,预测一周状况只需要前四周的数据。
  • 问:有哪些预测因子(变量)是从参加论坛的同学的论坛行为中提取的?
    • 答:学生帖子的长度。其他跟论坛相关的变量不在前5个因子之内。讨论性帖子的平均长度是有预测性的,帖子的数量和回复数则没有。也许这意味着帖子的内容而非帖子数量能证明学生是否持之以恒。修改维基百科的次数也不具有预测性。
  • 问:何时能准确预测?
    • 答:准确预测一周后的情况很容易。总体而言,预测一周后的情况,AUC曲线精确确度可以达到0.88左右。对于完全合作组的学生,用第七周模型预测第八周停学情况的AUC精确度为0.95,这个高准确度的预测可能和第八周的期中参与数据有关。对于讨论发起组,用第八周的数据模型预测第九、十两周退课情况同样准确,AUC值0.87。
  • 问:变量越多越有作用吗?
    • 答:是的,27种预测变量可获得一周后预测的AUC在0.88-0.95之间。而之前类似的研究,4种预测变量取得的AUC只有0.7。本次研究的预测高精确度,应归功于更有效的预测变量以及多样的机器学习方法。

了解更多研究结果可点击这里以及Colin Taylor的论文。

  • 接下来做什么?

在预测退课过程中,这种方法非常彻底(事实上,研究组对91种退课问题和4组学生进行了70000多种模型的运算和交叉验证),但研究组还是非常渴望解决更多问题。未来的问题会更多:

  • 从导师、平台供应商、设计人员、研究人员和学生中征求变量已被证明是至关重要的。这些人更有可能提出值得验证的假设或提供一些学生退课的强有力解释。怎样才能巧妙地获取这些人群,并让他们贡献出自己宝贵的见解?
  • 研究组所确定的这些跟课程相关的变量,是否可以转移?当后续的6.002x课程或其他工程课程开设时,同样这些变量是否适用?从预测价值角度讲,如果研究其他领域的课程,可能会有哪些差异?
  • 最后,如何将预测结果运用到实践中去?如何运用建模和预测信息去影响或是帮助一个正在犹豫的学生?
  • 关于研究人员:

作者是麻省理工学院CSAIL的ALFA (AnyScale Learning for All)小组成员。本文的工作是Colin Taylor论文的一部分,其他工作包括为MOOC数据科学开发技术;通过大规模的知识挖掘、机器学习、预测和行为建模分析来支持学习科学和学习分析。该小组正在设计平台,使得对等网络可以共享MOOC相关软件、可视化和特征群体定位。

顶一下
(0)
0%
踩一下
(0)
0%
标签(Tag):网络教育 移动学习 在线教育 视频公开课 MOOCS 在线开放课程
------分隔线----------------------------
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
验证码:点击我更换图片
猜你感兴趣