lv

大数据分析办法 教育大数据分析:办法与探究

[2018年11月22日 21:32] 来源: 中国大学教学 编辑:小编 点击量:0
导读:王宏志+熊风+邹开发+刘哲敏摘要:当今社会现已进入了大数据年代,剖析了大数据剖析与传统数据剖析的不同,总述了在线教育大数据剖析的研讨现状,而且介绍了依据大数据对在线教育学习者行为猜测的研讨成果。关键词:大数据;剖析;教育;行为猜测一、大数据与大数据剖析概述跟着数据获取、存储等技能的不断开展,以及人们对

王宏志+熊风+邹开发+刘哲敏

摘 要:当今社会现已进入了大数据年代,剖析了大数据剖析与传统数据剖析的不同, 总述了在线教育大数据剖析的研讨现状,而且介绍了依据大数据对在线教育学习者行为猜测的研讨成果。

关键词:大数据;剖析;教育;行为猜测

一、大数据与大数据剖析概述

跟着数据获取、存储等技能的不断开展,以及人们对数据的注重程度不断提高,大数据得到了广泛的注重,不只仅在IT范畴,包含经济学范畴、医疗范畴、营销范畴等等。例如,在移动交际网络中,用户拍照片、上网、谈论、点赞等信息堆集起来都构成大数据;医疗体系中的病例、医学影像等堆集起来也构成大数据;在商务体系中,顾客购买东西的行为被记录下来,也构成了大数据。

时至今日,大数据并没有特别公认的界说。有三个不同视点的界说:(1)“大数据”指的是所触及的数据量规划巨大到无法经过人工在合理时刻内到达截取、办理、处理并收拾成为人类所能解读的信息[1]。(2)“大数据”指不必随机剖析法(抽样调查)这样的捷径,而选用一切数据进行剖析处理的办法的数据[2]。(3)“大数据”是需求新处理形式才干具有更强的决议方案力、洞悉发现力和流程优化才能的海量、高增长率和多样化的信息财物。

一般把大数据的特色归纳为4个V,即数据量大(Volume)、数据类型多(Varity)、数据的价值密度低(Value)以及数据发作和处理的速度十分快(Velocity)。

对大数据进行剖析能够发作新的价值。数据剖析的概念诞生于大数据年代之前,但传统的数据剖析和大数据剖析是不同的。传统的数据剖析往往是由客户提出一个问题,剖析者环绕该问题树立一个体系,进而依据该体系解说这个问题;而大数据剖析有时候并没有清晰的问题,而是经过搜集数据,阅读数据来提出问题。

另一方面,传统的数据剖析是在可用的信息上进行抽样,大数据剖析则是对数据进行不断的探求,经过大局剖析衔接数据,到达数据剖析的意图。

传统的数据剖析的办法,往往是斗胆假定当心求证,先做出假定,再对数据进行剖析,然后验证从前的假定;而大数据剖析则是对大数据进行探求来发现成果,乃至发现过错的成果,之后再经过数据验证成果是否正确。

因而,传统的数据剖析能够当作一种静态的剖析,大数据剖析能够当作一种动态的剖析。尽管如此,大数据剖析和传统数据剖析也并非是爱憎分明的,传统数据剖析的办法是大数据剖析的根底,在许多大数据剖析的作业中仍沿用了传统数据剖析的办法。

依据上述评论,咱们给出“大数据剖析”的界说:用恰当的计算剖析办法对大数据进行剖析,提取有用信息并构成定论,然后对数据加以详细研讨和归纳总结的进程。

大数据剖析分为三个层次[3],即描绘剖析、猜测剖析和标准剖析。描绘剖析是探求历史数据并描绘发作了什么(剖析现已发作的行为),猜测剖析用于猜测未来的概率和趋势(剖析或许发作的行为),标准剖析依据希望的成果、特定场景、资源以及对过去和当时工作的了解对未来的决议方案给出主张(剖析应该发作的行为)。例如,关于学生学习成果的剖析,描绘剖析是经过剖析描绘学生的行为,如是否成果高的同学答复问题较多;猜测剖析是依据学生的学习行为数据对其分数进行猜测,如依据学生答复问题的次数猜测其成果;而标准剖析则是依据学生的数据得到学生下一步的学习方案,如对学生答复问题的最优次数提出主张。

大数据剖析的进程能够划分为如下7个进程:(1)事务调研,即清晰剖析的方针;(2)数据

预备,搜集需求的数据;(3)数据阅读,发现数据或许存在的相关;(4)变量选擇,找出自变量与因变量;(5)界说形式,断定模型;(6)核算模型的参数;(7)模型点评。

咱们以猜测学生学习成果为例解说上述进程。首要,咱们的意图是依据学生的行为猜测学习成果。接下来,关于传统的办法来说,经过专家的剖析断定需求什么数据,比方专家提出对学生成果有影响的数据,包含出勤率、作业的完结率等,能够从数据源获取这样的数据;大数据剖析的办法有所不同,是找到一切或许相关的数据,乃至包含血型等,这些数据与成果之间的联系未必有影响,就算发现了联系也未必能够解说,可是获取尽或许多的数据有或许发现不知道的相相联系。

上面的进程包含了许多要素,下面断定哪些要素会体现在模型中,能够经过可视化等办法发现哪些要素和咱们的剖析方针相关,也能够经过特征工程的办法挑选包含在模型中的变量,并扫除一些相关的自变量,比方学生的起床时刻和吃早饭的时刻存在相关,在模型中能够只考虑其间之一,加速核算速度。

再接下来是界说模型的形式,比方能够把上述问题界说为线性回归,再经过一些算法断定模型中的参数,然后得到最终的模型。然后对模型进行点评,查验这个模型是不是真的有用,以及是否是可解说的。有些有用的模型并不见得可解说,例如发现了血压对成果有影响,这个是有用的,可是未必有一个清晰的解说。

二、在线教育大数据剖析研讨现状

在线教育大数据为教育研讨的进行供给了十分好的途径和时机,它构成了一个跨国家、跨文化、跨作业、跨阶级的渠道,学习者的每个行为都为研讨者贡献了数据。而经过研讨这些数据,咱们能够发现新的规则,或是辅导学习者的行为,例如猜测学生的学习状况、课程的受欢迎程度以及发现新的学习办法等。运用渠道得到的数据,猜测并回馈给渠道,然后能够到达改善渠道的意图,还能够为渠道发现新的事务。

当时在线教育大数据的研讨现已开端,可是研讨成果并不多,首要的研讨对象是学生,会集在对学生学习行为的研讨,而授课人员的行为和渠道的行为这两个方面的研讨比较少。咱们将现有的干流研讨内容进行归类,分为多个方面,包含:

(1)学习者行为剖析与猜测;

(2)学习者学习作用剖析与猜测;

(3)渠道供给商数据剖析。

学习者行为剖析与猜测的研讨指的是,经过学习者在MOOC渠道上发作并堆集的行为数据,选用量化学习者行为特征的办法,对其学习行为进行剖析与猜测。详细而言,文献[4]研讨了在MOOC渠道上有退课危险的学习者的前期预警问题,他们依据回归剖析的办法,提出了两种搬迁学习算法,经过增加正则项最小化接连不间断学习周中的失利概率。文中提出了三个办法,分别是LR-SEQ,LR-SIM与LR-MOV,其间在AUC目标上LR-SIM与LR-MOV作用更好,LR-SIM在开课前两周的猜测相关于其他办法更为超卓。文献[5]选用了机器学习的办法研讨了学习者退课率的猜测办法,他们仅运用了网页阅读流数据,提出了依据支撑向量机的机器学习模型以猜测学习者的退课状况。他们的办法跟着课程的进行,猜测准确率逐渐上升,但在开课前几周的猜测作用不行抱负。文献[6]相同研讨了学习者退课猜测的问题,他们选用的办法是构建准确的猜测模型与数据的时态与非时态表达,得到了较为杰出的AUC目标。文献[7]则是选用了隐形马尔科夫模型对学习者课程停留状况进行了猜测,他们经过简略穿插乘积的办法,将接连特征编码为单一离散可调查状况。文献[8]相同研讨了退课问题,他们构建了时序模型,经过标签的办法,选用了LSTM单元的RNN模型。他们得到的成果说明晰在此问题上运用LSTM单元要比一般的RNN作用更好。文献[9]研讨了在MOOC渠道上的学习者行为猜测模型的搬迁学习,他们提出了学习者猜测的实时办法,并提出了关于同一个猜测问题,树立表达式以改动这些办法的参数设置,试验证明晰搬迁学习能够使得两种办法的作用等价。文献[10]则初次针对中文MOOC中学习行为的特色将学习者分类以调查学习行为与作用之间的联系,这项作业使得人们能够有用判别一个学习者是否能够或潜在能够完结学习使命。文献[11]经过学习者堆集的作业文章与MOOC阅读流数据对学习行为进行了剖析与猜测。文献[12]对学习者高危险退课进行预警。

学习者学习作用剖析与猜测旨在研讨学习者经过完结何种学习进程到达了何种学习作用,树立学习进程与学习作用的联系。详细地说,文献[13]猜测了学习者在答复问题时,第一次是否能够答复正确。他们运用学习者观看教育视频的数据,结合了区间估量办法与支撑向量机分类办法,树立了猜测模型,并经过多项试验证明晰他们的办法比传统猜测算法更优。相似地,文献[14]点评了观看视频体现行为与视频内小测体现的联系,他们识别了学习者重复看视频的行为,例如温习学习内容与重复越过,对此,他们提出了两种依据阅读流数据的办法,构建了流数据与取得常识的相关模型,他们经过试验发现这些行为和学习者第一次答复正确状况与非第一次答复正确状况极度相关。相同,文献[15]研讨了猜测学习者第一次问答是否正确的问题,他们在这个分类问题中应用了协同过滤算法,并在KDD Cup 2010比赛中取得了第三名的成果[16]。文献[17]猜测了学习者的学习成果,他们提出的增强学习猜测算法能够一起用做回归与分类。文献[18]则是研讨了关于猜测成果经过增量交互分类的办法树立更为准确的分类模型是否可行。文献[19]发现了MOOC渠道上那些经过树立多账号以追求取得作业答案的学习者。

渠道供给商数据剖析是指运用MOOC渠道供给商上堆集的数据进行大局的剖析,该项数据剖析作业并不针对一种特定问题,而是针对某一类的问题。例如,文献[20]归纳剖析了多个MOOC渠道上的数据得出它们具有一些相同的数据特点。文献[21]经过渠道堆集的教育信息对学习者供给动态的学习辅助材料。文献[22]经过气候数据与学习者办法日志数据经过树立回归剖析模型指出何种特征是有相关的。

综上,当时的研讨有如下几个热点问题:

(1)学习者行为的界说。咱们怎么界说学习行为,提取什么样的特征来描绘这个学习行为。

(2)怎么点评学习作用。树立什么样的有用模型来描绘学习作用,这是一个传统教育学的问题,能够经过专家的点评来处理,因为在线教育渠道搜集了许多的学习行为数据,则完全能够经过学生的行为来描绘学习作用。

(3)退课现象。在线课程现在的经过率是十分低的,经过大数据进行剖析,研讨为什么发作这样的状况。

(4)学习者是否能够一次答复正确问题。因为小测问题一般较为根底,该项研讨能够验证学习者是否认真学习。

除了以上问题,还有多种有关在线教育大数据的研讨,例如针对不同身份的人群的学习者剖析等[23]。总归,在线教育大数据研讨作业近几年方兴未已,呈现了许多有价值的问题亟待研讨与处理。

三、教育大数据剖析的探求

经过以上的剖析,咱们以为,对学习者行为的研讨能够经过提取学习的行为来完成,比方课程视频的点击、回看、做題做作业的行为、评论组里面的言辞等,提取特征今后对行为进行描绘能够定量和定性不同办法进行。定量描绘包含答复了几回问题、均匀每个视频看多长时刻等;定性描绘包含用户在群里面临这个教师的点评是必定的仍是消沉的,或许是这个学生是不是喜爱这门课,以及这个学生是否看到这个视频的点评。

学习者的体现研讨比方说学习成果、课程的热度,这些特征也是能够提取的,相同有定性、定量,相同对这些数据进行整合,经过剖析能够树立学习和行为者的体现联系。体现和行为之间是有因果相关的,行为决议体现,可是这个工作咱们只能调查到一方面,别的一方面并不能有用调查或许猜测。咱们能够经过剖析来描写学习的进程,断定行为与体现的联系,比方用户总是看视频时刻很短,决议了不太或许取得好成果的成果,就能够经过树立这样的联系进行猜测。

咱们经过累计的学习行为判别用户是不是退课,在各种学习行为以及退课行为之间咱们探求是何种要素导致了退课的发作。此外,关于累计的教育行为和教育作用之间的联系,咱们能够经过发掘这些教师的教育行为来剖析。

依据这些,咱们对“我国大学MOOC”渠道上部分课程的后台数据进行了采样和清洗,提取了咱们需求的特征,如表1所示。

咱们计算了每个学习者在每个学习周的如上特征,之后经过屡次测验,咱们选定了双向长短时记忆循环神经网络(Bi-directional LSTM RNN)作为咱们的学习模型,并运用这些数据作为模型的输入。为了更全面地剖析退课率的问题,咱们将该问题细分为四个问题,如表2所示。

问题1直接猜测了学习者鄙人一周的动态,而问题2则是猜测了学习者学习的整体趋势,除此之外,授课者有时或许愈加关怀学习者在最终一周以及考试周的体现,这也是咱们界说了问题3和问题4的原因。咱们将这四个问题作为模型的输出,并以80%的数据对模型进行练习,20%的数据进行测验。

经过对编号为45002的课程测验成果剖析发现,问题1的准确率动摇起伏较大,而实际上,学习者鄙人一周的行为也一般是不断定的,这给模型的猜测带来了较大的困难;而关于问题2,跟着教育周的进行,学习者的整体学习趋势也越来越显着,因而其准确率跟着教育周逐渐上升;同理,问题3和问题4的成果也呈现出相似的趋势。

试验成果表明,咱们所运用的模型具有较高的准确率,而且跟着教育周的进行,准确率会得到提高,这关于授课者把握学习者的动态是有利的。但关于部分课程,因为课程性质问题,导致学习者较少,咱们所能取得的数据有限,便会下降模型的准确率。

参考文献:

[1] 王克迪. 数据、大数据及其实质[N]. 学习时报,2015-09-14.

[2] 维克托·迈尔·舍恩伯格,肯尼斯·库克耶. 大数据年代[M]. 盛杨燕,周涛,译. 杭州:浙江人民出版社.

[3] G. Blackett. Analytics Network-O.R. Analytics. http://www.theorsociety.com/Pages/SpecialInterest/AnalyticsNetwork_anal%ytics.aspx, 2013.

[4] He J, Bailey J, Rubinstein B I P, et al. Identifying At-Risk Students in Massive Open Online Courses[J]. Aaai, 2015.

[5] Kloft M, Stiehler F, Zheng Z, et al. Predicting MOOC Dropout over Weeks Using Machine Learning Methods[A]. EMNLP 2014 Workshop on Analysis of Large Scale Social Interaction in Moocs. 2014:60-65.

[6] Taylor C, Veeramachaneni K, OReilly U M. Likely to stop? Predicting Stopout in Massive Open Online Courses[J]. Computer Science, 2014.

[7] Balakrishnan G, Coetzee D. Predicting student retention in massive open online courses using hidden markov models[J]. Electrical Engineering and Computer Sciences University of California at Berkeley, 2013.

[8] Fei M, Yeung D Y. Temporal Models for Predicting Student Dropout in Massive Open Online Courses[A]. IEEE International Conference on Data Mining Workshop. IEEE, 2015:256-263.

[9] Boyer S, Veeramachaneni K. Transfer Learning for Predictive Models in Massive Open Online Courses[M]// Artificial Intelligence in Education. Springer International Publishing, 2015:54-63.

[10] Tang S, Peterson J C, Pardos Z A. Deep Neural Networks and How They Apply to Sequential Education Data[A]. Proceedings of the Third (2016) ACM Conference on Learning@ Scale. ACM, 2016: 321-324.

[11] 蔣卓轩, 张岩, 李晓明. 依据MOOC数据的学习行为剖析与猜测[J]. 核算机研讨与开展, 2015, 52(3):614-628.

[12] Halawa S, Greene D, Mitchell J. Dropout prediction in MOOCs using learner activity features[J]. Experiences and best practices in and around MOOCs, 2014, 7.

[13] Brinton C G, Chiang M. Mooc performance prediction via clickstream data and social learning networks[A]. Computer Communications (INFOCOM), 2015 IEEE Conference on. IEEE, 2015: 2299-2307.

[14] Brinton C G, Buccapatnam S, Chiang M, et al. Mining MOOC Clickstreams: Video-Watching Behavior vs. In-Video Quiz Performance[J]. IEEE Transactions on Signal Processing, 2016, 64(14): 3677-3692.

[15] Toscher A, Jahrer M. Collaborative filtering applied to educational data mining[J]. KDD cup, 2010.

[16] KDD Cup 2010: Educational Data Mining Challenge - PSLC DataShop[EB/OL]. https://pslcdatashop.web.cmu.edu/KDDCup/.

[17] Meier Y, Xu J, Atan O, et al. Predicting grades[J]. IEEE Transactions on Signal Processing, 2016, 64(4): 959-972.

[18] Sanchez-Santillan M, Paule-Ruiz M P, Cerezo R, et al. Predicting Students Performance: Incremental Interaction Classifiers[A]. Proceedings of the Third (2016) ACM Conference on Learning@ Scale. ACM, 2016: 217-220.

[19] Ruiperez-Valiente J A, Alexandron G, Chen Z, et al. Using multiple accounts for harvesting solutions in moocs[A]. Proceedings of the Third (2016) ACM Conference on Learning@ Scale. ACM, 2016: 63-70.

[20] Pang Y, Wang T, Wang N. MOOC Data from Providers[A]. Enterprise Systems Conference (ES), 2014. IEEE, 2014: 87-90.

[21] Williams J J, Kim J, Rafferty A, et al. Axis: Generating explanations at scale with learnersourcing and machine learning[A]. Proceedings of the Third (2016) ACM Conference on Learning@ Scale. ACM, 2016: 379-388.

[22] McBride E, Vitale J M, Gogel H, et al. Predicting Student Learning using Log Data from Interactive Simulations on Climate Change[A]. Proceedings of the Third (2016) ACM Conference on Learning@ Scale. ACM, 2016: 185-188.

[23] Kizilcec R, Halawa S. Attrition and Achievement Gaps in Online Learning[A]. Proceedings of the Second (2015) ACM Conference on Learning @ Scale. ACM, 2015:57-66.

查看更多: 数据 学习者 模型
lv

图文资讯