数据挖掘在教育信息化中的应用空间分析
当前位置: 首页  科研学术  论文著作

数据挖掘在教育信息化中的应用空间分析

编辑:chuanggaojyjs来源:浙江省高等学校教育技术协会时间:2007-08-10访问次数 : 50
邵兴江
浙江大学教育系,浙江杭州, 310028)
 
    [摘  要] 本文首先介绍了数据挖掘及其技术。在此基础上,笔者对数据挖掘在教育信息化条件下的潜在应用空间进行了分析,认为数据挖掘在学习者特征分析,干预师生行为,合理设置课程,学习评价,决策支持,个性化、智能化网络服务等领域具有巨大应用空间。
 
    [关键词] 数据挖掘 ;教育信息化;数据库。
 
    一、引言
    随着信息社会的来临,大量信息在给人们带来方便的同时也带来了一大堆问题:第一,信息过量,难以消化;第二,信息真假难以辨识;第三,信息安全难以保证;第四,信息形式不一致,难以统一处理。于是人们开始提出一个新的口号:“要学会抛弃信息”。另一方面,人们开始考虑:“如何才能不被信息淹没,而且从中及时发现有用的知识、提高信息利用率?”最终避免“数据爆炸但知识贫乏”的现象。[1]这个任务落在数据挖掘的身上。
 
    二、数据挖掘及其技术
    2.1数据挖掘。
    数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息与知识的过程。它是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。[2]
    2.2数据挖掘系统
    一个完整的数据挖掘系统包括规则生成子系统和应用评估子系统两个部分。规则生成子系统主要完成根据数据仓库提供的历史数据,统计并产生相关规律,并输出相关结果;应用评估子系统可以理解为系统中的挖掘代理程序,根据生成子系统产生的规则按照一定的策略对数据进行非类预测,通过系统的任务计划对数据产生评估指标。
    2.3数据挖掘的分类
    数据挖掘的分类方法很多。根据不同挖掘任务,数据挖掘可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘方法,可分为机器学习法、统计方法、神经网络方法和数据库方法。其中机器学习法包括:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等;统计方法包括:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等;神经网络分析法包括:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等;数据库方法主要包括多维数据分析(OLAP)方法。
    2.4数据挖掘过程
    数据挖掘过程包括数据收集、数据处理、数据变换、数据挖掘、模式评估、知识表示等过程,前4个过程是一个循环反复的过程,在这一反复过程中需要对挖掘结果进行评估与修正,直到找出真实的结果为止。
    数据收集:通过各种方式广泛收集用户的各种信息,建立必要的数据库与数据表,为数据挖掘做准备。数据收集的范围、数量、准确性等都会影响挖掘结果的信度。
    数据处理:对收集的信息进行如“去噪”等处理,从而确保数据能够真实反映待要挖掘的对象。
    数据变换:将经过“去噪”的数据进行一定的格式转换,使其适应数据挖掘系统或挖掘软件的处理要求。
    数据挖掘:可以单独利用也可以综合利用各种数据挖掘方法对数据进行分析,挖掘用户所需要的各种规则、趋势、类别、模型等。
    模式评估:对发现的规则、趋势、类别、模型进行评估,从而保证发现的模式的正确性。
    知识表示:将挖掘结果以可视化的形式展现在用户面前。
    2.5数据挖掘的主要功能
    概念/类描述、特征化和区分:对每个类的汇总、简洁、精确的描述可以通过数据特征化、数据区分和数据比较来实现。数据特征化是指目标类数据的一般特征或特征的汇总,如一年的成绩汇总;数据区分是将目标类对象的一般特征与一个或多个对比类对象的一般性比较,如A学校和B学校的比较。
    关联分析:目的在于发现关联规则,这些规则揭示属性与属性值在数据集中一起出现的条件。这种关联规则可以是单维关联规则,也可以是多维关联规则。
    分类与预测:计算机利用某种数据挖掘算法的某种规则自动对海量数据进行分类,较少有人工干预,目的是为数据挖掘基础上的预测服务。
    聚类分析:聚类是根据最大化类内的相似性、最小化类间的相似性原则对海量数据进行聚类或分组,从而产生属性相近的各个类。
孤立点分析:所谓孤立点,是指数据集合中与多数数据的特征或行为完全不一致的数据。在最初的挖掘算法中,人们总是将孤立点从数据集合中删除,以保证数据的纯洁性。然而,删除孤立点可能会导致忽略某些非常有用的特殊规则,因而对孤立点需作特殊处理。
    演变分析:可以根据数据的特征对数据的发展变化作出相应的预测与分析。主要应用于对时间序列数据的分析、序列或周期模式匹配和基于类似性的数据分析。[3]
 
    三、    数据挖掘在教育信息化中的具体应用空间
    3.1学习者特征分析
    学习特征由学习者的知识结构和学习风格组成。知识结构说明了学习者对正在或将要学习知识的掌握情况,主要包括学习者初始技能、当前技能和目标技能。学习风格包括学习者的生理特征、心理特征和社会特征三个方面。[4]
    利用数据挖掘功能对学习者特征进行分析,目的在于帮助学习者修正自己的学生行为。这里有一理论假设:通过对学习特征分析结果和事先制定的行为目标标准进行比较,教师能够帮助学习者修正学习行为,提高学习能力,完善人格,有利于学生在各方面素质的和谐发展。
    学习者特征分析系统有四个模块组成,如下。
    人机互动界面:学习者可以向系统手工添加学习者信息、提出分析要求,同时查看分析结果。
    数据收集模块:收集的信息包括学习者的基本信息,绩效信息,学习历史,学习偏好,知识结构等等
    数据处理模块:数据库按照元数据标准进行清理、集成和变换,去掉数据中的“噪声”----不一致的数据
    数据分析模块:利用经过转化过的数据,按照数据挖掘规则,对数据进行分析处理,得出结果并输出。
    对学习者特征进行分析的基本框架如图1。

 

 
 
    人机互动界面
    数据收集模块
 
 
    动态信息
    静态信息
    初级数据库
    数据处理模块
    根据元数据标准对初级数据进行转化
    标准数据库
     数据分析模块

   

    数据挖掘规则库
    数据挖掘执行系统
图1.学习者特征分析系统
    3.2干预师生行为
    学校教学管理数据库中记录着各届学生与老师的学习、工作、社会活动、奖励、处罚等情况,利用数据挖掘的关联分析与演变分析等功能,寻找师生各种行为活动之间的内在联系。如当“存在A,B时可以推出C”这样的规则,即当有A行为和B行为发生时,还会有C行为。在实际情境中,如果发现学生或老师已有A、B行为时,马上可以分析其产生C行为的可能性,及时制定策略促进或制止C行为的发生。
    3.3合理设置课程
    在学校,学生的课程学习是循序渐进的,而且课程之间有一定的相互关联与前后关系。在学一门较高级课程之前必须先修一些先行课程,如果先行课程没有学好,势必会影响后续课程的学习。另外,同一年级学习同一课程的学生,由于授课教师、班级文化的不同,班级成绩相差有时会很大。
    利用学校教学数据库中存放着的历届学生各门学科的考试成绩,结合数据挖掘的关联分析与时间序列分析等相关功能,就能从这些海量数据中挖掘出有用的信息,帮助分析这些数据之间的相关性、回归性等性质,得出一些具有价值的规则和信息,最终找到影响学生成绩的原因。在此基础上,对课程设置作出合理安排。
    3.4决策支持
    基于数据挖掘的决策支持系统基本结构框架如图2所示。它由数据库、数据仓库、数据仓库管理模块、数据挖掘工具、知识库、知识发现模块、人机交互模块组成。系统的主要输入是源于数据库的数据以及存储在知识库中的知识和经验。人机交互模块通过自然语言处理和语义查询在用户和系统之间提供相互联系的集成界面。数据仓库管理模块完成数据仓库的创建以及数据仓库中数据的综合、提取等各种操作,负责管理整个系统的运转。数据挖掘工具用于完成实际决策问题所需的各种查询检索工具、多维数据的OLAP[2]分析工具和数据开采DM工具等,以实现决策支持系统的各种要求。知识发现模块控制并管理知识发现过程,它将数据的输入和知识库中的信息用于驱动数据选择过程、知识发现引擎过程和发现的评价过程。

 

Database
数据仓库
                                                                 元数据
                                                                领域知识
                                               知识发现模块
人机交互界面
数据选择
评价
知识发现引擎
知识库
 
                                                数据挖掘工具
 
                                                数据仓库管理模块
查询
分析
开采
组装
综合
提取
图2.  决策支持系统的基本结构框架
    在图2中箭头方向为控制流。决策支持同数据仓库管理是密切联系的。用户发出决策请求命令后,通过数据挖掘工具触发数据仓库管理模块从数据仓库中获取与任务相关的数据。在知识发现模块中提供了大量知识发现引擎抽取算法,从数据仓库中选择的数据在知识发现引擎里得到处理,生成辅助模式和关系。在对这些模式和关系进行评价后,它们中的一些被认为感兴趣的数据将提供给决策部门应用。有些发现还可能加入到知识库中,以用于后继的知识发现过程和知识发现评价。[5]
    3.5学习评价
    学习评价是教育工作者的重要职责之一。评定学生的学习行为,既对学生起到信息反馈和激发学习动机的作用,又是检查课程计划、教学程序以至教学目的的手段,也是考查学生个别差异,便于因材施教的途径。[7]评价要遵循一条原则即评价内容要全面、评价方式要多元化、评价次数要多次化、注重自评与互评的有机结合[3]
    在教学科研网络普遍建立的今天,利用数据挖掘工具,对学生的学习成绩数据库,行为记录数据库,奖励处罚数据库等进行分析处理,可以即时得到学生的评价结果,对学生出现的不良学习行为进行及时指正。另外,这种系统还能够克服教师主观评价的不公正,不客观的弱点,减轻教师的工作量。
    3.6个性化、智能化网络服务
    数据挖掘基于网络的应用包括WEB挖掘和个性化、智能化网上远程教育两个方面。
    WEB挖掘是数据挖掘的一项重要应用。WEB挖掘是从与 WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息的过程。WWW分析就是为网站运行提供深入、准确、详细的分析数据和有价值的以及易理解的分析知识。通过提供这些数据和信息,可以解决以下问题:
    (1)对网站的修改更加有目的、有依据,稳步地提高用户满意度。根据用户访问模式修改网页之间的链接,把用户想要的信息以更快、更有效的方式展现给用户。
    (2) 查看网站流量模式。发现用户的需要和兴趣,对需求强烈的网页提供优化,用服务器预先存储的方法来解决下载缓慢的问题。
    (3) 提供个性化网站。针对不同的用户,按照其个人的兴趣和爱好(数据挖掘算法得到的用户访问模式),向用户动态提供浏览的建议,自动提供个性化的网站。
    (4)发现系统性能瓶颈,找到安全漏洞。
    (5)为教师、教育管理者等提供重要的、有价值的信息。通过对每个学生所做的试题进行分析,得出题目之间的关联性及其他一些有用的信息,用来指导教学。修正试题难度系数,利用挖掘所获得的信息指导教学工作。
    个性化、智能化网上远程教育是充分利用数据挖掘技术的功能,为远程教育提供服务。其表现在:
    (1)利用学生登记信息,针对不同的学生,提供不同的学习内容和学习模式,真正做到因材施教,并对学生的学习记录进行保存。
    (2)对站点上保存的学习行为和学习记录信息进行挖掘,并结合课件知识库的信息,自动重组课程的内容,使之更符合教学规律,并结合内容,提供其它相关学习资源。
    (3)通过对学习者学习行为的挖掘,发现用户的浏览模式,自动重构页面之间的链接,以符合用户的访问习惯。
    个性化、智能化远程教育系统模型将涉及到三个大型数据库:课件知识库、学习行为数据库、个人学习记录数据库。四个实现系统:智能学习系统、个性界面生成系统、智能挖掘系统、智能重组系统。
 
    四、结论
    总之,教育信息化带来的是信息量的急剧增长和对信息提取的更高要求,现在我们很难也不能再依照传统方法从海量数据中寻找决策的依据,这就必须借助数据挖掘去发掘数据中隐藏的规律或模式,为教育信息化提供更有效的支持,本文对教育信息化条件下,数据挖掘的应用空间进行分析,希望能为教育信息化建设提供有价值的参考。
 
 
 
参考文献
[1] 数据挖掘讨论组,数据挖掘资料汇编,www.dmgroup.org.cn 。
[2] [美]Jiawei Han,Micheline Kamber 等著,范明,孟小峰译,数据挖掘:概念与技术,[M]北京:机械工业出版社,2001。
[3] 彭玉青等, 数据挖掘技术及其在教学中的应用,[J]河北科技大学学报2001,(4)。
[4]叶奕乾,孔克勤,个性心理学,[M]上海:华东师范大学出版社,2001.
[5] 谢榕,数据挖掘与决策支持系统,[J]计算机系统应用, 1999,(8)。
[6] 祝智庭,教育信息化:教育技术的新高地,[J]中国电化教育,2001,(3)。
[7] 韩进之,教育心理学,[M]北京:人民教育出版社,1990.
 
附:作者简介
    本文作者邵兴江,1981年7月出生。浙江大学教育系2000级教育技术学本学生,保送华东师范大学课程与教学系。主要研究方向网络教学、课件开发等。联系电话:13777866347。
 
[1] 本文为浙江大学SRTP项目论文。
[2] OLAP: OLAP(联机分析处理)与DM(数据挖掘)都是数据库(数据仓库)的分析工具,在实际应用中各有侧重。前者是验证型的,后者是挖掘型的。前者建立在多维视图的基础之上,强调执行效率和对用户命令的及时响应,而且其直接数据源一般是数据仓库;后者建立在各种数据源的基础上,重在发现隐藏在数据深层次的对人们有用的模式(Patterns),一般并不过多考虑执行效率和响应速度。
[3] 有些学者认为评价除以上原则以外,评价标准的制定应该由学生自己来完成,以体现评价的参与性、开放性原则。也有学者认为评价应该包括以下几个方面:  关注全面发展和实践创新,关注个别差异和自我标准,关注参与态度和合作交流,    关注评价情境和主体多元。叶冬青:《新课程中的学生评价》,载《教书育人》2004年02期