本文主要对数据挖掘的常用算法进行综合哪样不能玩研究和比较.分析各个算喜的利弊与适用情况。
关键词:数据挖掘分奏预测聚类中图分类号:)301文献标识码:文章编号:1002—2422(2010)04—0120—03:凹,-.:1数据挖掘的主要研究内容数据挖掘的任务是发现隐藏在数据中的模式,可以发现的模式分为两大类:描述型模式和预测型模式闭。描述型模式是对当前数据中存在的事实做规范描述,刻画当前数据的一般特性;而预测型模式则是以时间为关键参数,对于时间序列型数据,根据其历史和当前的值预测未来的值。关联模式是反映一个事件和其他事件之间依赖或关联的知识,其目的是为了生成部分数据的概要,寻找数据子集之间关联关系与数据之间的派生关系,即在同一事件中出现的不同项之间的相关性。如果两项或多项属性之间存在关联,那么就可以依据已知的属性值预测某一项的属性值.关联规则的挖掘可分为两步,首先是通过迭代识别所有的频繁项目集,然后再从频繁项目集中构造可信度不低于用户设定的最低值的规则。识别和挖掘所有频繁项目集是关联规则挖掘算法的核心,也是计算量最大的部分131.关联规则中最典型的是购物篮分析,在关联规则的分析中有助于发现交易数据库中不同商品之间的联系,找出顾客购买的行为模式。分类就是通过构造一个分类函数,把具有某些特征的数据项划分到某个给定的类别上.分类由模型创建和模型使用两步组成,模型创建是指通过对训练数据集的学习来建立分类模型;模型使用是指使用分类模型对测试数据和新的数据进行分类。训练数据集中的数据带有类标号,通过训练集的训练,使得使用分类函数可以把标号未知的数据正确的分类到其相应的标号中吲。聚类就是将数据项分组成多个类或簇,类之间的数据差别应尽可能大,类内的数据差别应尽可能小,即为“最小化类间的相似性,最大化类内的相似性”原则.与分类模式于场景的元数据的文件会自动转换,并通过编数据可组成全局网络信息的部分。任何人都有给任何资源辑器显示.这样,用户可以存储结果,将来还可以进一步编添加元数据的能力.辑,从用户的视野在文件里增加新的类和属性,从而参考文献为现今上可用的多媒体元数据做出贡献。1吴波,王保保.几种基于内容的图像检索的方法传奇地图.西安:计算5结束语机技术与发展,2006,16(6):191—195.语义里不断增长的研究和应用意味着需要大客2张海玲.多媒体元数据的语义集成和检索田.北京:情报科学,量的元数据,还有合理的存储和查询结构。
目前,在创2007,25(7):1052—1098·建大容量音乐元数据库已进行了一些研究,但由于。上3左琼,王元珍,曹忠升·等·基于的通用多媒体数据库可用精品网游乐曲数量的不断增加,这些研究的范围是局限的。元数模型3啪·武汉:华中科技大学学报(自然科学版),2009,据是在不断更新修改中发展的信息。
描述的竞争应该是受37(1):65—68·鼓励的,而在线团体用户的角色是决定性的.应用。查吲=曼===篡=:::询体系结构,根据可用的在线资源设计出一种在线检索和001。..25。
“。曲恼。
棚仰,转换音乐元数据的应用程序·应用在基于上下文的元数据.,2004.方向上,以格式的结果提供给终端用户,从而强化语5.,1.印“佃叩蜘-义标准和思想的使用。
为了这个目的,需要理解基于锄[].8扯。,。盯,20-本体的框架。系统得益于特定上下文的元数据的简单05,5(2):328—358.结构和灵活性,能够由用户自行添加元数据,任何元收稿日期:20咖7埘·张君枫辽宁对外经贸学院信息技术系讲师(辽宁,大连116052).·120·不同的是,聚类中要划分的类别是未知的,是一种不依赖于预先定义的类和带类标号的训练数据集的非监督学习,无需背景知识,其中类的数量由系统按照某种性能指标自动确定。聚类分析作为数据挖掘中的一个模块,既可以作为一个单独的工具以发现数据库中数据分布的一些深入的信息,概括出每一类的特点。又可以把注意力放在某一个特定的类上以作进一步的分析。还可以作为数据挖掘算法中其他分析算法的一个预处理步骤。2关联分析算法常用的经典频繁项集挖掘算法有下面几种目。2.1算法在关联分析中经典算法是.等人提出的—算法,这是一种很有影响力的挖掘关联规则频繁项集的算法,探查逐级挖掘性质:频繁项集的所有非空子集都必须是频繁的。根据频繁一项集,形成频繁(+1)一项集候选,并扫描数据库1次,完成第次迭代(>1),找出完整的频繁(+1)一项集。算法是最早用于解决关联规则问题的算法,也是目前数据挖掘领域里应用最广泛的算法之一。
该算法的优点是简单易懂并且能够有效地产生所有关联规则,在频繁项目不多时表现出了明显优势:但是,当最小支持度低时,该算法会生成大量的候选频繁项集,可能会遇到组合爆炸的问题,另外,在判定每个候选项集支持度的时候,研一喇算法需要反复多次的遍历事务数据库,导致系想玩传奇统的输入输出代价过高。
2.2—算法为了提高算法的有效性,目前已经提出了许多硼撕变形,旨在提高原算法的效率,—算法就是一种变形算法。
-算法仅在第1次扫描时用事务数据库计算候选频繁项集的支持度,其它各次扫描用其上一次扫描生成的候选事务数据库来计算候选频繁项集的支持度。该做法可以减少对数据库的扫描次数,在一定情况下能迅速削减候选频繁项集。虽然-算法进行了改进,但是仍然无法克服算法的固有缺陷,仍然存在下面的问题:可能产生大量的候选集:可能需要重复扫描数据库,通过模式匹配检查一个很大的候选集;无法对稀有信息进行分析。3分类算法常用的分类算法有下面的几种旧.3.决策树方法决策树是一种以实例为基础的归纳学习算法,在其树型结构中,每个结点表示对一个属性值的测试,其分支表示测试的结果,而树的叶结点表示类别,从决策树的根结点到叶结点的一条路径对应着~条合取规则,整个决策树对应着一组析取表达式规则。
决策树算法中最著名的是3和4.5两个算法。3算法用信息论的知识作为基础,来计算具有最大信息增益的属性字段,然后建立一个决策树结点,再根据该属性字段的不同取值来建立分支。该方法描述简单且分类速度快,但是只对较小的数据集有效,而且抗噪性差。4.5算法在继承3算法的优点的基础上对其进行了改进,用信息增益率代替信息增益来选择属性,同时在树的构造过程中对树进行剪枝避免了过拟合问题,还能够处理属性值缺少的样本,提高了抗噪能力。4.5算法产生的分类规则仍然易于理解,准确率较高,但是在构造树的过程中,对数据集进行多次的顺序扫描和排序,导致算法的效率降低,而且4.5仍然不适合大训练集数据。3.2人工神经网络人工神经网络是多个神经元按一定规则连接构成的网络系统,通过模拟人类大脑的结构和功能完成对外部输入信息的动态响应,并将获取的知识存储在网络单元之间的连接权系数中,使网络具有很强的容错性和鲁棒性.反向传播算法是人工神经网络中采用最多的训练方法。该算法通过对训练样本集的学习,将每次的处理结果与该样本已知类别进行比较,用所得的误差帮助完成学习,并且对每个训练样本动态的修改权值从而让网络的输出值与实际的类别的均方差最小.神经网络的优点就是并行分布处理能力强,分类的准确度高,对噪声数据有较强的鲁棒性和容错能力,具备联想记忆的功能等。但是该方法获取的模式隐含在网络结构中,导致分类结果较难理解,网络的训练时间较长,不适于大数据量的学习。3.3贝叶斯分类贝叶斯分类以统计学中的贝叶斯定理为理论基础,通过贝叶斯定理得到的后验概率来预测类成员关系的可能性,是一种具有最小错误率的概率分类方法。在计算过程中,如果假设所有变量都是条件独立的,则可以使用朴素贝叶斯分类方法,但所有变量都是条件独立的情况非常少。贝叶斯网络可以综合先验信息和样本信息盛大,减少了定义全联合概率分布的概率数目,又避免了朴素贝叶斯分类器要求所有变量都是条件独立的不足,成为近年的主要研究方向。4结束语数据挖掘是当今计算机学领域研究的一个主要热门课题,在各个领域都有广泛的应用,数据挖掘的算法对数据挖掘技术的实现起到关键的作用,也直接影响到能否把数据挖掘应用到具体的实践中.本文综合研究了数据挖掘的各种算法的优劣,为算法的改进和创新提供了基础.参考文献1王光宏,蒋平.数据挖掘综述.上海.同济大学学报,2004,322010年8月电脑学习第4期从锐捷—认证系统的应用认识802.1技术高俊。本文从实际出发.结合学生的应用.参与学生认证上网的全部过程和用户使用过程中遇到的问题进行讲解.这样更能加深用户的理解。关键词:802.1认证锐捷中图分类号:29文献标识码:文章编号:1002—2422(2010)04-0122-02802.1—:,嘲0,'腓,.:802.11锐捷—认证系统的应用锐捷—认证系统的应用,并不是该系统的部署情况,而是从最终用户(学生)角度所接触的认证系统的直观感受出发。
学生所认识的锐捷-认证系统可化分为以下几个部分:用户开户。用户要开通网络要带身份证、学生证、饭卡和所对应墙上端的标签号,到网络中心填写开户申请表,申请开通网络。(2)配置网络地址.在互联网中,每一台接入网络的计算机或终端设备都需要有一个唯一的地址.在开户后,用户会得到一张回执,有管理员分配给用户计算机的一个碑地址等网络地址。把其配置到电脑的网卡属性中。(3)安装锐捷认证软件.用户在自己计算机中安装管理员提供的锐捷客户端的软件.需根据不同的操作系统类型分别安装和设置.(4)使用锐捷客户端认证上网。客户端安装设置完毕后,双击锐捷图标,打开客户端对话框,输入用户名、密码,点“连接”,客户端自动完成认证后,用户就可无限制上网了.再加上一些对锐捷客户端出现问题的处理,这就是用户所认识的基于802.1技术的锐捷-认证系统。
2802.1的工作过程第一步,当用户需要上网时打开802.1认证客户端程序,客户端程序有操作系统自带,也有像锐捷—客户端一样开发商定制的.然后输入之前申请时授予的用户名、密码,发起连接请求。
认证客户端发出认证请求报文给交换机,开始启动一次认证过程。第二步,交换机接收到认证客户端发出的认证请求数据帧后,将发送一个请求帧给客户端,要求客户端把用户名发过来.第三步,认证客户端响应交换机发出的请求,将用户名通过数据帧发送给交换机.交换机将该数据帧经过封包处理后发送给认证服务器进行处理。第四步,认证服务器收到交换机转发过来的用户名信息数据包后,经过解包,将该信息与数据库中的用户名相比对,然后找到该用户名相对应的令信息,用随机生成的一个加密字对令进行加密处理,同时把这个加密字发送给交换机,由交换机传送给客户端。
第五步,客户端收到由交换机传过来的加密字后,用该加密字对用户所输入的密码进行加密处理,然后将加密过的令信息再上传给交换机发给认证服务器.第六步,认证服务器将收到的客户端加密后的令信息和自已经过加密后的令信息相比较,如果相同新服,说明用户名、密码一致,该用户为合法用户,反馈认证通过消息,并向交换机发出打开端的指令,允许用户的业务流(2):246—252.01.2.-5.,.,...研.96.2..—弹[].,1996.1993-3邹志文,朱金伟.数据挖掘算法研究与综述.北京.计算机工朗,..,1993:207-216.程与设计,2005,26(9):2304—2307.6胡可云.数据挖掘理论与应用.北京:清华大学出版社,2帖4韩家纬.数据挖掘:概念与技术[1.北京:机械工业出版社,20—08.收稿日期:2010-06-01·高俊南京财经大学现代教育中心网络中心助理工程师(江苏.南京210029).·122·数据挖掘算法综述作者:张君枫,作者单位:辽宁对外经贸学院信息技术系,辽宁,大连,116052刊名:电脑学习英文刊名:年,卷(期):2010(4)参考文献(6条)1.胡可云数据挖掘理论与应用20082..;.;..19933.韩家炜数据挖掘:概念与技术20014.邹志文;朱金伟数据挖掘算法研究与综述[期刊论文]-计算机工程与设计2005(09)5.19966.王光宏;蒋平数据挖掘综述[期刊论文]-上海同济大学学报2004(02)。
上一篇:基于WindowsServer2008的InternetIn
下一篇:浅析面向对象的三大特征
现代教学评价技术在高中信息技术课程中的应用研究
发展性教师评价的理论认识与操作实施
对高职学院学生体质状况与体育活动现状的分析
土木工程计算机辅助设计(CAD)中的虚拟现实技术
对高职院校科研管理工作的认识与建议
多媒体在活动课中大显身手
高校教务管理系统数据库设计与实现
谈网络环境下高校图书馆的教育职能
无线通信仍将引领产业发展潮流--英特尔深圳秋季术峰会有感
多媒体技术和语文教学