论文查询检索-中国期刊网

数据挖掘决策树算法的改进与实现

作者：夏琰，周晓红，王东
学科：自动化与计算机技术 > 计算机软件与理论
创建时间：2010-04-14
出处：《计算机光盘软件与应用》 2010年第4期
机构：夏琰，周晓红，王东（长春职业技术学院，长春130033）

简介：本文作者从实际应用出发，对现存数据挖掘决策树分类方法进行了研究，并应用到系统当中，实现了决策支持模块。关键词数掘挖掘；决策树算法；改进；实现中图分类号TP301.6文献标识码A文章编号1007-9599(2010)04-0000-02DataMiningDecisionTreeImprovement&ImplementationXiaYan,ZhouXiaohong,WangDong（ChangchunTechnologyCollege,Changchun130033,China）AbstractTheauthorstudiedonexistingDataMiningdecisiontreeclassificationmethodbasedonthepracticalapplication,andappliedtothesystem,achievedadecisionsupportmodule.KeywordsDataMining;Decisiontreealgorithm;Improve;Achieve随着数据库技术的不断发展及数据库管理系统的广泛应用，数据库中存储的数据量急剧增大，在大量的数据背后隐藏着许多重要的信息，如果能把这些信息从数据库中抽取出来，将会产生重要的作用。因此，数据挖掘涉及的学科领域逐渐扩大，数据挖掘的方法也在不断地改进和提高。分类在数据挖掘中是一项非常重要的任务，分类算法可以分为决策树分类算法、遗传算法、神经网络方法、K-最近邻分类算法等。这里，以疾病防控与儿童免疫管理系统中决策支持子系统的开发过程为例，对决策树分类算法的改进及在实际中的应用进行阐述。一、数据选取和数据预处理在本系统中，以预防接种中遇到异常反应后记录的“异常反应调查表”中的数据为例进行说明。具体实现过程详细说明首先输入训练集，由于在真实的SQLServer数据库当中，为了降低存储要求和减少存储时间，并非真正存储每个数据项的属性值，而是用存储数字来对应相应的意义，如在数据库的数据表中，“性别”字段中“1”代表“男”、“2”代表“女”，反应到程序页面时再映射回原来的值，为了说理清晰又限于篇幅，这里只将所有数据集中有代表性的十几组数据作为分类模型创建的输入训练集。表1判断是否需要计划外加强免疫的属性表儿童编号月龄出生状态常住地上次注射后反应是否需要计划外加强免疫0405102<=2正常产城市无不良反应否0405495<=2正常产农村无不良反应否0401342>5正常产城市无不良反应是04054352…5正常产城市轻度反应是04065342…5非正常产城市重度反应是04072342…5非正常产农村重度反应否0401544>5非正常产农村重度反应是0408519<=2正常产城市轻度反应否0404566<=2非正常产城市重度反应是04035472…5非正常产城市轻度反应是0401534<=2非正常产农村轻度反应是0405856>5正常产农村轻度反应是0409533>5非正常产城市无不良反应是04053442…5正常产农村轻度反应否二、生成决策树对训练集的每一个属性，计算其信息增益。以“月龄”属性为例，每个结点中的正反例的个数分别为［2，3］、3，2、4，0，分别计算如下info2，3==0.971；info3，2==0.971；info4，0=0；计算信息熵E(月龄)＝＝0.693；计算该属性的信息增益量，选取信息增益最大的属性为节点，按该属性的值划分数据集合Gain(月龄)=Info(9，5)-E(月龄)=0.940-0.693=0.247；同理，对“注射反应”属性、“出生状态”属性、“常住地”属性都可计算每个结点的正反例的个数（由于篇幅有限，不作计算）。通过对各属性信息增益的计算结果，选择“月龄”属性作为根节点，然后划分“月龄<=2”的所有可能性。计算当“月龄<=2”时，“注射反应”、“出生状态”、“常住地”的信息增益值Gain(注射反应)=Info(2，3)-E(注射反应)=0.971-0.4=0.571；Gain(出生状态)=Info(2，3)-E(出生状态)=0.971-0=0.971；Gain(常住地)=Info(2，3)-E(常住地)=0.972-0.951=0.020；同理考虑“月龄>5”的情况，由于“月龄>5”时，各个节点都是纯节点，所以不再划分。三、产生决策规则遍历决策树，输出叶结点类属性值，用IF—THEN形式表达为IF(月龄2…5AND注射反应=无)THEN(类别＝是)IF(月龄2…5AND注射反应=轻)THEN(类别＝是)IF(月龄2…5AND注射反应=重AND出生状态＝正常产)THEN(类别＝是)IF(月龄2…5AND注射反应=重AND出生状态＝非正常产AND常住地=城市)THEN(类别＝否)IF(月龄2…5AND注射反应=重AND出生状态＝非正常产AND常住地=农村)THEN(类别＝是)……依此类推，共可产生十三条规则。四、决策支持子系统的分析用上述基于决策树的分类算法所得到的模型生成的规则来预测测试集中的未知数据属于哪一类，并通过该模型的测试结果与实际情况相吻合的准确率来判断该决策树是否有效。首先，用整个数据集中2/3的数据作为训练集按照基于决策树的分类算法来建立模型，生成一棵决策树。然后，用余下的1/3的数据作为测试集，通过创建的模型进行预测，并将预测结果和实际值进行比较。如果准确率达到或超过事先确定的阈值，则可以认定该模型对于数据分类是有效的，能够在实际中应用；反之，则认定该模型的分类效果不好，需要按以上步骤来重新判断，直到分类准确率达到预定的阈值为止。在本系统中，经过测试预测准确率已达到87%，在可以接受的范围内，所以算法是有效、可行的。参考文献1陈文伟,黄金才.数据仓库与数据挖掘.人民邮电出版社,20042王万森.人工智能原理及应用.电子工业出版社,20003范明,孟小峰.数据挖掘——概念与技术.机械工业出版社,2001作者简介夏琰（1980-），女，吉林长春人。长春职业技术学院信息技术分院，教师，讲师，硕士，研究方向为计算机应用。
标签：

全文阅读

改进型A*算法在物流配送网络中的应用

作者：李铭，田丰睿
学科：自动化与计算机技术 > 计算机软件与理论
创建时间：2010-05-15
出处：《计算机光盘软件与应用》 2010年第5期
机构：李铭，田丰睿

简介：摘要A*算法是目前路径搜索中应用最广泛的算法，最短路径搜索算法效率是研究人员普遍关注的重点，本文在分析A*算法的基础上，重点介绍了一种改进型A*启发式搜索算法，实验结果表明提出的改进方法极大地减少算法搜索区域，提高了算法的效率，更加适合交通网络的路径导航。
标签：空间顺序关系改进型A*算法启发式搜索优先级队列

全文阅读

遗传算法综述

作者：高颖
学科：自动化与计算机技术 > 计算机软件与理论
创建时间：2010-04-14
出处：《计算机光盘软件与应用》 2010年第4期
机构：高颖（山东工业职业学院，山东淄博256414）

简介：摘要本文简述了遗传算法的基本原理和特点，以及在各个领域的应用情况。
标签：遗传算法 GA 进化最优化

全文阅读

RSA算法的攻击与防范

简介：作为对典型的公钥密码算法，RSA算法在信息安全领域得到了广泛的应用，但是其安全性却一直是学者们议论的话题。本文首先介绍RSA公钥加密算法的工作原理，对RSA算法的缺陷以及对其所可能遭受的攻击进行分析，最后讨论了针对RSA算法攻击的防范措施。
标签：公钥密码算法 RSA算法缺陷攻击防范

全文阅读

多维IP包分类算法研究

作者：钟平峰
学科：自动化与计算机技术 > 计算机软件与理论
创建时间：2010-05-15
出处：《计算机光盘软件与应用》 2010年第5期
机构：钟平峰

简介：摘要IP包分类算法是应用在路由器数据平面的核心算法，其中一维的IP包分类算法就是路由地址查找算法，为路由器的基本转发功能提供支持，与此对应的多维的IP包分类算法是为支持第4层交换的路由器提供对IP数据报的分类，使路由器能对每一个特定的数据报作出预先定义好的处理，以便为了新的网络应用提供数据包过滤、防火墙、基于策略的路由、区分服务、QoS、流量计费等功能。本文介绍了两种典型的多维IP包分类算法在国内外研究现状及综述研究。
标签： IP包分类算法多维

全文阅读

最小代价入侵响应决策算法研究

简介：借鉴成本敏感模型,综合考虑攻击和响应以及攻击目标等各方面的因素,提出基于最小代价响应决策算法,并对攻击和响应相关的因素进行了量化,与基于分类的响应决策算法相比,该算法具有更高的有效性、成功率和扩展性。
标签：入侵响应决策入侵检测成本敏感最小代价

全文阅读

时间标识排课算法的分析与设计

简介：排课是学校教学管理中一个非常重要的环节。设计一个高效的排课算法对学校教学管理的信息化水平以及工作效率，减轻教务工作人员的劳动强度等方面都有十分重要的意义。
标签：排课算法冲突检测时间标识手动排课自动排课

全文阅读

基于偏微分的图像放大算法研究

简介：在研究图片放大算法中,分析了现有的运用偏微分算法在图像法大中的不足,利用图像放大过程中的边缘信息可预知性,本文提出一种新的基于偏微分方程的图像放大算法,这种算法通过将图像边缘检测、平滑处理,然后采用三次样条插值算法对边缘进行相应倍数的放大,并通过对可能出现的锯齿边缘进行细化处理;将处理过的边缘作为放大图像的边缘,从而可以将源图像的边缘很好的保持下来,避免了偏微分方程放大过程中出现的边缘模糊现象。实验结果显示,该方法是一种能够很好的保存图像的边缘信息的图像放大算法。
标签：偏微分方程边缘检测样条插值算法图像放大

全文阅读

珊瑚虫属恶意软件作者被抓与腾讯无关？

作者：
学科：自动化与计算机技术 > 计算机软件与理论
创建时间：2007-11-21
出处：《软件指南》 2007年第11期

简介：腾讯QQ一直坐着国内即时通讯软件的头把交椅，也许正因为树大招风，引来了很多非官方的版本，珊瑚虫QQ就是其中最为有名的一个。
标签：腾讯QQ 珊瑚虫恶意软件作者即时通讯软件

全文阅读

2D编程常用算法——Blend＆RLE

简介：目前，3D游戏已经成为一种趋势，但2D游戏依然是很多玩家喜爱的类型。在很多玩家看来，3D游戏玩起来让人感到眼晕，因为我们无法接受画面的视角旋转。本文是2D游戏开发高手胡颖卓为读者带来2D编程的一些常用算法的介绍。
标签： 2D游戏算法编程 3D游戏游戏开发

全文阅读

基于混合遗传算法的数据挖掘

简介：随着数据库应用的不断深化，数据库的规模急剧膨胀，人们需要对这些数据进行分析，从中发现有价值的信息。但是数据库管理系统本身却没有提供有效的工具和方法来利用这些数据，因此数据挖掘成为当今研究的热点。本文即以混合遗传算法为基础对数据挖掘中的算法问题进行系统研究。
标签：数据挖掘遗传算法模拟退火算法混合遗传算法

全文阅读

一种超越函数的通用算法研究

简介：随着科技的飞速发展，现如今世界已经步入信息时代，掌握一定的计算机技能是每一个当代人必备的一项生存手段。计算机学习和数学知识紧密联系在一起，我们数学中经常见到的初等函数比如对数函数、指数函数以及三角函数等都叫做超越函数，如何用超越函数来做一些基本简单的计算机算法编程呢？这对于初学计算机编程的人员来讲，是非常有必要学习和掌握的，笔者通过对于数学知识中超越函数的理解和总结，开深入探讨将其应用于计算机的算法研究中，希望，本文的研究能够为广大运用计算机编程和制作算法的工作者和学习者带来些许帮助。
标签：超越函数通用算法编程

全文阅读

物料清单管理系统的核心算法研究

简介：物料清单（BOM）是采用计算机辅助企业生产管理。为了便于计算机识别，必须把图形化表达的产品结构转化成可以计算机识别的数据格式。通常BOM是树状结构表示，可以是自顶向下分解的形式或是以自底向上跟踪的形式提供信息。本文讨论一种通过并交范式来存储物料信息的算法。
标签：物料清单并交范式

全文阅读

基于Arnold置乱的图像加密算法研究

简介：提出一种新的将水印图像Arnold置乱算法，然后按一定规则把水印信息分散嵌入到数字产品中。该算法通过各种攻击测试，对JPEG有损压缩、中值滤波攻击和高强度噪声攻击具有强稳健性，具有很好的透明性和鲁棒性，实用性也较高。
标签：数字水印 Arnold置乱变换水印嵌入

全文阅读

基于能耗和距离的WSN分簇路由算法

作者：姚丽君，李康满
学科：自动化与计算机技术 > 计算机软件与理论
创建时间：2010-04-14
出处：《计算机光盘软件与应用》 2010年第4期
机构：姚丽君，李康满（衡阳师范学院，湖南衡阳421008）

简介：本文针对LEACH算法中没有考虑簇头间能耗均衡和远离基站簇头过早失效的问题，提出一种基于能耗和距离的WSN分簇路由算法。仿真结果显示，该算法能有效克服LEACH存在的这两个缺陷，有效提高网络生命期。关键词无线传感器网络；分簇路由算法；能耗均衡中图分类号TP212.1文献标识码A文章编号1007-9599(2010)04-0000-02ClusteredRoutingofWSNagainstEnergy&DistanceYaoLijunLiKangman(HengyangNormalUniversity,Hengyang421008,China)AbstractLEACHalgorithmdoesn’tconsiderenergy-consumptionbalancebetweencluster-headsanditscluster-headawayfromthebasestationoftenprematurelyfail.Thispaperproposesaclusteredroutingalgorithmbasedonenergyanddistanceforwirelesssensornetwork.SimulationresultsshowthatthealgorithmcaneffectivelyovercomethesetwofalwsofLEACH,improvethenetworklifetime.KeywordsWirelesssensornetwork;Clusteredroutingalgorithm;Energybalance过去多年以来，传感器网络在数据收集和处理方面的协同工作和协作管理采集活动的潜在应用价值受到越来越多的关注。然而，由于现代无线传感器网络具有节点能源受限且通常无法补充、节点微型化等形态特征。因此，如何高效使用能量来最大化网络生命周期是无线传感器网络面临的首要挑战1。对wsn路由协议研究表明，分簇路由协议23可以对簇内成员感知的数据进行融合转发，能有效简化对传感网网络的查询，从而节省能量延长网络生命周期。低能耗自适应分簇协议LEACH4基本思想是通过等概率地随机循环选择簇头，将整个网络的能量负载平均到每个传感器网络节点，从而达到降低网络能量耗费、延长网络生命周期的目的。然而，该算法主要集中于均衡簇成员节点之间的能量消耗，没有考虑到簇头之间的能量消耗均衡问题。再者，其由于规定簇头直接与基站通信，造成了远离基站的簇头过早失效。本文针对这两点，提出一种新的分簇路由算法。本算法首先根据节点的剩余能量来合理选择簇头，剩余能量高的优先选择为簇头，最终有效平衡全网能量。簇头选好后，对于成员节点来说，根据与簇头的距离和自身的能量消耗决定加入哪个簇，从而有效延长网络生命周期。这样就可以让簇头节点的选举与节点剩余能量直接相关，避免同构成簇算法遇到的问题。对于远离基站的节点会较早失效的问题，算法规定每个簇头通过成员节点的位置估计感知到相同事件的邻居簇，然后进行局部的多跳数据融合，以达到节能的目的。一、网络模型本文采用的网络模型如下①所有节点随机静态分布在1个二维平面区域中，在该区域的外部存在1个基站；②节点具有数据融合功能；③所有节点的射频发射功率可以调节；④节点在最大的功率下可以直接与基站进行通信；⑤所有节点同构，并且对突发事件具有相同的感知半径；⑥节点知道自身的位置；⑦网络突发事件的出现概率较小，在同一时刻仅出现1次突发事件。传感器节点的能耗主要由计算能耗和无线射频模块收发报文的通信能耗构成。节点的通信能耗模型以及相关参数的选择与无线模型2相同，节点传输kbit数据至距离d处，以及接收kbit数据需要的能耗分别为，对于服从4次方衰减的无线电，本文仅考虑节点的通信能耗。二、成簇算法在网络建立阶段，基站需要用一个给定的发送功率向网络内广播一个信号。每个传感器节点在收到此信号后，根据接收信号的强度计算它到基站的近似距离。每轮循环的过程是在簇建立阶段，基站每个节点选取一个介于0和1之间的随机数，如果这个数小于某个阈值，该节点成为候选簇头。然后，通过竞争算法确定最终簇头，簇头向周围节点广播自己成为簇头的消息。每个节点根据提出的能量消耗函数来确定加入哪个簇，并回复该簇头。持续一段时间后，网络重新进入启动阶段，进行下一轮分簇。能量消耗函数f（i，j）为，其中1≤i≤CH，CH为加入第j个簇头的簇成员数量，1≤i≤CH，CH为簇头数量。节点i加入簇头CHj的条件就是使f（i，j）最小。其中Ei表示节点i的当前能量，ECHj表示簇头j的当前能量。f（i，j）既引入了距离因素，又引入了能量因素，更能有效平衡当前簇头区的能量消耗。只要能量消耗率函数最小，簇成员和簇头消耗能量均最低，进而全网络消耗能量低，因此能有效延长网络的生命周期。对于LEACH算法规定簇头直接与基站通信从而造成了远离基站的簇头过早失效的问题，通常通过固定多跳方式解决，但造成额外的能耗。本算法估计感知到相同事件的簇，从而确定下一跳的汇聚点。三、结论使用MATLAB对算法进行仿真测试，假设100个节点均匀分布在（0，0）和（100，100）的二维区域内，基站的位置在（175，50），设每一轮节点成为簇头的概率为0.05。消耗率函数参数是平衡簇头和成员之间的权值。图1消耗率权值与轮数关系图2本算法与LEACH生命期比较图1显示w值从0.1到1范围内的仿真，从图1可以看出w在0.5或0.6处效果最好。图2显示在不同传感半径下LEACH和本算法生命期的对比，从图可以看出，随着传感半径的增大，各个协议中网络的生命期均有所下降，在各传感半径下本算法的网络生命期要明显高于LEACH。参考文献1liuyue-yang,JiHong,YueGuang-xin.RoutingprotocolwithoptimallocationofaggregationinwirelesssensornetworksJ.TheUournalofChinaUniversitiesofPostsandTelecommnications,2006,13(1)125-1312HeinzelmanW,ChandrakasanA,BalakrishnanH.Anapplication-specificprotocolarchitectureforwirelessmicrosensornetworksJ.IEEETransactionsonWirelessCommunications,2002,1(4)660-6703YounisO,FahmyS.HEEDahybrid,energy-efficient,distributedclusteringapproachforAdHocsensornetworksJ.IEEETransactionsonMobileComputing,2004,3(4)366-3794HEINZELMANW,CHANDRAKASANA,BALAKRISHNANH.Energy-efficientroutingprotocolsforwirelessmicrosensornetworksA.Proceedingsofthe33rdHawaiiInternationalConferenceonSystemSciencesC.Hawaii,2000.1-10
标签：

全文阅读

XML文档数模型和树路径模型算法比较

作者：苏慧群
学科：自动化与计算机技术 > 计算机软件与理论
创建时间：2010-05-15
出处：《计算机光盘软件与应用》 2010年第5期
机构：苏慧群

简介：摘要本文对传统的XML文档树模型和树路径模型算法进行了研究，在准确率、召回率和平均时间消耗上进行了比较，对两模型算法的特点和不足进行了总结。
标签： XML 树模型树路径模型算法

全文阅读

基于粒子群优化的WSN覆盖增强算法研究

简介：针对粒子群算法无线传感器网络（WSN）覆盖优化中算法稳定性较差，后期收敛速度慢和易陷入局部最优问题，本文提出了一种自适应扰动混沌的粒子群（AdaptiveDisturbanceChaoticParticleSwarmOptimization，简称ADCPSO）的覆盖增强算法。一是在覆盖范围中应用改进的混沌Tent映射对粒子初始化，提高了种群的求解质量和算法的稳定性；二是采用非线性递减的惯性权重和学习因子自适应操作；三是根据一定概率对粒子位置进行扰动更新，避免粒子陷入局部收敛的问题。仿真结果表明，该算法具有良好的全局搜索能力，稳定性好，提高了网络覆盖率。
标签：粒子群覆盖优化改进的混沌Tent映射稳定性自适应操作扰动

全文阅读

一种快速稳健的图像配准算法

作者：汪华琴
学科：自动化与计算机技术 > 计算机软件与理论
创建时间：2010-05-15
出处：《计算机光盘软件与应用》 2010年第5期
机构：汪华琴

简介：摘要本文对图像配准问题进行了研究，提出了一种快速、稳健的基于特征点匹配的配准算法。采用小波变换建立图像金字塔，从分辨率最低的图像层开始进行特征点匹配，在次一层匹配时以上层匹配结果为粗值，在原始图像上得到初始匹配点后采用RANSAC算法稳健估计变换矩阵H；为了提高配准算法的精度，采用变换矩阵H引导两幅原始图像上的所有特征点重新进行匹配，对得到的匹配点集重新用RANSAC算法估计变换矩阵，并采用LM非线性优化算法进一步优化。通过实验分析对比，本文的算法比原算法速度更快，更稳健。
标签：图像配准特征点匹配图像金字塔