简介:本文作者从实际应用出发,对现存数据挖掘决策树分类方法进行了研究,并应用到系统当中,实现了决策支持模块。关键词数掘挖掘;决策树算法;改进;实现中图分类号TP301.6文献标识码A文章编号1007-9599(2010)04-0000-02DataMiningDecisionTreeImprovement&ImplementationXiaYan,ZhouXiaohong,WangDong(ChangchunTechnologyCollege,Changchun130033,China)AbstractTheauthorstudiedonexistingDataMiningdecisiontreeclassificationmethodbasedonthepracticalapplication,andappliedtothesystem,achievedadecisionsupportmodule.KeywordsDataMining;Decisiontreealgorithm;Improve;Achieve随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将会产生重要的作用。因此,数据挖掘涉及的学科领域逐渐扩大,数据挖掘的方法也在不断地改进和提高。分类在数据挖掘中是一项非常重要的任务,分类算法可以分为决策树分类算法、遗传算法、神经网络方法、K-最近邻分类算法等。这里,以疾病防控与儿童免疫管理系统中决策支持子系统的开发过程为例,对决策树分类算法的改进及在实际中的应用进行阐述。一、数据选取和数据预处理在本系统中,以预防接种中遇到异常反应后记录的“异常反应调查表”中的数据为例进行说明。具体实现过程详细说明首先输入训练集,由于在真实的SQLServer数据库当中,为了降低存储要求和减少存储时间,并非真正存储每个数据项的属性值,而是用存储数字来对应相应的意义,如在数据库的数据表中,“性别”字段中“1”代表“男”、“2”代表“女”,反应到程序页面时再映射回原来的值,为了说理清晰又限于篇幅,这里只将所有数据集中有代表性的十几组数据作为分类模型创建的输入训练集。表1判断是否需要计划外加强免疫的属性表儿童编号月龄出生状态常住地上次注射后反应是否需要计划外加强免疫0405102<=2正常产城市无不良反应否0405495<=2正常产农村无不良反应否0401342>5正常产城市无不良反应是04054352…5正常产城市轻度反应是04065342…5非正常产城市重度反应是04072342…5非正常产农村重度反应否0401544>5非正常产农村重度反应是0408519<=2正常产城市轻度反应否0404566<=2非正常产城市重度反应是04035472…5非正常产城市轻度反应是0401534<=2非正常产农村轻度反应是0405856>5正常产农村轻度反应是0409533>5非正常产城市无不良反应是04053442…5正常产农村轻度反应否二、生成决策树对训练集的每一个属性,计算其信息增益。以“月龄”属性为例,每个结点中的正反例的个数分别为[2,3]、3,2、4,0,分别计算如下info2,3==0.971;info3,2==0.971;info4,0=0;计算信息熵E(月龄)==0.693;计算该属性的信息增益量,选取信息增益最大的属性为节点,按该属性的值划分数据集合Gain(月龄)=Info(9,5)-E(月龄)=0.940-0.693=0.247;同理,对“注射反应”属性、“出生状态”属性、“常住地”属性都可计算每个结点的正反例的个数(由于篇幅有限,不作计算)。通过对各属性信息增益的计算结果,选择“月龄”属性作为根节点,然后划分“月龄<=2”的所有可能性。计算当“月龄<=2”时,“注射反应”、“出生状态”、“常住地”的信息增益值Gain(注射反应)=Info(2,3)-E(注射反应)=0.971-0.4=0.571;Gain(出生状态)=Info(2,3)-E(出生状态)=0.971-0=0.971;Gain(常住地)=Info(2,3)-E(常住地)=0.972-0.951=0.020;同理考虑“月龄>5”的情况,由于“月龄>5”时,各个节点都是纯节点,所以不再划分。三、产生决策规则遍历决策树,输出叶结点类属性值,用IF—THEN形式表达为IF(月龄2…5AND注射反应=无)THEN(类别=是)IF(月龄2…5AND注射反应=轻)THEN(类别=是)IF(月龄2…5AND注射反应=重AND出生状态=正常产)THEN(类别=是)IF(月龄2…5AND注射反应=重AND出生状态=非正常产AND常住地=城市)THEN(类别=否)IF(月龄2…5AND注射反应=重AND出生状态=非正常产AND常住地=农村)THEN(类别=是)……依此类推,共可产生十三条规则。四、决策支持子系统的分析用上述基于决策树的分类算法所得到的模型生成的规则来预测测试集中的未知数据属于哪一类,并通过该模型的测试结果与实际情况相吻合的准确率来判断该决策树是否有效。首先,用整个数据集中2/3的数据作为训练集按照基于决策树的分类算法来建立模型,生成一棵决策树。然后,用余下的1/3的数据作为测试集,通过创建的模型进行预测,并将预测结果和实际值进行比较。如果准确率达到或超过事先确定的阈值,则可以认定该模型对于数据分类是有效的,能够在实际中应用;反之,则认定该模型的分类效果不好,需要按以上步骤来重新判断,直到分类准确率达到预定的阈值为止。在本系统中,经过测试预测准确率已达到87%,在可以接受的范围内,所以算法是有效、可行的。参考文献1陈文伟,黄金才.数据仓库与数据挖掘.人民邮电出版社,20042王万森.人工智能原理及应用.电子工业出版社,20003范明,孟小峰.数据挖掘——概念与技术.机械工业出版社,2001作者简介夏琰(1980-),女,吉林长春人。长春职业技术学院信息技术分院,教师,讲师,硕士,研究方向为计算机应用。
简介:提出一种新的将水印图像Arnold置乱算法,然后按一定规则把水印信息分散嵌入到数字产品中。该算法通过各种攻击测试,对JPEG有损压缩、中值滤波攻击和高强度噪声攻击具有强稳健性,具有很好的透明性和鲁棒性,实用性也较高。
简介:本文针对LEACH算法中没有考虑簇头间能耗均衡和远离基站簇头过早失效的问题,提出一种基于能耗和距离的WSN分簇路由算法。仿真结果显示,该算法能有效克服LEACH存在的这两个缺陷,有效提高网络生命期。关键词无线传感器网络;分簇路由算法;能耗均衡中图分类号TP212.1文献标识码A文章编号1007-9599(2010)04-0000-02ClusteredRoutingofWSNagainstEnergy&DistanceYaoLijunLiKangman(HengyangNormalUniversity,Hengyang421008,China)AbstractLEACHalgorithmdoesn’tconsiderenergy-consumptionbalancebetweencluster-headsanditscluster-headawayfromthebasestationoftenprematurelyfail.Thispaperproposesaclusteredroutingalgorithmbasedonenergyanddistanceforwirelesssensornetwork.SimulationresultsshowthatthealgorithmcaneffectivelyovercomethesetwofalwsofLEACH,improvethenetworklifetime.KeywordsWirelesssensornetwork;Clusteredroutingalgorithm;Energybalance过去多年以来,传感器网络在数据收集和处理方面的协同工作和协作管理采集活动的潜在应用价值受到越来越多的关注。然而,由于现代无线传感器网络具有节点能源受限且通常无法补充、节点微型化等形态特征。因此,如何高效使用能量来最大化网络生命周期是无线传感器网络面临的首要挑战1。对wsn路由协议研究表明,分簇路由协议23可以对簇内成员感知的数据进行融合转发,能有效简化对传感网网络的查询,从而节省能量延长网络生命周期。低能耗自适应分簇协议LEACH4基本思想是通过等概率地随机循环选择簇头,将整个网络的能量负载平均到每个传感器网络节点,从而达到降低网络能量耗费、延长网络生命周期的目的。然而,该算法主要集中于均衡簇成员节点之间的能量消耗,没有考虑到簇头之间的能量消耗均衡问题。再者,其由于规定簇头直接与基站通信,造成了远离基站的簇头过早失效。本文针对这两点,提出一种新的分簇路由算法。本算法首先根据节点的剩余能量来合理选择簇头,剩余能量高的优先选择为簇头,最终有效平衡全网能量。簇头选好后,对于成员节点来说,根据与簇头的距离和自身的能量消耗决定加入哪个簇,从而有效延长网络生命周期。这样就可以让簇头节点的选举与节点剩余能量直接相关,避免同构成簇算法遇到的问题。对于远离基站的节点会较早失效的问题,算法规定每个簇头通过成员节点的位置估计感知到相同事件的邻居簇,然后进行局部的多跳数据融合,以达到节能的目的。一、网络模型本文采用的网络模型如下①所有节点随机静态分布在1个二维平面区域中,在该区域的外部存在1个基站;②节点具有数据融合功能;③所有节点的射频发射功率可以调节;④节点在最大的功率下可以直接与基站进行通信;⑤所有节点同构,并且对突发事件具有相同的感知半径;⑥节点知道自身的位置;⑦网络突发事件的出现概率较小,在同一时刻仅出现1次突发事件。传感器节点的能耗主要由计算能耗和无线射频模块收发报文的通信能耗构成。节点的通信能耗模型以及相关参数的选择与无线模型2相同,节点传输kbit数据至距离d处,以及接收kbit数据需要的能耗分别为,对于服从4次方衰减的无线电,本文仅考虑节点的通信能耗。二、成簇算法在网络建立阶段,基站需要用一个给定的发送功率向网络内广播一个信号。每个传感器节点在收到此信号后,根据接收信号的强度计算它到基站的近似距离。每轮循环的过程是在簇建立阶段,基站每个节点选取一个介于0和1之间的随机数,如果这个数小于某个阈值,该节点成为候选簇头。然后,通过竞争算法确定最终簇头,簇头向周围节点广播自己成为簇头的消息。每个节点根据提出的能量消耗函数来确定加入哪个簇,并回复该簇头。持续一段时间后,网络重新进入启动阶段,进行下一轮分簇。能量消耗函数f(i,j)为,其中1≤i≤CH,CH为加入第j个簇头的簇成员数量,1≤i≤CH,CH为簇头数量。节点i加入簇头CHj的条件就是使f(i,j)最小。其中Ei表示节点i的当前能量,ECHj表示簇头j的当前能量。f(i,j)既引入了距离因素,又引入了能量因素,更能有效平衡当前簇头区的能量消耗。只要能量消耗率函数最小,簇成员和簇头消耗能量均最低,进而全网络消耗能量低,因此能有效延长网络的生命周期。对于LEACH算法规定簇头直接与基站通信从而造成了远离基站的簇头过早失效的问题,通常通过固定多跳方式解决,但造成额外的能耗。本算法估计感知到相同事件的簇,从而确定下一跳的汇聚点。三、结论使用MATLAB对算法进行仿真测试,假设100个节点均匀分布在(0,0)和(100,100)的二维区域内,基站的位置在(175,50),设每一轮节点成为簇头的概率为0.05。消耗率函数参数是平衡簇头和成员之间的权值。图1消耗率权值与轮数关系图2本算法与LEACH生命期比较图1显示w值从0.1到1范围内的仿真,从图1可以看出w在0.5或0.6处效果最好。图2显示在不同传感半径下LEACH和本算法生命期的对比,从图可以看出,随着传感半径的增大,各个协议中网络的生命期均有所下降,在各传感半径下本算法的网络生命期要明显高于LEACH。参考文献1liuyue-yang,JiHong,YueGuang-xin.RoutingprotocolwithoptimallocationofaggregationinwirelesssensornetworksJ.TheUournalofChinaUniversitiesofPostsandTelecommnications,2006,13(1)125-1312HeinzelmanW,ChandrakasanA,BalakrishnanH.Anapplication-specificprotocolarchitectureforwirelessmicrosensornetworksJ.IEEETransactionsonWirelessCommunications,2002,1(4)660-6703YounisO,FahmyS.HEEDahybrid,energy-efficient,distributedclusteringapproachforAdHocsensornetworksJ.IEEETransactionsonMobileComputing,2004,3(4)366-3794HEINZELMANW,CHANDRAKASANA,BALAKRISHNANH.Energy-efficientroutingprotocolsforwirelessmicrosensornetworksA.Proceedingsofthe33rdHawaiiInternationalConferenceonSystemSciencesC.Hawaii,2000.1-10
简介:针对粒子群算法无线传感器网络(WSN)覆盖优化中算法稳定性较差,后期收敛速度慢和易陷入局部最优问题,本文提出了一种自适应扰动混沌的粒子群(AdaptiveDisturbanceChaoticParticleSwarmOptimization,简称ADCPSO)的覆盖增强算法。一是在覆盖范围中应用改进的混沌Tent映射对粒子初始化,提高了种群的求解质量和算法的稳定性;二是采用非线性递减的惯性权重和学习因子自适应操作;三是根据一定概率对粒子位置进行扰动更新,避免粒子陷入局部收敛的问题。仿真结果表明,该算法具有良好的全局搜索能力,稳定性好,提高了网络覆盖率。
简介:摘要提出一种新的将水印图像Arnold置乱算法,然后按一定规则把水印信息分散嵌入到数字产品中。该算法通过各种攻击测试,对JPEG有损压缩、中值滤波攻击和高强度噪声攻击具有强稳健性,具有很好的透明性和鲁棒性,实用性也较高。