简介:要了解web数据挖掘技术,首先就必须了解数据挖掘技术。数据挖掘是指从大量不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的有用的信息和知识的过程,它的表现形式为概念(Concepts)、规则(Rules)、模式(Patterns)等形式。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。Web数据挖掘是一种综合的技术,它主要是使用数据挖掘技术在互联网挖掘各种有用的、有趣的、隐藏起来的信息或者是有用的模式。与传统的数据挖掘相比,web数据挖掘所挖掘的信息更加的海量,这些信息具有异构和分布广的特点。Web数据挖掘根据所处理的对象可以分为三类web文档的内容挖掘、web文档的结构挖掘、web使用的挖掘。Web文档的内容挖掘指的是从web文档及对其描述内容中获取到有用的信息,即是对web上大量的各种文档集合的内容进行处理,例如摘要、分类、聚类、关联分析等。同时内容挖掘还可以对各种多媒体信息进行挖掘。Web上的内容摘要是用简洁的语言和方式对文档的内容进行描述和解释,让用户在不用浏览全文的情况下就可以对全文的内容和文章写作的目的有一个总体的了解。
简介:为解决在定数截尾的情况下混合weibull分布的参数估计问题,给出了混合weibull分布的后验参数估计形式,设计了用于参数Bayes估计的Gibbs抽样方案.通过随机模拟,结果显示,采用Gibbs抽样算法的参数估计具有一定的有效性和良好的稳定性,特别在样本较少的情况下优于使用EM算法的估计结果.
简介:在云计算环境下,对高级持续威胁数据的准确挖掘可以提高云计算网络的安全防御能力.高级持续威胁数据具有极值扰动非线性特征,传统的线性处理方法难以实现对这类数据的准确挖掘.提出一种基于极值扰动非线性特征提取的云计算环境下的高级持续威胁数据挖掘仿真模型,对系统载荷运行情况进行评估,得到云计算下的动态任务调配,分析高级持续威胁数据的极值扰动非线性特性,计算高级持续威胁数据的稳态概率,得到极值扰动非线性特征,对非线性特征进行脉冲响应不变周期标记.实现了高级持续威胁数据极值扰动非线性特征的挖掘,构建数据挖掘模型.仿真实验表明,算法对持续威胁数据的正确检测概率在95%以上,数据挖掘性能优越,在云计算环境下的高级持续威胁数据的检测挖掘等领域应用价值较高,为网络安全系统构建等奠定基础。
简介:随着“大数据时代”的到来,一股席卷全球的智能化在线教育浪潮正在蔓延,高校传统的教学模式趋向颠覆,高校教师的职业发展也将受到重大挑战。众多大学生在在线学习时将会产生海量的数据,高校教师如何挖掘、分析这些数据,对改进自身教学实践、促进自身专业发展都具有丰富的价值。学习分析在大数据时代的高等教育中被广泛应用已成必然趋势,并具有非常广阔的应用前景,高校教师应该具备较强的数据分析能力。学习分析从以下四个方面促进大数据时代高校教师在线专业发展:可以提升作为在线学习者的高校教师的学习效率,激发其自主的专业发展意识;可以提高高校教师作为在线教学者的教学效率,发展其在线教学实践智慧;可以提高高校教师作为研究者的研究绩效,提升其对学生在线学习的服务能力;可以提高高校教师作为管理者的管理效率,提升其在线教学领导力。
简介:针对大数据处理框架MapReduce中的任务调度问题,提出一种基于Markov决策过程(MarkovDecisionProcess,MDP)的任务调度算法,通过状态集来描述集群中节点的负载和作业的数据本地性需求,使用状态转移函数表示调度策略对状态的影响,采用值迭代求解算法求取最优策略,实现集群中节点的最优调度.实验结果表明,该算法能够保证数据本地性的同时,减少作业响应时间,提高系统综合性能.