简介:随着教育信息数据不断增加,我们面对大量数据时无法获得最有价值的知识,从而降低了数字化教学资源的作用。以武汉纺织大学线性代数课程为例,用数据挖掘工具wlela,结合关联规则和决策树方法,从往年积累的真实数据中挖掘出有价值的信息,为该课程的教学改革提供有力的理论支持。实践表明:数据挖掘技术用于教育中能提高教学效果。
简介:目的建立一种预处理方法,在进行医疗费用数据挖掘时,将因变量(呈偏态分布的连续性变量)转换为分类变量,从而得到更加科学合理的研究结果。方法以广东省甲型病毒性肝炎医疗费用调查取得的115例患者为研究对象,分别采用中位数的分类方法和K-means聚类的方法作为预处理方法,对医疗费用这一呈偏态分布的因变量进行分类,然后建立支持向量机数学模型,采用支持向量机进行医疗费用影响因素分析;通过比较模型的预测精度、模型收益以及影响因素的筛选结果,确定最优的预处理方法。结果115例甲肝病人甲肝总住院费用中位数为2744.69元,呈偏态分布。应变量以中位数方法分类,采用支持向量机模型筛选影响因素结果显示,对医疗费用影响最大的有7个变量(前3位为医院等级、性别、疾病类型);采用聚类分析进行数据预处理时筛选影响因素结果显示,对医疗费用影响最大的有7个变量(前3位为医院等级、住院天数、支付方式)。与中位数方法的分类方法比较,采用聚类分析进行数据预处理时,支持向量机模型结果得到的预测精度由91.30%上升到97.39%;收益图表陡峭地升高到100.00%然后渐渐变得平缓,显示模型收益更好;影响因素筛选结果更加科学合理,符合实际情况。结论聚类分析是一种优秀的数据挖掘预处理方法,具有良好的应用性。
简介:简要介绍了精细化天气预报和气象数据挖掘应用的现状,在对BP神经网络预测方法详细分析的基础上,研究了基于时间序列数据挖掘实现精细化温度预报的方法。该方法基于时序分析技术,建立起适合于BP神经网络的输入样本模型,通过反复学习从温度时序中建立预测模型,将其用于未来24h的精细化温度预报。同时,对BP神经网络算法和步骤做了简要介绍,针对原有的BP算法存在的不足,做了一些改进。最后,通过对预测挖掘系统的设计和在Matlab6.5仿真平台上的试验,建立了温度预报模型,以兰州市观测站数据为时间序列研究对象,对精细化温度预报进行了仿真实现。对基于时序的数据挖掘理论的应用和开发精细化温度预报方法做了有益的探索。
简介:应用spssclementine数据挖掘工具构建logistic模型来预测潜在目标用户购买通信产品的概率,通过模型预测结果对购买通信产品概率比较高的用户进行产品推销,提高营销准确率,从而实现产品从粗放式营销到精确化营销,以节省通信企业投入成本,提高通信企业运营效益.
简介:摘要信息时代的到来,给人们带来了很多方便,与此同时,过多的复杂的信息本身也存在着相应的隐患。第一是信息过多难以消化理解;第二是信息真假难以分辨;第三是信息的错综复杂使得安全难以保证;第四是信息形式不一致难以统一处理。另一方面,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,增加的数据背后隐藏着许多重要的信息,如何将这些信息合理地利用起来为大家更好地服务,是一个值得研究的课题。
简介:介绍了基于得克萨斯北部巴尼特页岩区带水平井中钻井、水力压裂处理和生产数据的挖掘分析结果。文中对巴尼特页岩区带内13400多口生产井的钻井资料和生产资料进行了剖析。并对其中3300多口水平井的井筒结构进行了详细描述,描述内容包括井斜方位、斜角、水平段长度和射孔等。本研究利用了地理信息系统模式识别技术,并结合运用了常规统计技术,从看似分散的数据集中发现了隐藏的规律性。该项研究提供了一个实例研究,说明了如何利用数据挖掘技术解决页岩气藏最佳开发实践的问题。过去几年间,公开的钻井和生产井资料大量增加,为该项技术的应用创作了条件。简单地绘制生产数据与生产井变量及压裂变量的交汇图,所得结果往往较为分散。本次研究充分利用了页岩气大开发所产生的丰富钻井和生产数据,通过深入分析总结经验教训。文中论述了相关的一些变化趋势,诸如井筒趾端的走向(向下、水平或向上)、水平井段的长度、斜角等参数的变化对页岩气产量的影响。研究结果表明,把实用的数据挖掘技术应用于大型页岩气数据集,可以发现一些具有规律性的经验教训,而在小型页岩气数据集中应用这些技术可能发现不了这些规律性。这项研究的另一个突出特点是利用了汇总的储层物性近似值、井筒结构数据、完井资料和压裂处理数据,从地理的地角度绘制这些数据与生产数据的交汇图,提高数据解释的质量。