华北理工大学 河北省唐山市 063210
摘要:大数据时代已到来,数据量大且种类繁多,而信息相对匮乏。面对爆发式增长的数据,人们的理解能力远远跟不上数据增长的步伐,如果没有强有力的工具支撑,将很难发现数据中蕴含的信息。因此,我们采用数据挖掘和数据分析技术的目的就是为了实现数据到价值的转换。
关键字:数据挖掘 大数据应用 挖掘技术
一、数据挖掘是什么
通俗来讲,数据挖掘就是指从大量数据中“挖掘”知识,比如从矿石或砂子中挖掘出黄金称作黄金挖掘,而不是挖掘出砂石[1]。“挖掘”这一词,生动的体现出了从大量未加工的物质中提取出黄金的这个过程。因此,数据挖掘被视为大数据管理中最有价值的工作。很多学者认为“数据挖掘”与“数据库中知识发现KDD”具有相同的含义,还有一些学者认为数据挖掘是数据库知识发现过程中的重要组成部分。综上所述,知识发现或数据挖掘是指从大量数据中挖掘出潜在的价值信息和构建相应数据模式的一个系统化的过程。
二、数据挖掘过程剖析
根据对数据的不同操作,将数据挖掘的基本过程剖析如图1所示:
图 1 数据挖掘基本过程图
2.1输入数据
将数据分析所需特征信息输入并以文件、电子数据表或者关系表等各种形式存储到数据库、数据仓库或者其他信息库中,可以集中式的存储在数据库中,也可以分布式存储在多个站点中,方便下一步针对数据进行预处理。
2.2数据预处理
数据预处理又被称为数据准备,可以细分为数据清洗、数据集成、数据选择、数据变换等步骤,用于消除噪音和不一致的数据,将多种数据源组合在一起,从数据库中提取和分析相关数据,再进行汇总或聚集操作将数据变换成适合挖掘的形式[2]。预处理是知识发现过程中最耗时费力的一项工作(数据显示至少60%的费用和精力花在该步骤),也是影响后续数据挖掘的质量和效率的关键步骤。
2.3数据挖掘
数据挖掘是整个过程的核心步骤,根据经过预处理后的数据,借助恰当的分析工具,运用数学统计方法、决策树、规则推理、实例推理、模糊集,甚至神经网络等方法对信息进行数据处理,进而挖掘出有价值的数据规律。
2.4数据后处理
数据后处理是相对预处理而言的,是在数据挖掘后对数据结果再加以完善,主要工作是模式的评估和分析,从商业角度,由专业人士在现实世界中验证数据挖掘结果的准确性,校验是否达到了业务目标。
整个数据挖掘过程是一个不断循环往复的过程,如果某一步骤没有达到预期效果,则需返回上一步骤进行调整。
三、数据挖掘技术的重点应用发展
利用数据挖掘技术对数据进行分析,助力发现重要的数据模式,对金融业务、电商运营、商务决策、科学和医学研究等重点领域都作出了巨大贡献。
3.1面向金融数据分析的数据挖掘
首先,对于金融行业竞争的关键要素一直是数据,如,对股价的预测依赖于对经济形势的洞察,银行的业务创新依赖于对客户数据的挖掘与分析,因此金融服务业迫切需要大数据挖掘技术。借助数据挖掘技术,金融行业能够利用所有客户信息来挖掘、分析其依赖性和相关性,寻求建立新的客户关系,从而增强市场竞争能力,提升营业利润。同时,贷款偿付和客户信用政策分析对银行业务是至关重要的,采用特征选择或者属性计算的方法,来识别重要因素,剔除非相关因素,并据此调整银行放贷政策,以较低的风险扩大贷款范围,进而提升银行运作活力。
3.2面向O2O电商平台的数据挖掘
数据挖掘技术应用于电商行业主要是助力其解决这个问题:在海量用户数据中,提取分析各用户群体的特征,挖掘出有价值的信息如消费者的行为偏好、消费习惯等,进而获取商业价值。(1)针对平台,通过数据挖掘可以实施更加精准有效的营销策略,优化平台网站内容设置,提供具有潜在需求的增值服务,提升客户浏览的满意度,增加客户粘度。(2)针对商家,通过大数据挖掘能够使商家以较低的成本实现实时掌握市场动态并迅速应对,精准投放客户敏感的广告,并快速响应客户订单需求。(3)针对用户,通过数据挖掘可以助力平台和商家为用户提供更加个性化的服务,面向用户的消费习惯和行为偏好,为每位用户筛选并推荐其感兴趣的产品。
3.3面向电信服务的数据挖掘
近年来,电信行业以从单纯的提供对话服务演变为提供综合电子服务,如语音、图像、电子邮件、Web数据传输等数据通讯服务,期间产生的数据量大且种类多,覆盖了用户的基本通信行为、消费行为、社交行为、网络行为等,如何挖掘其潜在的价值,构建以客户为中心的数据产业链,灵活地发布、调整和部署业务,提高运营生产效率,是电信运营亟需考虑的问题。借助大数据挖掘技术,有助于理解客户行为,挖掘客户潜在需求,同时鉴别出电信盗用等异常情况,进而建立电信模式,更灵活的提供服务资源。如,通过使用OLAP进而可视化工具等进行多维分析,能够识别并比较数据通讯情况、系统负载、用户组行为等,将海量电信数据构建为数据仓库,方便分析人员可视化的查看图表。
3.4面向科研领域的数据挖掘
数据挖掘技术相当于科学研究领域的重要抓手之一。一方面,在科学研究领域需进行的各种大量的实验,产生大量繁杂的实验数据,仅仅通过肉眼观测是发现不了其中蕴含的规律和知识的。通过借助数据挖掘技术进行相关分析、因果分析等,不断进行建模分析,对数据模式评价,寻找数据之间的科学规律,如此得到的数据挖掘结果也更加具有科学性和准确性。另一方面,数据挖掘技术能够为科研提供信息服务,通过对科研信息的有效挖掘与分析,可以保证科研正确选题,有效进行课题研究的论证,实现课题研究的智能化和高效化,深入推动科研信息服务的发展。
四、数据挖掘技术的应用难点
4.1时效性
我们所收集的业务数据面临的大都是复杂多变的动态环境,在截至收集数据后,我们的数据就是相对老化的。例如,假设数据是正在发生的现象或者过程的快照,如Web浏览模式或者顾客的购买行为,则快照只能代表在过去有限时间内的状态,如果数据很快已经过时,则数据挖掘所得出的模型已经不太适用于当前。
4.2相关性
在构造一个数据模型时,如果忽略了一些影响因素,也没有间接的包含这个信息的属性,那么数据模型的精度将大大降低。比如,研究目标是预测交通事故发生率,在数据准备时却没有考虑到驾驶员的年龄和性别信息;又如,在预测某店铺下月的销售水平时,却忽略了往年淡季旺季的差别。因此,在进行分析时需全面考虑所研究对象的影响因素,使我们输入的数据尽量包含应用所需数据信息,才能更加准确的数据模型。
五、结语
数据和信息之间的鸿沟需求系统地采用数据挖掘工具,将数据坟墓转化为知识“金块”,这给数据挖掘技术带来了重要的发展机遇,同时数据挖掘技术也面临一些技术难点亟待解决,之后,数据挖掘技术应用将逐步更加广泛,数据挖掘工具也将更加进步。
参考文献: