北方自动控制技术研究所 山西太原 030006
摘要:目前国内外对大数据的定义主要分为两个视角:数据资源视角和数据应用视角。资源视角下,大数据的特征包括体积大、速度快、模态多、难辨识、价值密度低等,应用视角下的大数据定义更重视大数据分析能力。尽管从资源视角研究大数据得到了学术界的广泛认可,但是大数据资源本身不足以塑造企业核心竞争力,唯有与企业其他资源整合上升到能力层面,才能发现隐藏的且有价值的信息和结论,从而提高行为预测精度、整体效益和工作效率。
关键词:社交媒体;大数据分析;行为预测
前言:随着云计算的发展和移动应用的普及,基于移动互联的新媒体已成为大众日常信息沟通交流的主要渠道,社交媒体产生的数据也蕴含着有价值的信息。
数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含其中人们事先不知道的、并具有潜在利用价值的信息和知识的过程。数据挖掘是一个多学科交叉的领域,涉及数据库技术、人工智能、机器学习、人工神经网络、统计、模式识别、知识库工程、信息检索、高性能计算技术、可视化等领域。目前数据挖掘研究和开发表明:数据挖掘需要覆盖各种不同的应用任务,从数据的预处理到关联规则、聚类分析、数据分类、偏差检查、序列模式等特定的模式。频繁模式与关联规则挖掘问题首先由R.Agrawa提出,它是很多其它挖掘问题的基础。Agrawal提出的Apriori算法是挖掘关联规则的最基本、最具影响的核心算法。国内针对突发事件应急管理工作中需求数据挖掘的研究中,柳萌萌等提出一种基于多尺度挖掘的应急管理系统需求数据挖掘方法。数据划分尺度的设定依靠概念分层理论,根据与应急决策支持系统多尺度需求数据集间的上下关系;利用多尺度关联规则挖掘算法,实现应急决策支持系统需求数据挖掘,这种挖掘算法虽然数据挖掘覆盖率、精确度较高,但挖掘效率较低,无法满足海量数据挖掘需求。刘海涛提出了基于加权代价的需求数据挖掘方法,通过构建决策树对应急管理工作中的需求数据进行代价敏感学习;设定不同需求数据的具体权值,给出加权可靠度;通过非频集过滤矩阵寻找需求数据频繁项集,得到需求数据间的关联规则,根据这种关联规则挖掘出所有的需求数据,该方法的弊端是挖掘精度较低。杨帆等提出了一种基于支持向量机的应急管理需求数据挖掘方法,采集应急决策支持系统需求数据,根据需求数据采集结果构建需求数据分类模型,对需求数据进行分类,实现应急决策支持系统需求数据快速挖掘。这种数据挖掘方法可以有效应对应急决策支持系统小样本、高维数据的问题,具有可视性强、准确率高,应用范围广等优点,但挖掘效率过低。彭秦晋提出一种新的需求数据挖掘方法,基于最大间隔准则与最小最大概率机相融合的应急决策系统数据自助挖掘方法。
通过社交媒体来记录自己的行为状况已经成为很多人日常生活中不可缺少的一部分,因而由社交媒体产生的社交媒体数据蕴含着海量信息。大数据完整记录了数以10亿计用户的所言所行、记录了用户间形成的种类繁多的社会关系、记录了用户产生的海量网络信息的传播轨迹,这些人类社会活动的真实记录为研究社交网络及其信息传播规律提供了宝贵的基础数据,为科学研究带来了全新的挑战,必将极大地促进信息科学与社会科学交叉领域及其相关方向(包括模式识别、数据挖掘、人工智能、信息检索等)的革新与发展,具有重大的学科发展意义。
近几年来,在席卷北非、中东的颜色革命浪潮中,一些媒体机构利用大数据分析在社交媒体上实现信息的精准投放,达到了可观成效。尤其是在特朗普问鼎美国总统之路上,利用大数据分析实现社交媒体的精准投放,可以说是最为成功的案例。在2016年的美国总统大选中,大部分时间里特朗普并不被看好,但最后结果让全世界几乎所有民意测验机构都栽了跟头。特朗普竞选团队CEO是史蒂夫·班农,他依靠剑桥分析帮助特朗普赢得大选。剑桥分析是一家大数据分析公司,而班农是剑桥分析的董事会成员。剑桥分析如同实施“靶向治疗”一般,帮助班农的团队精准定位了美国选民的喜好并精准推送信息。剑桥分析是基于心理测量学模型,测量人类心理特征,譬如性格。这一模型被按照首字母简称为OCEAN模型:开放性(对新经验的开放程度)、自我意识(有多么完美主义)、外向性(如何社交)、亲和度(体贴和合作能力)以及神经质程度(面对压力是否可以承压)。通过这一模型,可以精确地为一个人建立心理学轮廓档案,并定量描绘该人性格,进而推断其政治倾向。尽管OCEAN模型十分有效,但在大数据时代到来之前,在进行样本收集时往往面临难题,因为这份调查问卷通常非常复杂,且问的问题有关重要个人隐私,必须得到受访者的合作,这令大规模的建立心理学轮廓档案变得很不现实。不过在有了互联网和大数据分析技术之后,这个问题得到解决。在2016年美国大选过程中,剑桥分析通过收集网上的社交数据,以及从不同来源购买的个人数据,例如土地登记数据、汽车数据、购物数据、奖金卡以及俱乐部会员资格等,为美国2.2亿成年人建立了数据点和心理轮廓数据库。基于此种心理轮廓大数据分析,剑桥分析将美国人口细分成32种基本性格特征,班农的竞选团队有针对性地为对选民提供他们感兴趣的信息,分析选民情感因素,向选民发送定制广告,进而对选民进行洗脑和意识操纵。他们利用情绪操控智能程序、机器人水军、“暗帖”(darkpost,定向投放给特定用户的帖子)和A/B对照实验,抓住选民的不同个性,在美国大选中实现了舆论的大规模引导和转向。他们通过收集摇摆选民的信息,仅仅专注于17个州,最后几周的精力都集中在密歇根和威斯康星州等几个摇摆州,最终取得胜利。
在供应链合作关系管理中,早期有学者开始研究社交媒体对供应链管理产生的潜在影响,Leaery利用经济学理论分析指出社交媒体可以被用来剔除或减少供应链中的信息不对称;Mamic等通过内容分析探讨了一批大型公司利用推特平台与其利益相关者保持良好关系的应用情况,发现这些公司在利用推特提供的交互潜力构建与利益相关者互利关系方面仍存在很大提升空间;Swain探讨了在线公司生成内容对供应链的影响,研究表明利用社交媒体能够增进信息共享与合作,提升供应链整体绩效;Grant解释了英同保险市场供应链背景下早期社交媒体知识共享的采用,揭示了一系列支持信息和知识交流的新兴实践,但这些实践主要受到购买力和供应商竞争等组织因素的驱动。在客户关系管理方面,Singh等利用文本分析和分层聚类的大数据分析方法,研究食品供应链相关的推特数据,为供应链决策者提供有关客户反馈以及食品流程和质量问题;Fan等基于扎根理论利用推特数据研究航空公司社交媒体账户对客户投诉的反应以及其对客户情绪和满意度的影响。Bhattacharjya等研究推特上电子零售商与物流相关的客户服务互动的有效性,以及识别有效和无效的社交媒体客户服务策略。在需求与销售管理方面,See等利用天猫交易数据以及消费者评论数据研究快时尚行业的短期需求分配和销售预测模型,以帮助管理者可以在库存管理、产能利用以及供应链运营中的超前和滞后时间方面做出更好的决策;Cui等利用机器学习的方法研究证实使用公开的社交媒体信息会显著提高公司内部销售预测的准确性。社交媒体正凭借其强大的变革力量推动着供应链管理的发展。
5.结束语:
综上所述,针对不同类型的社交媒体采取不同的挖掘方式获得社交媒体数据,根据突发事件灾害事故强度、损失、需求与用户影响力因子进行数据挖掘,辅助应急管理工作。通过利用大数据进行有效行为预测,能够发现隐藏的且有价值的信息和结论,实现整体效益和工作效率的提升。
参考文献:
[1]王晓聪.基于位置的社交网络用户签到行为研究[D].大连:大连海事大学,2012.
[2]梁年,何宗宜,苗静.微博数据挖掘的用户行为时空特征分析[J].测绘科学,2016,41(3):34-39.
[3]薛涛,戴林琳.基于大数据的城市居民网络签到活动与经济服务业空间关系实证分析[J].商业经济研究,2015(24):136-137.
[4]唐佳,李君轶.基于微博大数据的西安国内游客日内时间分布模式研究[J].人文地理,2016(3):151-160.