浙江游菜花网络科技有限公司
摘要:互联网技术的不断升级和发展,给电子商务产业的持续发展奠定了坚实的基础,特别是随着网购逐渐变成了目前的主要消费模式,电商平台的交易额呈现出快速上升的总体态势,在这个过程中,会有大量的使用者的留言资料被累积起来,其中可以体现出越来越多的商品瑕疵和使用者对商品的实际要求。文章简要介绍了以大数据为基础的挖掘技术的基本内涵,并对电商平台的大数据挖掘过程展开了详细的剖析,并对其进行了详细的说明,以期对业内的工作人员有所启发。
关键词:电商平台;大数据挖掘系统;设计算法
引言
随着世界各国的日益繁荣,电子商务受到了日益广泛的重视,其简单易行的商业模式也在悄然间影响着我们的消费。从电商平台的使用特征来观察,过去只能依靠查询来获取物品的特性和品质等有关的信息的购买方式已经被转变,并且打破了时空的局限,使消费者可以享受到更好的购买体验。不管是商户和平台,都对有价值的物品购买反馈信息有着比较强烈的需要,这也是扩展客户群体和提高客户口碑的一个关键的原因,所以,对于评论数据,采用深度挖掘的方式,有着十分重大的实际意义。
1.基于大数据的大数据存储技术
1.1Hadoop框架
Hadoop是一种具备分布并行编程特征的开放架构,它可以在 MapReduce的基础上,与计算机所处的分布环境相匹配,从而可以完成海量的数据的储存和处理,还可以按需将数千个机器进行扩展,为用户提供了一个可以进行局部计算和对应的数据储存的重要条件。MapReduce是一种以大数据为基础的核心计算模型,其程序设计方法被大大精简,借助分布计算技术可以求解一些不变的问题,并且可以实现问题的自动划分。在此基础上,编程人员可以根据 Hadoop编制相关应用程序,以确保对大量的信息进行及时的分析。Hadoop也可以为用户提供一个数据存储的固定场所,使得其可以按照实际需要对计算节点中的分布式文件系统信息进行配置或存储,以最大限度地利用分布式数据库的应用。利用 Hadoop和大数据等新兴技术,保证对海量数据的实时和完备性,将 HDFS和 HBase融合到大数据架构中,以构建的大数据架构为基础,满足对海量数据的实时和高质量的实时处理和实时性需求。
1.2以大数据为基础的数据存储模型
以大规模数据的应用特性为基础,可以结合大数据等有关技术,建立大规模的数据存储模式,将每个存储节点与主服务器簇都包括在内,再加上 HDFS与 HBase,就可以完成针对所需要的数据资源的实时存储与需求控制。HDFS与 HBase在这一进程中,发挥的重要功能就是将需要的数据在各个计算结点上进行配置与储存,并可以利用 MapReduce与 Hadoop框架,来完成对数据的实时调度与科学的维修,以防止系统堵塞或框架使用失效等不利的情况发生。同时,用户也可以在 Hadoop架构下,直接访问网络中的结点,实现用户想要的互动行为。
2.电商平台大数据挖掘框架的构建
考虑到电商平台大数据特征,为其所开展的数据分析工作,其基本目标是为其所开展的电商行为提供有意义的行为信息和对应的平台支撑。为了确保信息的正确性和反应的时效性,构建了一个以电商平台为基础的大数据挖掘架构,它包括六个层次:
第一个是 Digital Source。这一层面的内容包括:电商平台,移动终端,社会网络和厂商;
第二个是资料采集层面。这一层次的内容主要是:全面收集资料,全面收集文件,并对各种信息和事件做出即时反应;
第三个层次是资料的组织性。这个层次的基本内容是由滤波实现的解析和与结构性的资料相关联的解析,滤波实现的解析是与结构性的资料相关联的。用筛选转换和提取注释来完成相关的分类,这个过程中的数据地图可以划分成三个相应的结点,包括了语言库、索引和构建的工作模式等。
第四,是资料储存层面。其中,层次结构中包含了与企业层面有关的数据库、数据仓库和元数据的管理;
第五部分为资料剖析层面。数据分析要建立在所拥有的搜索引擎的基础上,在确定了自己的需求之后,可以展开一般或者是高级的分析,以此来构造出与之对应的预报模式,还可以向使用者呈现出可视化的查询的对应条件。
第六部分为资料运用层面。这一层次以各种电商平台的实用应用软件为主,并相继发展出面向商户和个体的应用级数据软件。
3.电商平台大数据挖掘流程
首先,电商平台采集了大量的消费者数据,这些数据包含了电商平台、移动终端和社会网络三个部分。接下来是数据的预处理。主要分为三个阶段,即资料的准备、资料的转换和资料的提取。数据的处理包括交易数据、观察数据和交互数据,并按照需求对数据进行分析和重建;而在资料转换方面,我们重点解决了资料的结构化和非结构化,其中包含了资料的筛选和资料的对应;在资料提取方面,重点是资料的整合;接下来就是数据开采了。要对所涉及到的相关的规则展开研究,在完成了对其进行的归类和对应的聚类分析处理之后,就可以建立起对应的资料模式,为之后的发掘资料的全面运用打下了坚实的基础;第三部分为正规的采掘资料的运用。可以按照顾客的需求,向顾客提供规划的显示页,并通过对网页中的数据进行挖掘和对应的物品的检索,确保顾客可以得到更加完整的平台服务。在这个流程中,只要有任何的异常,都会被系统所检测到,然后通过大数据的方式,将这些异常信息传输到相关的服务器中,让相关的服务器在第一时间做出应对。
在这个流程中,所采集到的全部的资料都要经过一定的预处理,这些资料本身就具备了简单和独立的特性,经过解析和重建之后,就可以进行资料的转化,并且在经过了资料筛选和科学提取的前提下,可以对每一个使用者群的真实资料进行解析,进而可以对每一个使用者群的真实资料进行清晰地了解,进而可以获得更高的资讯资料。在此过程中,为了更好地体现出知识数据的应用价值,必须要以顾客的行为习惯和电商平台的学习特性为依据,进行对专业知识的解释和对数据的深度发掘,并要按照具体的需求,来选取适当的数据挖掘应用方法,以充分地发挥大数据的应用优势。
4.基于MapReduce的聚类方法分析
4.1聚类算法的分类
目前还没有一类可以展示多维数据和所展现的各种结构的算法,通常情况下,利用聚类分析的计算方式,来确定聚类模型、聚类密度和相应的应用网格。
首先,就是分类的方式。这个方法的应用原理,简而言之,就是对一堆散点进行聚类,所要达到的聚类效果是相同的点足够接近或不同的类的点足够遥远,在这个过程中,最常用的是K-means算法。该方法的优点是可以有效地对大规模的数据进行快速的计算,且时空复杂性比较小,但是也存在着一些问题,比如需要选取更多的k-点值来获取更多的信息。
其次,就是以层级为基础的方式。该算法通常包含层级聚类和分裂层级聚类两部分,其关键思想是将每一点都视为一个底簇,然后通过对簇之间的间距进行估算,将相邻簇进行融合,并且当满足一个终止的条件时,将其终结;分割层级聚类是以包括了所有的数据点的聚类作为出发点,并且可以按照一定的距离来分割子聚类,并且可以不断地进行分解,直到分解到每个聚类中都有一个相应的数据点之后,才会停止,这个方法中, BIRCH算法是最常用的一个代表。从具体的方法应用来看,不但可解释性好,而且聚类所生成的数据也比较高,但是也存在着很高的时间复杂度,即便在经过了后期的改良处理之后也没有得到改善。
4.2在评论语句聚类前所使用的关键技术
从目前的大数据应用环境来看,因为数据的数量比较多,所以要进一步提高计算效率,就必须对数据进行相应的分类和挖掘处理。MapReduce的应用通常都要与 MapReduce的应用相结合,这也是为什么在电子商务的应用中要采用 MapReduce的语句进行聚类的重要因素。
在获取了对应的注释数据集后,就可以进行相关的预处理工作,可以得到经过了精炼、精简的句子,用于抽取所有的特征词,其中包含了两种操作:然后可以对特征词加权数据进行计算,通常采用TF-IDF计算方法,结合相似度计算方案,可以在向量空间模型的辅助下,将获得的相似度数据转换为对应的距离,最终可以进行对应的聚类。在 MapReduce架构下,一般采用 K均值算法来实现与之对应的平行运算。对于选择句子间的相似性,通常采用的是向量空间模型法,它是由有关人员在对文字进行向量化后,以所得到的向量夹角余弦值为基础,来最终确定文字句子之间的相似性。
4.2.1特征词的选取
在对文字向量化进行评估处理时,通常不会将所有的单词都在向量中表示出来,因为这样会造成浪费,所以只要展示出可以将句子意思完全表达出来的单词就可以了,这个部分分词也被称作是特征词。
第一个就是切词。所谓的切词,其实就是将一个完整的句子分割成多个字或词,通常通过软件来完成。如果要进一步提高切词的精度,那么就应该尽量地保持住关于产品的特征词和有关的领域的词语,这样就可以让这些被保存下来的词语拥有一些句子的语义,这样在经过加工后的词语依然可以表现出对应的句子的意思,这也是确保最后的聚类结果的一个关键的依据。
第二个步骤是去掉了助词,介词和连接词。这类词语一般都是没有真实意思的虚词,所以去掉对应的句子也不会改变它的意思。该算法可以在矢量维数减少后仍然保持句子中的意义,对减少运算量有很大的帮助;
第三个问题是取消替代品。尽管它不是一个虚词,但是它本身没有对应的确切意义,它多是被用来指称一个主体。所以,在后期的处理中,所采用的软件算法不会将其置于对应的上下文中获得对应的参考意义,可以在对该语言进行滤波时,选择将其剔除。
4.2.2文本向量化表示
语篇矢量法可以用来表示语篇中具有特定特点的词语的句法成分。在进行切词的时候,要以建立起来的筛选词库为依据,将多余的内容全部剔除掉,而得到的特征词集是建立相似性计算模型的关键。接下来,就是要对文字中的特征值所占的比重进行确定,进而确定出空间矢量的对应值,实现对文字矢量图的定量。
4.2.3特征值权重
在资料采掘中,TF-IDF是一种常用的统计学分析法,它可以判断某一类别档案中文字的重要性。通常情况下,一个单词在一个文档中的数量越多,就代表着这个单词的重要性。TF指的是词频,也就是在文献中所发生的句子的频率,在进行分析时,要用到特征词语的出现的次数除以文献的总字数。通常情况下,推荐采用 MapReduce框架,在 Map环节对每个节点所保存的词句进行统计,并在随后的 Reduce环节进行总结和计算。这样,不但可以提高运算速度,还可以免去重复的计算,减少了加权的操作时间,从而提高了算法的总体执行效率。
结语
总之,随着资讯科技的飞速发展,网络购物平台已经有了强大起来的实力,但是网络购物也有它自己的局限。消费者仅从广告中得知商品的品质,若不能明确商品的真实功效,则会遭受到一些金钱上的损失。因此,必须对大量的评论数据采取不同的处理方式,将真正有意义的信息进行充分的发掘,为顾客提供产品的重要指导条件,进而保障了平台和商户的利益,这也是为什么我们要对以电商平台大数据挖掘系统设计过程中的一个重要因素。
参考文献:
[1]宋文智,白洪林,官潼筑,等.基于数据挖掘的跨境电商RCEP国别用户画像研究[J].中国新通信,2021,23(19):66-67.
[2]秦宇.基于人工智能的电商大数据分类与挖掘算法[J].电子技术与软件工程,2021(14):146-147.
[3]郭燕萍.电商客户数据挖掘中的模糊运算聚类算法分析[J].现代电子技术,2021,44(13):130-134.
[4]王治博.基于Hadoop的电商平台用户数据挖掘研究[D].北京:华北电力大学,2021.
[5]贾咪雪.基于差分进化粒子群算法的电商评论数据挖掘研究[D].上海:华中师范大学,2021.