探究深度学习在人工智能数据分析中的应用

(整期优先)网络出版时间:2023-10-18
/ 2

探究深度学习在人工智能数据分析中的应用

张凤芝  王钰博  范宇英 温世婷

北方自动控制技术研究所 山西太原 030006

摘要:现阶段,人工智能技术的应用方向主要是在智能制造领域,所以提升人工智能技术在处理海量数据信息过程汇总的计算效率和资源配置能力就可以在一定程度上促进智能制造领域的发展。将人工智能技术有效地应用到智能制造领域是未来社会发展的趋势,这是因为该技术的应用不仅能够在生产领域中完成降低生产成本、提升生产效益、缩短产品制作周期的作用,而且还能够帮助企业有效地规避风险。因此,基于人工智能技术进行大数据分析是非常必要的。

关键词:人工智能技术;大数据分析;研究

前言:随着社会科学技术和经济水平的不断发展,整个社会的发展也同样进入了一个崭新的阶段,人工智能、大数据以及云计算等信息技术已经成为了一种能够推动集成制造业快速发展的关键技术手段。

1.基于机器学习的大数据分析

1.1大数据聚类

由于大数据的信息组成大多数都是横跨各个专业领域、媒体的,所以在实际生活中无法将传统的聚类计算法应用于大数据聚类。为此,相关技术人员提出了映射与归约相结合的编程模式。有效地运用这种编程方式不仅能够实现传统聚类算法的并行运算,增强计算的便捷化,而且还能完美地完成大数据信息的分类与集合。基于此,相关的技术编程人员利用该编程模式不断地将大数据的聚类算法进行创新,如利用Apache基金会开发的分布式系统基础构架实现了K-means聚类算法,该算法的运行步骤分别是映射、分类、归纳;利用MapReduce编程框架不仅实现了凝聚式层次聚类分析,保证了文件信息传输的有效性和保密性,而且还实现了可以运用于密度计算的聚类方法。其中可以运用于密度计算的聚类方法除了可以有效地进行大数据信息的预处理,还可以查找到需要进行整合的信息做集中处理。另外,利用MapReduce编程框架还实现了并行幂迭代聚类的方法,这种计算方法是通过将数据信息进行有效压缩来实现降低计算时间和对计算设备硬件的需求来完成的。综上所述,随着人们对大数据信息传输、储存的要求不断提升,采用传统的聚类算法进行计算已经无法满足市场的需求。因此,需要相关工作人员能够不断创新并行聚类算法。

1.2大数据关联分析

在大数据时代下进行关联分析其目的是为了能够快速地查找到信息之间的联系。现阶段,应用比较广泛的关联分析算法有两种,分别是Apriori关联规则挖掘和FP-Growth关联规则挖掘。但是这两种关联分析算法的计算方式不同,Apriori关联规则挖掘需要提前设定一个算法支持的阈值,然后再进行筛选,而FP-Growth关联规则挖掘是需要建立一个频繁模式树,然后分两次完成数据的扫描。Apriori关联规则与FP-Growth关联规则相比,不仅需要在频繁模式下建立大量的数据样本,而且还需要投入较多的时间成本,因此,在实际的应用中,相关的技术人员应该使用FP-Growth关联规则的运算方法进行分布式并行化处理。例如在SPARK平台中运用FP-Growth关联规则算法,首先需要将相应的数据信息进行分组,由大数据信息变成小数据信息,然后在运用FP-Growth算法得到频繁项集。当前形势下,大数据关联分析已经有效地运用到了交通方面。相关技术人员根据汽车的运行轨迹,提出了能够处理大量小文件的并行频繁模式增长算法,不仅可以对汽车运行所处的时空数据进行关联分析,降低交通事故发生的概率,而且还能通过建立局部频繁模式树来有效地解决全局频繁模式树算法过慢的问题。

1.3大数据分类

大数据分类是应用于大数据挖掘的有效方式,它不仅能够将相同的数据信息进行整合处理,提升大数据挖掘的工作效率,而且还能够帮助相关工作人员快速地查找需要的信息。当前,大数据分类已经应用到各个行业。例如在医疗诊断行业中,相关技术人员利用医疗大学的数据信息来研究辅助医疗诊断肿瘤问题,并有效地运用MapReduce编程框架中的K近邻分类器对微阵列基因进行大数据分类来检查癌症患者携带的基因。

1.4大数据预测

为了增强大数据预测在大数据研究中的应用性,相关技术人员开始不断尝试将其运用到各个领域。例如在金融行业中,可以运用机器学习算法来寻找市场之间的差异性和相似性,然后建立相应的交易模型对市场商品的价格进行实时预测。在智能安全领域,可以通过结合云计算、几何特征学习技术以及分布式文件系统来对网页中可能出现的入侵攻击进行合理的预测和把控,从而提升网络系统的安全性。虽然当前大数据预测的应用性较广,但是依然存在着一些难以得到有效解决的难题。如包含有效信息的时间较少,从大量的数据信息中进行截取这些信息比较困难;在进行大数据的预测过程中虽然能够获得一个大范围的数据信息,但是缺乏一定的精确性。

2.常见的分析方法

2.1机器学习

(1)聚类。它能直接把对象分成多个不同组,从而进行高效准确的数据挖掘等。大数据信息基本都是包含所有领域的,因此这就不能将常规聚类计算应用进去,所以有学者提出了映射和规约相互结合的编程形式。这样一来,不但能促进常规聚类算法并行运算,还能提升计算本身的便捷性,高效化促进大数据信息集合与分类。在此基础上,有学者进一步创新了聚类算法,比如通过分布式系统基础构架达到了“K-means”聚类算法,也有通过“MapReduce”编程框架进行了凝聚式层次聚类分析,给重要文件信息的传输带来了良好的保密效果,同时也促进了传输效率提升。

(2)关联分析。这主要是为了能及时将各项数据信息之间的联系性找到。当前,最常见的算法主要有两类,即“Apriori”和“FP-Growth”关联规则挖掘[2]。从根本上看,两者在计算方式上是存在一定差异的,即前者需要预先确定一个算法支持的阈值,再实施筛选;后者则要构建一个频繁模式树,再两次进行数据扫描。前者和后者相比较,不但要再起频繁模式之下构建海量数据样本,还要消耗大量时间,为此当下使用最多的则是后者。关联分析当下在实际领域中的应用,最典型的则要属交通方面。即直接依照汽车的运行轨迹,设计出了能够对各类小文件进行处理的并行频繁模式增长算法,不但能实现时空数据关联分析,减少事故发生率,还能使全局频繁模式树算法速度过慢的问题得到有效解决。

2.2计算智能

有学者经过研究发现,认为计算智能属于智能领域当中一项十分关键的组成内容,由于其具有良好的启发性和随机性,因此非常适合应用在大数据计算与处理之中,实现原本算法的高效优化。另外,大量研究者都对群智能展开了分析探索,其中有人发现群智能归类是一种直接基于大动态特征大数据分析的重要方法,可以应用粒子群算法加以优化,所以重点就在于怎样通过粒子群算法达到分布式算法,而“MapReduce”正好能实现这一点。也有学者认为通过群智能可以解决目标函数聚类,其中粒子群算法最为有效,能使整个计算过程中被融入错误技术、效率等因素,使计算结果就实现了大数据集聚类。

2.3深度学习

该分析方法不但能被高效化地应用在图像和语言处理之中,还能提升数据运算的基本效率。但由于其能有效处理海量具有密集型的任务,因此在构建模型的过程中,还应迭代运算所有参数,而这则要消耗大量时间。所以,有些学者直接尝试使用“Spark”等平台实施分布式计算与储存,在减少成本消耗方面取得了一定效果。即便如此,实际应用过程中还是非常容易发生因为数据样本质量不高导致难以有效对深度学习数字模型进行持续优化的效果。所以,部分学者则提出了固定模型重用,它能减少对数据样本的需求,保证运算效率。同时,有些研究人员还直接提出了残差学习法,即通过残差函数对深度神经网络训练进行完善,以确保数据获取的精准性。

3.结束语:

综上所述,当下以人工智能技术为核心的大数据分析方法在很多领域中都得到了有效运用,为更进一步提升算法应用效果,相关学者针对其有目的的展开了聚类、分类、关联分析和预测研究。同时还以深度学习以及计算智能进行了创新优化,在很大程度上提升了算法的精准性,使得人工智能技术的大数据分析方法有更多的发展空间,提升使用实用性。

参考文献:

[1]唐文虎,牛哲文,赵柏宁,等.数据驱动的人工智能技术在电力设备状态分析中的研究与应用[J].高电压技术,2020(9):2985-2999.

[2]张潇月,顾立平,陈新兰.数据重用在企业导入人工智能技术中的价值及实现路径研究[J].情报探索,2020(07):54-62.

[3]程聪,王永根.人工智能技术的大数据分析方法探讨[J].信息记录材料,2020,21(05):128-130.

[4]蒲天骄,乔骥,韩笑,等.人工智能技术在电力设备运维检修中的研究及应用[J].高电压技术,2020(2):369-383