简介:摘要:随着电网终端采集装置的大范围安装与现场应用,越来越多的电网业务应用具备了数据实时采集的能力。为了充分发挥实时采集的电网数据价值,要求技术发展能够适应大规模电网数据流实时处理的新要求。然而,当前电力大数据的处理方式仍以传统的数据批处理为主,而大规模电网数据流在实时性、无序性、无限性、易失性、突发性等方面均呈现出了诸多新特征,使得基于“先存储后处理”设计理念的数据批量处理在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面面临着前所未有的新的挑战。类似于MapReduce的离线处理并不能很好地解决问题,而流计算可以很好地对大规模流动数据在不断变化的运动过程中实时地进行分析,捕捉到可能有用的信息。
简介:摘要近年来,在企业中存储空间的使用往往是惊人的,例如备份数据、文件服务器数据、虚拟化平台数据等。企业数据量不断增长和数据传输要求也不断地提高,数据中心海量的存储空间和高带宽低延时的传输要求成为当前企业网络存储区域面临了严峻挑战,重复的数据过大过多地保存在存储中,使得存储环境的资源被过渡浪费,同时影响系统的响应时间和网络带宽,如同一份的报表文件占用100M,10个用户将100M的文件存放在文件服务器的不同位置上,这样就占用1000M的空间,其中90%的存储空间被浪费掉。所有,通过数据重复删除技术,能让特定集内数据高度的冗余性得到提高,同时在大数据时代下提高存储效率和保存更多的数据资源。