简介:不确定性是数据的固有属性,在实验过程中由于仪器的限制或者收集过程中的误差都会造成数据的不确定性。数据挖掘算法在处理不确定数据的相关研究尚处于初级阶段,不确定数据聚类是不确定数据研究中的典型问题,已有一些聚类算法被应用到处理不确定数据,如UK-means等。无论是UK-means还是FDBSCAN都仅仅考虑了不确定数据之间的几何距离,而没有考虑到不确定数据之间的概率分布差异。然而,概率分布特征是不确定数据的本质特征,考虑不确定数据的概率分布能够更准确度量不确定数据间的距离,从而提高聚类算法的性能,本文使用核函数度量不确定数据与类中心的距离,然后使用UK-means算法聚类不确定数据,通过大量实验验证了本文提出的距离函数优于使用欧式距离期望的UK-means方法。
简介:一、大数据的特点与应用价值何谓“大数据”?顾名思义是海量数据,超过常规尺度所能测量的数据。“大数据是用来描述大规模和不断产生的数字数据集,这些数据集通过与网络技术的相互作用产生。”大数据有四个特征:大量化、多样化、快速化、价值密度低。有学者将其扩展到第“5V”即数据真实性。“大数据时代的预言家”维克托·迈尔一舍恩伯格在《大数据时代》中对大数据的特点、功能和应用价值进行了阐释。“大数据不是随机样本,而是全体数据,即样本一总体;不要求精确性,接受混杂性和模糊性;关注相关关系,不追求因果关系。一切皆可‘量化’,要让数据自己‘发声’,对事物提供全方位的、可量化的维度。
简介:构建了数据随机截断情形下的Weibull型参数模型,分别利用经典方法和Bayesian方法对其参数进行了估计。
简介:无线传感器网络部署的成功取决于是否能够在其诸如数据的精确性、数据聚类程度以及网络生命周期最大化等问题上,提供一个高质量可靠的性能服务。其中,数据融合机制就特别具有挑战性。如果将一小部分低质量的数据作为数据融合输入,那么极可能对整个数据融合结果产生负面影响。该文提出了改进型分批估计和BP神经网络相结合的多传感器数据融合方法,旨在提高网络的服务质量并减少整个网络的能量消耗。该方法能够辨别和剔除低质量的终端数据,提高数据的精确性;同时,它还能够融合冗余的数据,以减少各站点之间的数据通信消耗,使网络生命周期最大化。通过MATLAB实验仿真,表明该文提出的方法具有良好的数据融合性能;相比于LEACH,有效减少转发数据包量,提高了网络生命期。