首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
大量的web应用需要融合来自不同数据源的真实信息,然而关于同一实体的同一属性,不同的数据源可能会提供多个不同甚至彼此冲突的数据.如何判断数据源的可靠性和甄别事实的真假,即真值发现问题,日益获得关注.针对web数据集成中的多真值发现问题,提出了一种基于贝叶斯分析和最大似然估计的迭代计算方法,将真值发现的每一步与数据源可靠性评估紧密结合.首先,根据提供更多真实信息的数据源具有更高可靠度和由可靠的数据源提供的事实数据更可能为真值的基本原则构建似然函数,将事实真值作为模型的隐变量,并将正确性和错误性两方面的数据源质量指标作为模型参数.然后,迭代执行E步(计算事实为真的概率)和M步(评估数据源的质量),直至参数收敛.最后,真实数据集上的实验结果表明我们的方法提高了真值发现的准确率,有效解决了数据融合过程中的多值冲突问题.  相似文献   

2.
提出一种基于密度峰值发现的文本聚类算法,将文本的距离与密度计算转化为文本向量的相似度计算,实现基于密度峰值发现的文本聚类算法。该算法采用空间向量模型表示文本,用余弦公式进行相似度计算,然后求得每个文本的密度和距离。剔除噪音点后,选取聚类中心,将剩下的非中心点划分到距离其最近的聚类中心所在的类簇中去。通过多组对比试验,验证了本方法的可靠性和鲁棒性。  相似文献   

3.
目前多数多视角聚类算法不考虑噪声问题,为了更有效地分析含有噪声数据的聚簇结构,提出了一种基于可能性C-均值的鲁棒多视角聚类(PCM-RMVC)算法,该算法同时利用多个视角空间中的特征信息,最小化每个视角空间中数据对象与聚簇中心的距离.推导出数据隶属度和每个视角权重的迭代更新规则,设计出聚类过程的迭代算法.实验表明:PCM-RMVC算法对噪声具有较强的鲁棒性,并且聚类效果优于五种有代表性的多视角聚类算法.  相似文献   

4.
基于入侵性杂草克隆的图像聚类方法   总被引:2,自引:0,他引:2  
针对原始谱聚类初始敏感的缺点,提出了一种新的基于入侵性杂草优化(IWO)的图像聚类方法(CIWO).该算法通过计算峰值信噪比(PSNR),动态确定图像聚类簇数的最优选择范围,采用最小量差、最小簇内距离、最大簇间距离重新构造了图像聚类质量的评价函数,通过模拟杂草克隆的自然行为对图像数据集的簇中心进行快速准确定位.将算法应用于几个基准测试图像,并通过聚类有效性准则与k-Means、FCM、PSO等方法进行比较,发现CIWO具有更稳定的图像聚类性能.实验结果也表明,所提出的算法可获得更优的图像聚类质量.  相似文献   

5.
电力负荷曲线聚类在电力大数据研究中有重要的应用。针对传统负荷聚类方法难以有效处理海量化的高维负荷数据,以及存在簇间样本模糊导致算法聚类质量不高、聚类效率低下等问题,提出一种结合多维缩放(multi-dimensional scaling, MDS)和一种新的集成簇间、簇内欧式距离的加权K-means方法(weighting k-means clustering approach by integrating intra-cluster and inter-cluster distances, KICIC)的聚类算法(MDS-KICIC)。该方法首先采用MDS算法对高维负荷数据进行数据降维处理,得到降维后的低维矩阵和归一化的特征值向量作为KICIC算法的输入矩阵和权重向量,KICIC通过在子空间内最大化簇中心与其他簇数据对象的距离来融合簇内和簇间的距离进行聚类,得到最终聚类结果。通过算例表明该方法运算时间短、聚类质量高,进一步提高了负荷曲线的聚类性能。  相似文献   

6.
传统Kmeans聚类算法的性能易受初始类簇中心随机性和类簇中心计算的迭代过程中边缘点和离群点反复计入的影响,为了避免这些影响,该文提出一种基于反向K近邻和密度峰值初始化的加权Kmeans聚类算法。通过样本的近邻信息计算每个样本的反向K近邻,针对不同规模、不同密度分布数据集,可以自适应地搜索密度峰值点作为初始类簇中心;自适应设定相对簇半径,并通过样本加权进行类簇中心迭代,在不同数据分布下可以有效降低边缘点和离群点对聚类结果的影响。试验结果证明,该算法在聚类性能提升的同时迭代次数大幅降低,随着入侵行为类型和数据规模的增加,该文聚类算法仍体现出较好的性能,且在发现未知攻击类型上效果显著。  相似文献   

7.
近邻传播算法(AP)不需要事先指定聚类数目,在程序运行过程中,能够自动识别聚类中心及聚类数目。在同一批数据集上,AP算法聚类结果稳定,鲁棒性好。除此之外,AP聚类算法可以采用多种距离度量方式,聚类结果精确。针对近邻传播算法(AP)不能对异构数据进行聚类的问题,提出一种基于张量距离的高阶AP聚类算法。该算法首先利用张量表示异构数据对象,然后将张量距离引入AP聚类算法,用来度量异构数据对象在张量空间的相似度。张量距离的引入,不但能够度量异构数据对象在数值上的差异,同时能够度量异构数据对象在高阶空间中位置的差异性,有效的捕捉异构数据对象的分布特征。实验结果表示,提出的高阶AP算法能够有效的对异构数据对象进行聚类。  相似文献   

8.
提出了一种基于微簇的两阶段高维数据流聚类算法.首先,对新到达的数据进行降维处理,使用改进的线性判别分析方法获得一个局部投影子空间;然后,在子空间内最大化流入数据近邻微簇之间的距离;最终,将流入数据划分到投影空间的微簇中.基于高维数据流的实验结果显示,本算法的分类性能优于其他的数据流聚类算法,并且具有较低的计算复杂度.  相似文献   

9.
针对海量数据的特性及KMeans算法的并行特性,提出了一种基于MapReduce编程框架的并行聚类算法,给出了算法的主要设计方法和策略.Map函数计算出每个记录所属的簇并用簇标号来标记;为了减少网络流量,利用Combine函数合并了本地的簇中的样本和;Reduce函数合并簇中所有的记录,并重新计算聚类的中心,供下一轮MapReduce迭代使用.最后用不同大小的数据集对改进算法的效率及伸缩性进行了验证,结果表明基于Hadoop的并行KMeans算法适合于海量数据的分析和挖掘.  相似文献   

10.
提出了一种基于聚类的支持向量机增量学习算法.先用最近邻聚类算法将训练集分成具有若干个聚类子集,每一子集用支持向量机进行训练得出支持向量集;对于新增数据首先聚类到相应的子集,然后计算其与聚类集内的支持向量之间的距离,给每个训练样本赋以适当的权重;而后再建立预估模型.此算法通过钢材力学性能预报建模的工业实例研究,结果表明:与标准的支持向量回归算法相比,此算法在建模过程中不仅支持向量个数明显减少,而且模型的精度也有所提高.  相似文献   

11.
在模糊C-均值聚类(FCM)目标函数的基础上按聚类中心分离原则增加一个聚类中心分离项来扩展FCM算法,提出基于聚类中心分离的模糊聚类模型(FCM_CCS)。该模型可使聚类过程中的聚类中心之间距离扩大,从而得到更好的聚类效果。由于该模型和FCM一样对噪声敏感我们提出它的可能性聚类模型(PCM_CCS),最后进一步扩展成它的可能性模糊聚类模型(PFCM_CCS)。基于聚类中心分离的可能性模糊聚类模型在处理噪声数据和克服一致性聚类问题方面表现出良好的性能。对数据集的测试实验结果表明了提出的PFCM_CCS能同时产生模糊隶属度和典型值,使聚类中心间距扩大,同时具有更好的聚类准确率。  相似文献   

12.
欠定盲信道估计是欠定盲源分离的关键组成部分,其估计精度直接影响到源信号的估计精度.基于充分稀疏假设,在K均值聚类的基础上,提出一种新的欠定盲信道估计算法——K均值与主成分分析方法(KM-PCA算法).该算法首先对观测数据进行K均值聚类,然后对聚类分析结果分别进行主成分分析,修正其聚类中心,从而提高混叠矩阵的估计精度.采...  相似文献   

13.
基于核的自组织映射聚类   总被引:1,自引:0,他引:1  
将核学习的方法应用于自组织映射聚类中,提出了一种核自组织映射聚类算法.该算法以核函数代替原始数据在特征空间中映射值的内积,并且神经元权值向量的初始化和更新都可由其组合系数向量表示,从而获得了直观而简单的迭代公式.分析了算法中学习速率过高会降低学习稳定性、学习速率过低又会降低收敛速度等参数选择问题,给出了一组折中考虑学习稳定性和收敛速度要求的参数初始值.实验结果表明,核自组织映射聚类对于非椭圆型的类分布数据,如环形数据,聚类正确率也能够达到99.886 4%.对IRIS数据集和入侵检测报警数据的聚类也证明了核自组织映射聚类方法的良好性能.  相似文献   

14.
将三支决策与密度敏感谱聚类结合,提出了一种基于三支决策的密度敏感谱聚类算法。该算法通过在密度敏感谱聚类的聚类过程引入容差参数得到每个类的上界,然后通过扰动分析算法从上界中分离出核心域,上界和核心域的差值被认定为该类的边界域。聚类结果用核心域和边界域来表示每个类簇,可以更全面地展示数据的结构信息。与传统的硬聚类算法在UCI数据集的实验结果相比较,本文使用核心域计算聚类的评价指标DBI、AS和ACC都有所提升,较好地解决了不确定性对象的聚类问题。  相似文献   

15.
针对可能性聚类对初始化参数设置依赖性较强的问题, 提出一种基于中心自动融合的可能性聚类算法, 并证明了算法中尺度因子的多尺度性质. 该算法通过建立中心的相关性判定准则, 根据数据自身分布特点动态调整聚类数目与结构, 通过引入尺度参数实现对数据的多分辨率分析. 与传统的模糊和可能性聚类算法相比, 该算法摆
脱了对聚类数目及初始化中心或隶属度矩阵设置的依赖性, 易于控制. 人造数据和真实数据实验结果表明, 该算法能自动确定数据中不同尺度下的聚类结构, 具有识别不同大小聚类结构的能力.  相似文献   

16.
借鉴邻域粗糙集处理连续型数据的优势,为解决传统谱聚类算法需要人工选取参数的问题,提出基于自适应邻域互信息与谱聚类的特征选择算法。首先,定义各对象在属性下的标准差集合与自适应邻域集,给出自适应邻域熵、平均邻域熵、联合熵、邻域条件熵、邻域互信息等不确定性度量,利用自适应邻域互信息对特征与标签的相关性进行排序。然后,结合共享近邻自适应谱聚类算法,将相关性强的特征聚到同一特征簇内,使不同特征簇内的特征强相异。最后,使用最小冗余最大相关技术设计特征选择算法。在10个数据集上选择特征个数与分类精度的实验结果,验证了所提算法的有效性。  相似文献   

17.
针对当前物联网数据融合方法速度慢、 融合精度低等问题, 以改善物联网异构数据融合效果为目标, 提出一种基于智能优化算法的物联网异构数据融合方法. 首先采用多个节点采集监测对象状态数据, 并对每个节点采集的数据噪声进行过滤, 初步减少数据规模, 提高物联网异构数据质量; 然后引入聚类分析算法处理簇首数据, 消除簇内数据间的冗余; 最后在汇聚节点采用智能优化算法对簇首数据进行加权融合, 并在相同环境下与其他融合方法进行对比实验. 实验结果表明, 该方法能对物联网异构数据进行有效融合, 获得了较高精度的物联网异构数据融合结果, 物联网异构数据融合错误少、 速度快, 提高了物联网数据融合的效率.  相似文献   

18.
针对密度峰值聚类(density peak clustering, DPC)算法不能根据数据集自适应选取聚类中心和截断距离dc,从而不能自适应聚类的问题,提出了一种自适应的密度峰值聚类(adaptive density peak clustering, ADPC)算法.首先,提出了一个综合考虑局部密度ρi和相对距离δi的参数μi,根据μi的排列顺序及下降趋势trend自动确定聚类中心.然后,基于基尼系数G对截断距离dc做了自适应选择.最后,对ADPC算法做出了实验验证,并与DPC算法和K-means算法进行了对比.实验结果表明,ADPC算法具有较高的ARI,NMI和AC值,具有较好的聚类效果.  相似文献   

19.
物体的性质可以用各向异性的数据模式表达,每一个分类器可以针对一种数据模式对物体进行分类,由此提出了一个对各向异性的数据模式进行整合的概率分类算法。将该算法应用于一个模拟数据,实验结果表明了该算法是可行性的。  相似文献   

20.
为了解决传统算法检测准确性低,复杂性高不适于电力大数据异常值检测的问题,通过密度峰值聚类算法研究了电力大数据异常值检测问题。分析了密度峰值聚类算法的聚类过程。按照聚类中心选择原则,通过相邻距离和密度的归一化乘积对聚类点的差异度进行衡量,按照差异度的统计特性与改变趋势选择最大的一组点当成聚类中心。按照z空间填充曲线与高维数据点z携带位置信息特性提出基于z的分布式密度峰值聚类算法,降低异常检测复杂性,以达到电力大数据异常值检测要求。采用优化后的密度峰值聚类算法对电力大数据异常值进行检测,在局部密度超过阈值,同时距离超过阈值的情况下,认为相应电力数据点为异常值。将基于距离的检测算法和基于密度的检测算法作为对比进行测试,结果表明:所提算法得到的异常电力数据点,和实际情况相符,和其他两种算法相比没有出现错检测和漏检测的情况。可见所提算法适于电力大数据异常值检测,且检测结果准确性高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号