首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
基于局部线性嵌入的半监督仿射传播聚类算法   总被引:1,自引:0,他引:1  
针对运用半监督仿射传播聚类算法处理高维数据时聚类精度低和计算量大的问题,提出一种基于局部线性嵌入的半监督仿射传播聚类算法.该算法首先通过LLE算法将高维输入数据集映射到低维空间得到低维数据集,计算低维数据集的相似度矩阵,再用半监督算法调整相似度矩阵,最后用仿射传播聚类算法对低维数据进行聚类分析.仿真结果表明,本文提出的算法与半监督仿射传播聚类算法相比,在处理高维数据时聚类效果更好,精度更高,迭代次数更少.  相似文献   

2.
通过将类间分离度函数引入到模糊C-均值聚类算法中,结合半监督的思想,建立基于信息熵的半监督模糊C-均值聚类模型,并对该模型的求解过程进行推导,提出一种新的算法.为了验证算法的有效性,将该算法在UCI数据集上进行实验,实验结果表明,该算法比仅引入信息熵的模糊C-均值聚类方法聚类性能更好.  相似文献   

3.
移动时间层次聚类(Travel-Time based Hierarchical Clustering,TTHC)是一种新的势能聚类算法,尽管具有较好的聚类效果,但是该算法需要人工设定聚类数目,而且在分配样本的时候仅根据相似度,忽略了距离和势能的影响.针对以上问题,提出一种自动确定聚类中心的移动时间势能聚类算法.首先计算每个数据点的势能和相似度,然后根据相似度确定数据点的父节点,得到数据点与父节点的距离;然后,根据数据点与父节点的相似度、距离和数据点的势能得到综合考量值,根据综合考量值自动确定聚类中心;最后,将剩余数据点分配到比其势能小且与其相似度最大的数据点所属类簇,得到聚类结果.将新算法与TTHC算法进行比较,在人工数据集和真实数据集上的实验结果表明,新算法不仅能够自动确定聚类数目,而且采用了更优的分配机制,可以产生更好的聚类结果.  相似文献   

4.
提出了一种拓展的半监督模糊聚类模型,给出求解这个模型的迭代公式.这种半监督聚类能够合理、有效地利用部分已标识样本的类别信息对未标识样本产生影响,从而提高半聚类算法的聚类效果.其隶属度和聚类中心的迭代公式具有和FCM算法一样简洁的表示.在黄瓜数据集上的聚类分析表明,新提出的半监督聚类优于未改进的两种半监督算法、FCM算法和线性判别方法.  相似文献   

5.
半监督学习是近年来机器学习领域中的一个重要研究方向,其监督信息的质量对半监督聚类的结果影响很大,主动学习高质量的监督信息很有必要.提出一种纠错式主动学习成对约束的方法,算法通过寻找聚类算法本身不能发现的成对约束监督信息,将其引入谱聚类算法,利用该监督信息来调整谱聚类中点与点之间的距离矩阵.采用双向寻找的方法,将点与点间距离进行排序,使得学习器即使在接收到没有标记的数据时也能进行主动学习,实现了在较少的约束下可得到较好的聚类结果.同时,该算法降低了计算复杂度,并解决了聚类过程中成对约束的奇异问题.通过在UCI基准数据集以及人工数据集的实验表明,算法的性能好于相关对比算法,并优于采用随机选取监督信息的谱聚类性能.  相似文献   

6.
针对半监督聚类算法中监督信息使用不充分,监督信息中信息含有量低的问题,提出一种结合主动学习的半监督聚类算法.首先结合使用数据的类别标记和成对约束信息,指导Kmeans聚类过程,设计出一种基于Seeds集和成对约束的半监督聚类算法SC-Kmeans;其次将主动学习算法引入到SC-Kmeans中,以尽量小的代价选取信息含有量更高的监督信息,提高SC-Kmeans算法的聚类精度;最后在UCI标准数据集上进行仿真实验.实验结果表明,该算法取得了较好的聚类效果,有效提高了聚类准确率.  相似文献   

7.
文中提出一种半监督核信任力传播聚类算法(SSKAPC).SSKAPC在对样本聚类的过程中,引入先验知识提高聚类性能;同时该算法将样本映射到高维空间进行聚类.人工数据和真实世界数据的实验表明,SSKAPC算法能大幅度提高聚类的准确性.  相似文献   

8.
提出了一类基于标签传递的半监督模糊聚类模型,得到了其隶属度和聚类中心的、具有简洁形式的迭代求解公式.设计了一种算法将已知的类别标签传递给未标签数据,这些类别标签可以合理、有效地作用于整个数据集,从而增加了标签数据的作用.在人工数据集、乳腺癌数据集以及黄瓜数据集上的实验验证了该聚类方法的有效性.  相似文献   

9.
现有的优秀的聚类算法大多是处理低维数据的,但是对于高维数据,由于其分布特性与低维情形有很大的差异,这些算法失效.为解决高维分类型数据聚类问题,提出了一种基于粗糙集的高维分类型数据子空间聚类算法,基于粗糙集的上、下近似集的类边界描述,确定了类边界范围,然后采用相容度来调整类边界,聚类的过程采用增长子空间的思想,从低维到高维迭代地搜子空间类簇.最后通过在soybean、zoo数据集上的对比实验,实验结果表明了算法不仅可行,而且精度高.  相似文献   

10.
网络中的社区结构有助于简化网络拓扑结构分析,揭示系统内部的规律,能够为信息推荐和信息传播控制提供有力的支撑.网络重叠社区结构与真实生活更加接近,但其分析较非重叠社区结构更加困难.因此,针对重叠社区发现问题,在对网络的边进行峰值聚类的基础上提出了一种基于边信任度的混合参数的自适应重叠社区发现算法.定义了网络边的邻居边集合及与其邻居边之间的信任度函数,通过信息传递获取边的总信息量,并且基于此引入混合参数的概念.基于k-means算法使用混合参数对网络中的边进行聚类,即将网络中的边划分为核心边集与非核心边集,每个核心边作为一个聚类中心.根据非核心边到核心边的距离将所有非核心边划分至距离其最近的聚类中心所在社区.再根据网络中边与节点的关系实现重叠节点发现,最终实现重叠社区的发现.该算法的优点是每条边通过独立地完成信息扩散找到社区的结构,相比于传统的峰值聚类算法,不需要人为设置相关参数,实现重叠社区的自适应发现.为验证算法的可行性,对算法复杂度进行了分析,并且使用两种社区划分评价指标——标准化互信息和模块度,分别在人工数据集及6种真实数据集上进行实验,通过与其他算法进行对比分析,实验结果表明该算法更具可行性和有效性.  相似文献   

11.
针对基于路径的半结构化数据结构相似度度量方法不能很好地处理路径部分相似以及忽略了元素之间兄弟关系的问题,提出一种基于频繁关联标签序列的结构相似度度量方法,该方法将半结构化数据的结构信息视为标签序列的集合,采用数据挖掘技术中频繁模式和关联项集的概念及算法,从半结构化数据中挖掘频繁关联标签序列并以此作为特征计算其结构相似度.实验结果证明:提出的基于频繁关联标签序列的半结构化数据结构相似度度量方法可以解决基于路径方法的不足,计算的结构相似度更准确、更合理.  相似文献   

12.
基于OEM模型的半结构化数据的模式抽取   总被引:5,自引:0,他引:5  
Web数据是典型的半结构化数据 ,缺乏明确的、预知的、与数据分离存储的外在模式 ,导致查询、浏览和集成Web数据的效率极低。该文提出一种基于 OEM (objectexchange model)模型的半结构化数据的模式抽取算法 ,采用自顶向下的剪枝策略 ,可快速发现频繁简单路径集 ,应用于半结构化数据的集成及查询回答与优化。其特点是可降低目标模式的规模 ,有效改进模式抽取的效率  相似文献   

13.
为了提高半结构化文档数据流的挖掘效率,对原有挖掘算法StreamT进行了改进,提出了一种半结构化文档数据流的快速频繁模式挖掘算法--FStreamT.该算法针对利用集合存储候选频繁模式效率较低的缺点,采用枚举树存储候选频繁模式,可以有效地提高对候选频繁模式集合进行查找和更新的效率,同时利用频繁模式的单调性和枚举树的特点减小了维护负边界的搜索空间,从而提高了整个算法的效率.理论分析和实验结果表明,算法FStreamT与算法StreamT相比具有较高的效率,是有效可行的.  相似文献   

14.
基于优化层次聚类的文档逻辑结构抽取   总被引:1,自引:0,他引:1  
半结构化文档的逻辑结构自动发现可以改善文档的浏览方式,提高文档内容构件的复用性,有效克服了半结构化文档难于利用的弱点。该文将文档处理对象扩展到结构松散的文档实例,提出了基于优化层次聚类的文档逻辑结构抽取算法——CEDLS。算法首先对文档逻辑结构标志性信息进行识别与特征提取,并根据逻辑结构抽取的特点对传统的层次聚类分析方法进行改进,使获得的分类结果适用于CEDLS算法的逻辑层次归纳策略。最终以上海证券所的年报为测试集进行实验,通过与传统的方法进行比较,证明了这种算法在容错性能和正确率方面的优越性。  相似文献   

15.
刘凤仙  王晓  李波 《科学技术与工程》2013,13(13):3757-3762
语义信息集成是目前屏蔽数据之间半结构性、异构性和分布性的主要方法,其目的是为用户提供最大范围的精确数据。以解决信息集成中的语义冲突为目的,采用本体描述全局数据概念、树型结构描述局部数据概念,在此基础上,给出数据的逻辑定义方法,利用相似度计算匹配值来实现数据在语义集成中的匹配,并描述了语义信息集成中的映射算法。最后,给出了实验数据和算法执行结果,验证了此方法的正确性。  相似文献   

16.
语义信息集成是目前屏蔽数据之间半结构性、异构性和分布性的主要方法,其目的是为用户提供最大范围的精确数据。以解决信息集成中的语义冲突为目的,采用本体描述全局数据概念、树型结构描述局部数据概念。在此基础上,给出数据的逻辑定义方法,利用相似度计算匹配值来实现数据在语义集成中的匹配,并描述了语义信息集成中的映射算法。最后给出了实验数据和此方法执行结果,验证了此方法的正确性。  相似文献   

17.
为克服半结构化数据存储复杂的缺点,提出一种基于动态树的半结构化的存储模型。对该模型进行模式抽取, 并将其引入到Apriori算法。通过设置最小支持度阀值过滤掉不必要的信息, 输出最长频繁路径的集合, 以实现半结构化数据的提取。实验结果表明, 该算法能同时有效地处理分支及环路问题, 避免了死循环的出现。  相似文献   

18.
为了使自主移动机器人在结构化和半结构化环境中能快速有效地提取道路的可行区域,采用全局搜索及双阈值的算法.该算法首先采用基于八邻域的全局搜索法搜索激光数据点,再结合角度和高度差双阈值对数据点进行归类并检测道路边界,最后利用障碍物检测原理获取障碍物.实验结果表明:该算法能够检测出路边及障碍物边界,此过程只对机器人感兴趣区域...  相似文献   

19.
A semi-structured data extraction method to get the us eful information embedded in a group of relevant web pages and store it with OE M(Object Exchange Model) is proposed. Then, the data mining method is adopted t o discover schema k nowledge implicit in the semi-structured data. This knowledge can make users un derstand the information structure on the web more deeply and thourouly. At the same time, it can also provide a kind of effective schema for the querying of we b information.  相似文献   

20.
提出一种增量式混合型分类挖掘算法,将基于概率论的符号学习与神经网络学习相结合,能够对既包含离散属性又包含连续属性的多个概念进行有效的分类处理,且具有较强的增量挖掘能力。该算法在法院决策支持系统中得到了运用,取得了较好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号