首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 87 毫秒
1.
半监督学习是近年来机器学习领域中的一个重要研究方向,其监督信息的质量对半监督聚类的结果影响很大,主动学习高质量的监督信息很有必要.提出一种纠错式主动学习成对约束的方法,算法通过寻找聚类算法本身不能发现的成对约束监督信息,将其引入谱聚类算法,利用该监督信息来调整谱聚类中点与点之间的距离矩阵.采用双向寻找的方法,将点与点间距离进行排序,使得学习器即使在接收到没有标记的数据时也能进行主动学习,实现了在较少的约束下可得到较好的聚类结果.同时,该算法降低了计算复杂度,并解决了聚类过程中成对约束的奇异问题.通过在UCI基准数据集以及人工数据集的实验表明,算法的性能好于相关对比算法,并优于采用随机选取监督信息的谱聚类性能.  相似文献   

2.
一种基于半监督降维的聚类算法   总被引:1,自引:1,他引:0  
半监督聚类通过利用少量有标号样本或成对约束等监督信息来提高聚类性能.在此提出一种新颖的基于半监督降维的聚类算法,首先用半监督降维方法对原始数据进行降维,然后在降维后的空间中进行半监督聚类.由于在降维和聚类两个阶段中都利用了监督信息,从而使得算法的聚类性能得到进一步提升.在UCI标准数据集、yale人脸库以及文本数据集上的实验结果验证了该算法的有效性.  相似文献   

3.
为了提高对未知样本的使用率,充分发挥出半监督聚类算法的优势,ISFCA算法将约束项引入到竞争聚类算法(CA算法)的目标函数中。但在ISFCA算法的隶属度函数中,存在迭代的非必要信息,增加了算法的复杂度。改进了ISFCA算法的隶属度函数,提取出迭代的必要项uCA″rs和非必要项uCA′rs,从而简化隶属度迭代计算过程,使样本的聚类更加合理。实验结果表明,优化后的ISFCA算法对阀门的故障诊断是行之有效的。  相似文献   

4.
提出了一种混合约束的半监督聚类算法HCSCAP,综合考虑了已标号点和成对点约束信息,使2类先验信息在聚类的过程中能发挥各自的作用.通过调整相似性矩阵添加成对点约束,已标号点以宏结点的方式添加到相似性矩阵.给出了具体的算法步骤并进行了测试,实验表明:HCSCAP比只利用成对点约束信息的SAP算法和只利用标号点的SS-CA...  相似文献   

5.
聚类通常被认为是一种无监督的数据分析方法,在聚类搜索过程中充分利用先验信息会显著提高聚类算法的性能。本文通过成对约束来调整点与点之间的相似矩阵,然后对其优化,并结合谱聚类算法,得到一种很有效的聚类算法——基于成对约束的半监督谱聚类算法(SSCA)。实验表明,该算法有很好的聚类效果。  相似文献   

6.
7.
针对半监督聚类算法中监督信息使用不充分,监督信息中信息含有量低的问题,提出一种结合主动学习的半监督聚类算法.首先结合使用数据的类别标记和成对约束信息,指导Kmeans聚类过程,设计出一种基于Seeds集和成对约束的半监督聚类算法SC-Kmeans;其次将主动学习算法引入到SC-Kmeans中,以尽量小的代价选取信息含有量更高的监督信息,提高SC-Kmeans算法的聚类精度;最后在UCI标准数据集上进行仿真实验.实验结果表明,该算法取得了较好的聚类效果,有效提高了聚类准确率.  相似文献   

8.
定义了一种新的基于马氏距离的半监督模糊聚类算法,并推导出它的迭代公式.该算法能够提高聚类算法的运行效率.在人工数据集和真实数据集上的实验结果验证了这种方法的有效性.提取了黄瓜叶片7个色调特征,Fisher降维之后进行半监督聚类分析.对于已标识类别属性的叶片,聚类结果与已知属性的一致率达100%,而对于未标识数据,一致率也达到96%以上.  相似文献   

9.
利用少量的标记数据和约束辅助聚类过程,提出一种基于半监督聚类的入侵检测模型.实验结果表明,与基于监督和非监督学习的入侵检测算法相比,基于半监督聚类的入侵检测算法可以更加有效地检测出未知攻击.  相似文献   

10.
本文提出一种纠错式主动学习成对约束的方法,探讨了主动学习的停止条件,在较少的约束下可得到较好的聚类结果.通过在UCI基准数据集以及人工数据集的实验表明,在该学习策略下,半监督聚类算法的性能好于对比算法;在停止条件下,每个数据集的聚类结果都是可接受的.  相似文献   

11.
针对现有专利检索中的用户意图理解及查询扩展不足问题,提出了一种基于自动查询扩展的专利文档检索方法。首先结合专利文档特点,采用基于改进TF-IDF公式的专利领域词表提取方法,构建专利领域词表。在检索阶段,对查询输入串进行分析得到查询关键词汇,同领域词表相结合,确定查询所在领域及查询扩展难度。利用基于伪相关反馈的自动查询扩展技术,根据伪相关文档的术语分布差异分析,生成查询扩展项并排序,最后将扩展项与原始查询条件相结合,重新组成查询条件,完成专利查询。实验结果表明,该方法具有较高的召回率和平均准确率。  相似文献   

12.
一种基于同义词词典的模糊查询扩展方法   总被引:2,自引:0,他引:2  
在信息检索系统中,查询扩展是一种非常有效的改进检索性能的方法. 为此,提出一种基于同义词词典的模糊查询扩展方法. 该方法中的同义词词典是基于著名的语义词典WordNet中的同义词集合建立的,同义词之间的贴近度[0, 1]使用Tanimoto系数获得. 利用该词典,能够进行较好的查询扩展. 将该方法与向量空间模型结合应用于文本信息检索系统中,所构造的检索模型相当于一种简单的语义模型,并且可以根据阈值来控制查询扩展的程度. 所得试验结果表明,使用该查询扩展方法的信息检索系统较常规信息检索系统的检索性能有一定改善.  相似文献   

13.
To eliminate the mismatch between words of relevant documents and user's query and more serious negative effects it has on the performance of information retrieval,a method of query expansion on the basis of new terms co-occurrence representation was put forward by analyzing the process of producing query. The expansion terms were selected according to their correlation to the whole query. At the same time, the position information between terms were considered. The experimental result on test retrieval conference (TREC) data collection shows that the method proposed in the paper has made an improvement of 5%~19% all the time than the language modeling method without expansion. Compared to the popular approach of query expansion, pseudo feedback, the precision of the proposed method is competitive.  相似文献   

14.
基于用户查询日志的命名实体挖掘的目标是从用户查询日志中挖掘一组具有指定类别的命名实体。为解决已有用户查询日志实体挖掘研究工作中的种子实体不充分的问题,提出了一种基于二部图的半监督排序方法,利用实体之间的关系(实体共享查询模板)来改善实体排序效果。该方法首先基于候选实体和查询模板构建一个二部图,然后基于二部图将种子实体的类别相关性传播到其他候选实体,最后按照类别相关性得分对候选实体进行排序,并进一步给出方法中迭代过程的等价优化框架。实验结果表明本文提出的方法优于基准方法,具有较好的挖掘效果。  相似文献   

15.
为克服k-means算法难以探测出一些局部分布稀疏不均、聚类区域的形状与大小不规整数据点集的聚类分布结构这个缺点,在半监督学习思想的指导下,针对混合属性空间区域中具有同一分布性质的带有类别标记的小样本数据集和无类别标记的大样本数据集,提出了一种基于半监督学习的k平均聚类框架。仿真实验表明:该框架经常能取得比k-means更好的聚类精度,从而说明这个半监督学习框架具有一定的有效性。  相似文献   

16.
传统模糊C-means聚类(FCM,fuzzy C-means)在处理非平衡数据集时,由于相异类中所含样本数量差异较大,导致类间权值不平衡和均匀效应,从而易产生聚类错误.另外,FCM属于无监督方法,无法更好地利用已知的部分类标记信息引导聚类.为解决这两方面问题,提出一种半监督的平衡化模糊C-means聚类(SBFCM,semi-supervised balanced fuzzy C-means)方法.SBFCM在FCM目标函数的基础上加入了对聚类模糊隶属度矩阵的近似正交约束和半监督约束,从而得到了新的聚类目标函数.实验结果表明,相比于FCM,SBFCM能有效缓解由均匀效应导致的聚类错误现象,并能有效地利用部分先验类标记信息,从而可获得更好的聚类效果.  相似文献   

17.
研究了基于偶对约束的半监督模糊聚类,将马氏距离引入到半监督模糊聚类SCAPC(semi-supervised fuzzy clustering algorithm with pairwise constraints)中,获得了一种新的半监督模糊聚类目标函数,通过求解优化问题,提出了一种基于偶对约束和马氏距离的半监督模糊聚类算法M-SCAPC(Modified-SCAPC).针对选择的标准数据集和人工数据集,对提出的算法M-SCAPC进行了实验研究,并与FCM(fuzzy C-means)、AFCC(active fuzzy constrained clustering)和SCAPC算法的聚类性能进行了比较,表明了提出的算法M-SCAPC在收敛速度和正确率方面的有效性.  相似文献   

18.
针对各类网络数据中存在着大量的无标记数据,导致了SNS(social network service)隐私保护中数据可用性相对较差的问题,本文提出一种基于Bagging的ELM(extreme learning machine)集成算法,并将其与基于Seeds集的半监督聚类算法相结合应用于隐私保护.该算法首先利用ELM-Bagging集成方法对无标记数据进行标记,并将新标记的数据加入Seeds集以扩大其规模,然后采用基于Seeds集的半监督聚类实现K-匿名.实验结果表明,该算法在有效保护隐私的同时,提高了发布数据的可用性.  相似文献   

19.
一种基于名词短语的检索结果多层聚类方法   总被引:2,自引:0,他引:2  
为了对检索结果获取高质量的聚类效果,提取名词短语作为候选类别标签,根据候选类别标签分布情况生成基础类,再使用具有线性时间复杂度的一趟聚类算法对基础类进行多层聚类。与NEC,STC和Lingo算法的对比实验表明:该方法在类别标签的可读性、有效性以及聚类性能上都优于以上3种方法。  相似文献   

20.
文本观点检索旨在检索出与查询主题相关并且表达用户对主题观点的文档。由于用户查询时输入通常很短,难以准确表示查询的信息需求。知识图谱是结构化的语义知识库,通过知识图谱中的知识有助于理解用户的信息需求。因此,提出了一种基于知识图谱的文本观点检索方法。首先由知识图谱获取候选查询扩展词,并计算每个候选词扩展词分布、共现频率、邻近关系、文档集频率,然后利用4类特征通过SVM分类得到扩展词,最后利用扩展词对产生式观点检索模型进行扩展,实现对查询的观点检索。实验表明,在微博和推特两个数据集上,与基准工作对比,所提出的方法在MAP、NDCG等评价指标上均有显著的提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号