首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
网页分类器设计的核心是对原始分类数据集进行分类规则挖掘,本文提出了一种结合链接结构聚类的混沌粒子群网页分类规则获取算法.算法将聚类和分类结合起来进行分类规则提取:首先用基于K均值的聚类算法对一部分有代表性的链接结构数据聚类,进行类别自动标注,形成训练集;再用混沌粒子群算法对已标注类别的数据提取分类规则.实验结果表明,这种模式充分发挥了基于链接的分类方法受人为因素干扰最小的优点,减少了人工标注类别的工作量,同时提高分类的准确率和效率.  相似文献   

2.
目前多数多视角聚类算法属于"刚性"划分算法,不适用于处理具有聚簇重叠结构的数据集,为此,提出一种基于模糊C-means的多视角聚类算法(简称FCM-MVC),该算法利用隶属度描述对象与类别的关系,能够更真实地描述具有聚簇重叠结构数据集的聚类结果。FCM-MVC算法同时利用多个视角信息,自动计算每个视角的权重。研究结果表明:FCM-MVC算法能够有效处理具有聚簇重叠结构的数据集;与已有的3种经典的多视角聚类算法相比,该算法获得的聚类精度更高。  相似文献   

3.
冷泳林  张清辰  鲁富宇 《河南科学》2014,(11):2259-2262
数据采集过程中存在大量缺失数据,即不完整数据.传统方法在聚类不完整数据时采用填充或丢弃缺失数据方式实现数据的聚类.依据不完整信息系统理论提出一种基于K-means的不完整数据聚类算法,算法首先将数据集划分成完整数据集和非完整数据集两部分,对完整数据集采用K-means算法进行聚类,然后将不完整数据依据设计的相似度度量方法划分到对应的簇中,实现数据集的聚类.实验结果表明,提出的方法能够高效、精确地实现不完整数据聚类.  相似文献   

4.
通过改进清晰有理数均值的方法, 提出一种新匹配聚类算法. 首先计算每条数据的清晰有理数均值, 然后与匹配项比较, 得出聚类结果, 解决了人工标注型数据的聚类问题. 将该方法在反欺诈网页领域中进行了检测和验证, 并与使用同一名称但不同类型数据集的K最近邻算法进行比较, 实验结果表明, 该方法在反欺诈网页领域中比K最近邻算法更有效, 同时也证明了新匹配聚类算法在人工标注型数据上聚类具有合理性.  相似文献   

5.
针对数据集中类样本不均衡、样本标注代价大的问题,结合聚类算法、委员会投票思想和TSVM算法,提出一种基于聚类和协同标注的TSVM算法,该方法利用聚类算法进行子集划分,保证每个子集都包含良好的空间信息,对样本的标注采用多个分类器进行投票,提高标记准确率,减少错误的累积和传递,提高标注准确率,增强最后分类器的泛化性能.KDDCUP99数据集上的实验结果表明该方法对未知攻击有较高的检测准确率.  相似文献   

6.
《河南科学》2016,(1):22-27
针对数据集中类样本不均衡、样本标注代价大的问题,结合聚类算法、委员会投票思想和TSVM算法,提出一种基于聚类和协同标注的TSVM算法,该方法利用聚类算法进行子集划分,保证每个子集都包含良好的空间信息,对样本的标注采用多个分类器进行投票,提高标记准确率,减少错误的累积和传递,提高标注准确率,增强最后分类器的泛化性能.KDDCUP99数据集上的实验结果表明该方法对未知攻击有较高的检测准确率.  相似文献   

7.
用聚类-分类模式解决聚类问题   总被引:4,自引:2,他引:2  
分类和聚类都是常用的数据挖掘方法,分类的优点是准确率较高,但需要带有类别标注的训练集;聚类不需要训练集,但准确率较低。提出一种聚类-分类模式来解决聚类问题,首先通过聚类方法自动形成训练集,然后在训练集的基础上进行分类操作。实验数据表明,提出的聚类-分类模式能够有效提高聚类的准确率。  相似文献   

8.
提出了基于惩罚约束问题的群体智能聚类算法PCSI,不必穷尽搜索样本集,利用粒子群算法的优化搜索机制在数据集中有指导地随机搜索聚类中心向量,能够以较小的计算代价确定样本集的类别数.有约束优化过程的罚函数为两部分之和:①目标函数,各样本与其类别中心的均方误差;②自适应惩罚项,即数据集的边界作为粒子群移动的约束条件,对约束违反程度进行惩罚.为降低不平衡数据集的影响,按照数据集的方差和模糊高斯函数,将样本到其类别中心的距离进行模糊映射,归一化到[0,1]区间.粒子群优化方法免去了传统方法的求导计算.聚类IRIS数据集和Reuters-21578文档集以验证算法的有效性,对大规模数据聚类有明显优势.  相似文献   

9.
针对原始深度嵌入聚类(DEC)算法中聚类层得出的初始聚类数目和聚类中心有很强的随机性,从而影响DEC算法效果的问题,提出一种基于改进DEC的评论文本聚类算法,对无类别标注的电商评论数据进行无监督聚类.首先获得融合句子嵌入向量和主题分布向量的BERT-LDA数据集向量化表示;然后改进DEC算法,通过自动编码器进行降维处理,在编码器后堆叠聚类层,其中聚类层的聚类数目基于主题连贯性选择,同时使用主题特征向量作为自定义聚类中心,再进行编码器和聚类层的联合训练以提高聚类的准确度;最后利用可视化工具直观展示聚类效果.为验证算法的有效性,将该算法与6个对比算法在无标注的产品评论数据集上进行无监督聚类训练,结果表明,该算法在轮廓系数和Calinski-Harabaz(CH)指标上取得了0.213 5和2 958.18的最佳效果,说明其可有效处理电商评论数据,反映用户对产品的关注情况.  相似文献   

10.
针对面向中文网络百科条目文章的属性和属性值抽取, 提出一种无监督方法。此方法将属性值看做命名实体, 利用频繁模式挖掘和关联分析, 从文本中抽取类别属性; 采用自扩展方法为属性建立触发词表; 基于属性触发词和属性值实体标注挖掘属性值抽取模式, 利用层次聚类算法获取高质量的模式。在互动百科中采集的数据集上进行实验, 结果表明所提方法行之有效。  相似文献   

11.
基于半监督K-means的K值全局寻优算法   总被引:3,自引:0,他引:3  
提出一种基于半监督K-means的K值全局寻优算法,该算法打破传统方法中采用样本类别作为K值的限定,利用少量标记数据即可指导和规划大量无监督数据.结合数据集自身的分布特点及聚类后各个簇内的监督信息,根据投票方法来指导簇中数据集的类别标记.实验表明,本文所提出的方法可以有效的寻找适合数据集的最佳K值和聚类的中心,提高聚类性能.  相似文献   

12.
对不平衡数据进行聚类分析时,K-means聚类方法可能会错误地将分布在较小区域类别中的样本划分到大区域类别中;谱聚类算法,虽然可以有效优化数据结构,并很好地识别不同形状的样本,但却难以处理大规模数据.针对这些问题,提出一种改进地标点采样的不平衡数据聚类算法.该算法首先对不平衡数据进行预聚类以获得初始类标签,然后基于数据密度对数据进行采样.在此基础上,通过对采样数据执行K-means聚类,并将聚类中心作为地标点,对数据进行谱聚类分析.实验结果显示,该方法在处理不平衡数据时,不仅能够有效提高样本的聚类准确率,而且能够保证聚类结果的稳定性和精度.  相似文献   

13.
针对模糊c均值聚类算法的一些不足之处提出了一种新的均值漂移聚类算法--无监督多尺度聚类算法.该算法不受初始化的影响,不用假定数据的聚类个数以及聚类中心的初始位置,能够利用模糊聚类的方法来获得硬的聚类划分,能够从不同的"划分尺度"揭示数据的聚类结构,并能自动的确定聚类个数.为了满足处理大数据集的需要,设计了快速无监督多尺度模糊聚类算法.通过实验证明无监督多尺度聚类算法在多数数据集上都表现良好且具有最好的总体聚类性能,并能成功揭示出数据的聚类结构.实验还证明快速无监督多尺度模糊聚类算法具有较快的速度和较高的识别精度且适用于大数据集.2个算法都取得了令人满意的实验结果.  相似文献   

14.
采用视觉词袋模型表示图像,以快速检测空间上部分重合图像对的最小哈希算法为基础,提出一种对局部重合图像聚类即数据挖掘的方法,能够找到类种子的概率随着类别中图像数目的增长显著增加.对聚类的结果进行空间上的验证,并在大小分别为104、105以及5×106的图像数据集上对该算法的效果进行测试.算法的速度依赖于数据集中图像的数目和数据集中类别的数目,类种子生成的时间复杂度线性相关于数据集大小.  相似文献   

15.
提出了一种拓展的半监督模糊聚类模型,给出求解这个模型的迭代公式.这种半监督聚类能够合理、有效地利用部分已标识样本的类别信息对未标识样本产生影响,从而提高半聚类算法的聚类效果.其隶属度和聚类中心的迭代公式具有和FCM算法一样简洁的表示.在黄瓜数据集上的聚类分析表明,新提出的半监督聚类优于未改进的两种半监督算法、FCM算法和线性判别方法.  相似文献   

16.
提出了一类基于标签传递的半监督模糊聚类模型,得到了其隶属度和聚类中心的、具有简洁形式的迭代求解公式.设计了一种算法将已知的类别标签传递给未标签数据,这些类别标签可以合理、有效地作用于整个数据集,从而增加了标签数据的作用.在人工数据集、乳腺癌数据集以及黄瓜数据集上的实验验证了该聚类方法的有效性.  相似文献   

17.
受物理学中量子机制特性的启发,结合层次凝聚思想,通过引入新的相异性度量测度以及聚类度量尺度步长sβtep概念,重新定义以紧致性指标AIAD和离散性指标AIED为基础的聚类有效性函数CVF,提出一种针对分类属性数据的基于量子机制层次聚类算法CQHC.该算法首先在不同粒度水平上划分数据样本产生初始类(簇),然后以聚类有效性函数CVF为评价标准,动态地合并初始类(簇)完成聚类.仿真实验采用2个真实数据集,即:线性可分的大豆疾病样本数据集和线性不可分的动物园数据集.实验结果表明,该算法与已有的其他几个算法相比,不仅具有更高的聚类准确率,而且能够准确地检测出最佳类别数,是有效且可行的.  相似文献   

18.
为了标注室内场景中可见物体,提出一种基于RGB-D数据由粗至精的室内场景语义分割方法.首先,利用分层显著度导引的简单线性迭代聚类过分割和鲁棒多模态区域特征,构建面向语义类别的超像素区域池,基于随机决策森林分类器判决各个超像素区域的语义类别,实现粗粒度区域级语义标签推断.然后,为了改善粗粒度级的语义标签,利用几何深度导引和内部反馈机制改进像素级稠密全连接条件随机场模型,以求精细粒度像素级语义标注.最后,在粗、细粒度语义标注之间引入全局递归式反馈,渐进式迭代更新室内场景的语义类别标签.2个公开的RGBD室内场景数据集上的实验结果表明,与其他方法相比,所提出的语义分割方法无论在主观还是客观评估上,均具有较好的效果.  相似文献   

19.
针对传统κ-均值聚类方法不能处理大规模聚类的问题,提出一种加速κ-均值聚类方法,称为S_κ-均值聚类算法.该方法在传统κ-均值方法基础上,首先随机抽取一定量的样本点作为初始工作集,并在初始工作集上进行聚类,求出相应的类中心.然后对剩余的样本,根据其与已得到的类的相似度进行一次性的划分,从而得到划分后的类别.由于该方法只有较小规模的初始工作集需要进行一般的κ-均值聚类,而剩余的大多数数据不需要进行反复迭代就可以直接得到其聚类结果,从而在很大程度上提高了聚类效率,解决了传统κ-均值聚类方法不能用于处理大规模数据聚类的问题.实验结果表明,与传统κ-均值聚类方法相比,S_κ-均值聚类算法的聚类速度得到了明显提高,能够有效处理大规模数据的聚类问题.  相似文献   

20.
针对原始K-means算法的一系列问题,提出一种基于半监督的K-means聚类改进算法,能够自动进行聚类,找出最优K值,并且最大限度地找出孤立点.首先根据样本集自身的特点,按照"类内尽可能相似"原则一步一步形成数据集,然后对数据集进行"去噪"与合并相似簇,最后,利用少量的标记信息指导和修正聚类结果.在UCI的多个数据集...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号