首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
谱聚类是目前最有效的视频镜头聚类算法之一,但是如何自动选择最优化的分类个数仍是谱聚类算法中的难题。该文提出一种基于最优化分类的视频镜头谱聚类算法,对每个镜头采用分区域的Gauss混合模型(DGMM)进行特征建模,并提取模型参数特征作为镜头谱聚类的特征向量,通过构造DGMM和谱聚类的联合评价函数来自动选择最优化的分类个数和特征空间维数。实验结果表明,该文提出的算法比原有谱聚类算法分类结果更加准确和有效。  相似文献   

2.
针对目前流聚类算法无法有效处理数据流离群点的检测和处理,以及增量式数据流聚类效率较低等问题,提出了一种基于密度度量的异常检测、删除的增强型仿射传播流聚类算法。在仿射传播流聚类算法的基础上,所提算法通过引进异常检测和删除机制改善了异常点对聚类精度、聚类效率的影响。利用仿射传播聚类实现在线数据流的聚类过程,同时检测数据漂移现象,即数据流分布特征随时间发生变化,并采用基于密度度量的局部异常因子检测技术(LOF)对储备池数据进行异常检测和删除处理,通过对当前类簇和处理过的储备池数据重聚类来重建动态数据流模型。在真实网络数据(KDD’99)上进行了实验,结果表明,所提算法不仅减少了重聚类构建动态模型的次数,改善了聚类效率,而且在同时考虑聚类精度、纯度和熵3种聚类评价标准下,均优于传统的仿射传播流聚类算法。  相似文献   

3.
讨论了基于最优属性分类的熵构造判定树数据流挖掘算法,阐明算法中如何处理分枝属性、选取最优属性以及数据清理及剪枝等关键环节,可及时快速的对数据流进行及时有效的处理,此方法可满足数据流聚类的应用要求。  相似文献   

4.
在短文本聚类的过程中,常发现特征词的稀疏性质、高维空间处理的复杂性.由于微博的内容长度限制和特征稀疏性,特征向量的高维度被执行,导致模糊聚类结果.本文使用了Latent Dirichlet Allocation主题模型,对训练数据进行建模,并将主题术语扩展原始微博的特征,从而丰富了聚类文本特征,提高聚类效果.实验结合K-means和Canopy聚类算法对文本数据进行处理,提出了LKC算法,弥补了K-means算法对初始聚类中心点选取的敏感性,结果实现了更高的精度和聚类F1-measure的测量值.F1值提高了10%,准确度提高了2%.  相似文献   

5.
不确定性的出现使传统算法无法直接用于聚类不确定数据流。该文提出一种不确定数据流环境下基于密度的聚类算法,其中提出不确定度的概念以衡量不确定数据的分布信息,并在改进面向确定数据的聚类算法DENCLUE的基础上,提出一种可处理数据不确定度的UDENCLUE算法,以降低数据的不确定性对聚类结果产生的影响;提出滑动窗口下基于密度的不确定数据流聚类算法USDENCLUE,通过聚类特征指数直方图技术实现快速剪枝,可以高效处理噪音数据、演化数据流并生成任意形状的簇;采用真实数据集及人工合成数据集对USDENCLUE与CluStream聚类算法进行比较,实验结果表明了所提出算法的高效性和有效性。  相似文献   

6.
借鉴邻域粗糙集处理连续型数据的优势,为解决传统谱聚类算法需要人工选取参数的问题,提出基于自适应邻域互信息与谱聚类的特征选择算法。首先,定义各对象在属性下的标准差集合与自适应邻域集,给出自适应邻域熵、平均邻域熵、联合熵、邻域条件熵、邻域互信息等不确定性度量,利用自适应邻域互信息对特征与标签的相关性进行排序。然后,结合共享近邻自适应谱聚类算法,将相关性强的特征聚到同一特征簇内,使不同特征簇内的特征强相异。最后,使用最小冗余最大相关技术设计特征选择算法。在10个数据集上选择特征个数与分类精度的实验结果,验证了所提算法的有效性。  相似文献   

7.
在数据流分类学习过程中,类不平衡和概念漂移是两大挑战问题.在分析传统特征选择算法和代价敏感学习方法的基础上,将代价敏感学习算法的思想引入特征选择算法中,设计并实现了一种基于代价敏感的Relief F剪枝的数据流分类算法,不仅能删除冗余的特征,而且适应动态变化的数据流环境.与经典的算法进行分析比较,结果表明所提算法可显著提升分类效果.  相似文献   

8.
空间数据库中存储了海量的实时数据,常规的算法在数据挖掘过程中无法根据空间数据流的特征进行聚类.针对该问题,我们提出一种基于网格和距离阈值的空间数据流聚类算法,该算法分为离线和在线部分,为实时数据赋予时间相关的距离值,利用网格进行聚类.实验证明此算法对于空间数据流聚类具有理想的结果.  相似文献   

9.
针对模糊C均值聚类(FCM)算法聚类原型最适合于球状类型簇的特点,提出了基于类间分离度和类内紧缩度加权的冗余聚类中心的FCM算法,即先将大簇或者延伸形状的簇(非凸)采用加权FCM算法分割成多个小类(冗余类),从而规避FCM算法对初始聚类中心敏感的弱点.由于隶属度划分矩阵的元素是每个样本隶属于各冗余类的隶属度值,因此将其作为各冗余类的类特征,通过对应分析得到冗余类的新特征,再次采用加权FCM算法进行冗余类合并,最后达到分类效果.以代表曲线分割和曲面分割分类问题的3个典型数据集为算例,结果表明该方法能够识别不规则的簇,解决了FCM算法对初始聚类中心敏感的缺陷.  相似文献   

10.
数据流的特征是海量的、高速流动的、实时处理的.由于一些数据分布随着时间而改变,因此将这些数据流称为概念漂移.首先按照分类模型对数据流决策树进行分类,分为单分类决策树和集成分类决策树.单分类模型分为快速决策树、变异决策树和其他决策树算法.集成分类模型分为衍生快速决策树和随机决策树变体算法.其次介绍了概念漂移处理技术,包括概念漂移问题的描述、常见的概念漂移处理技术和用于解决概念漂移的决策树算法.接着介绍了增量模型决策树算法,最后对本文介绍的决策树算法进行分析总结.  相似文献   

11.
针对传统方法对数据库中的数据进行检索的过程中,在海量冗余数据干扰时存在无法区分检索数据类别,降低数据检索的效率和精度的问题,提出一种基于特征模糊接近的海量冗余数据干扰下数据库中数据优化检索方法.利用数据模糊集间的接近度表述海量冗余数据干扰下数据库中数据的一致度,结合数据融合技术,对类间数据实现分类处理.利用模糊集算法准确查询分类数据,对分类数据实现二次聚类计算,细分其类边缘,通过加载辨别函数实现数据定位,完成数据检索.实验结果表明:该方法进行数据检索时具有较高的检索效率和精度,且抗干扰能力较强.  相似文献   

12.
【目的】从脑网络中提取准确的判别性特征作为分类特征,可以提高SCZ的分类准确率,避免依靠量表的主观诊断造成缺陷。传统的脑网络特征如介数、聚类系数等丢失了拓扑信息,最小生成树丢失了部分脑区连接,子图虽然保留了拓扑信息,但传统的判别子图的筛选会产生部分冗余信息,进而影响分类准确率。【方法】提出一种基于频率排序的判别子图的筛选方法(frequently scoring screen, FSS),使用FSS筛选判别子图,在不损失原有判别信息的情况下,消除冗余信息。使用OpenfMRI的公开数据,对比了使用不同特征和不同分类算法的分类性能。【结果】FSS特征的分类性能优于其他传统脑网络特征,且该特征不受分类算法影响,分类准确率优于已有SCZ分类文献。  相似文献   

13.
相比于人脸识别,表情识别是更细粒度的图像分类,不同表情之间的差异非常细微,一般的聚类算法难以处理面部表情数据的分类问题。本文提出了一种基于卷积神经网络的Expression-EigenFace特征聚类算法,对数据集样本进行预处理,通过人脸检测和定位技术,将人脸分割重组形成情绪特征脸;将处理后的特征脸送入预训练好的卷积网络进行提取特征;通过聚类算法对所提取的特征进行聚类,完成人脸面部表情聚类的过程。实验结果表明:相比没有经过任何处理的表情图像聚类,本文方法在调整兰德系数(adjusted rand index, ARI)、调整互信息(adjusted mutual information, AMI)和标准化互信息(normalized mutual information, NMI)这几个聚类评估指标上都有大幅提升,证明了所提出的特征脸聚类算法的有效性。  相似文献   

14.
针对文本在聚类或分类时,由于数据高维稀疏导致相似度值低的问题,提出一种基于改进文本相似度计算的聚类方法.首先,利用向量空间模型VSM表示文本,采用余弦函数计算文本之间的相似度;然后,基于网络中节点的相似性传播原理,通过设置阈值找到与各个文本相似度较大的文本集合,进而使用Jaccard系数将两个文本之间相似度计算转化为两个文本集合之间的相似度计算;最后根据得到的文本相似度矩阵,利用谱聚类算法对文本进行聚类.在WebKB上的实验结果表明,与传统的K-means、谱聚类方法相比,该方法提高了聚类的准确度,召回率与F值.  相似文献   

15.
针对校园网络异常用户行为,研究了基于数据流的网络数据采集以及预处理技术,采用一种随机可变时长的数据采集策略采集数据网络,利用K-means聚类算法处理数据缺失值,混合直方图生成概要数据结构,提高了网络数据的聚类质量。  相似文献   

16.
针对分类决策树算法存在的结构冗余及误差迁移问题,提出了软聚类节点分裂层次模型.通过叶子节点处决策模型构建以及软聚类节点分裂方法,实现对样本空间的高效划分,生成精简的层次结构模型.利用层次结构判别方法,从层次结构模型叶子节点到根节点对样本进行加权求和预测,降低模型结构对判定效果的影响,提高模型对判别误差的调节能力.对比了CART、ID3、C4.5共3种分类算法,该方法构建的模型结构简单,在两个数据集上均有最好的分类效果,F1-measure分别为0.53和0.38.说明软聚类节点分裂层次模型能够避免冗余结构,缓解误差迁移问题.   相似文献   

17.
针对传统K-均值方法不能有效处理动态变化的数据聚类的问题,本文提出了一种改进的数据流聚类技术——流式K-均值聚类(Streaming K-means Clustering,SKC).该方法首先对数据流中已经产生的初始数据块进行K-均值聚类,当数据流的新数据块到来时,通过衡量已经得到的聚类结果与新进入样本块的距离,对样本进行初步简单归类,并计算聚类结果的性能,若聚类结果性能在可接受范围内,则该数据块聚类结束,否则采用K-均值方法对新类进行深层次聚类.采用SKC的流式数据聚类方法处理数据流的聚类问题,对于整个数据流中的多数数据块都进行简单归类,只有少数数据块进行K-均值聚类,有效提高了数据流聚类的效率.实验结果表明,流式K-均值聚类方法能够有效处理数据流的聚类问题.  相似文献   

18.
为了发现分布式数据流环境下的微簇,针对数据流的遗忘特性,提出一种基于时间衰减的数据流聚类算法.根据衰减模型增量式的处理局部站点,将局部模型发送给中心站点.中心站点对局部站点的微簇进行合并,生成全局聚类模型.通过真实数据和仿真数据的实验表明,该算法能够得到较好的聚类质量,并且有较好的伸缩性.  相似文献   

19.
针对交通数据流聚类分析过程中生成顺序的不确定性,提出了采用基于网格和密度的D-Stream算法对交通数据流进行聚类分析,并将粒子群优化算法引入聚类过程,从而对数据流聚类分析方法进行了改进,使数据聚类能够根据本身的密度极大值有序生成,增强了用户对聚类过程的控制能力.通过昆明市实测交通数据流进行聚类分析,得到了能够反映交通状况不同特征的聚类结果和动态的控制策略,并对交通数据流的相关研究工作提供决策支持.  相似文献   

20.
提出了一种基于微簇的两阶段高维数据流聚类算法.首先,对新到达的数据进行降维处理,使用改进的线性判别分析方法获得一个局部投影子空间;然后,在子空间内最大化流入数据近邻微簇之间的距离;最终,将流入数据划分到投影空间的微簇中.基于高维数据流的实验结果显示,本算法的分类性能优于其他的数据流聚类算法,并且具有较低的计算复杂度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号