首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
图像和语音已成为日常生活和科研的常见数据类型,图像的聚类分析是数据挖掘和图像处理领域的重要任务之一.基于自编码器的深度聚类方法具有表征能力有限的缺点,并且特征的生成与聚类指派是分步进行的.为此,提出一种基于新颖卷积自编码器的深度Softmax聚类算法(Asymmetric Convolutional Auto-encoder Based Softmax Clustering,ASCAE-Softmax).首先设计一种非对称的卷积自编码器网络结构(ASCAE),通过优化卷积和添加全连接层,使整个网络呈非对称;接着使用Softmax聚类器把特征映射成聚类概率分布,构造辅助目标概率分布,将特征学习与聚类判别联合在一起.通过迭代最小化KL(Kullback-Leibler)散度损失达到清晰的聚类划分.实验结果表明,该方法能够学习出使同类更加紧凑、异类更加稀疏的特征表示,且聚类结果优于经典的深度聚类算法.  相似文献   

2.
基于遗传算法的文本聚类特征选择   总被引:3,自引:0,他引:3  
传统的文本聚类特征选择方法不能发现最优特征集,而遗传算法能获得全局最优解且具有高的寻优效率,因此提出利用遗传算法进行文本聚类的特征选择.把一种特征组合看作一个染色体,对其进行二进制编码,引入文本集密度作为适应度函数进行特征个体适应度的评价.通过选择、交叉和变异的遗传操作,能较为快速地求出最优特征集.对公开的文本分类语料所进行的实验表明,基于遗传算法的特征选择使文本聚类结果的精度较之特征选择前提高了5.9%,而聚类时间减少了15 s.  相似文献   

3.
针对分类属性数据,基于信息熵,提出一种度量特征重要程度的定义.结合聚类分析,提出一种无指导的特征选择方法.该方法时间复杂度与数据集的大小和特征个数近似成线性关系,适合于大规模数据集中的特征选择.实验结果表明,该方法具有较好的性能,提出的特征选择方法有效实用.  相似文献   

4.
针对不完整多视图聚类存在的缺陷,提出一种融合自表示和投影映射的统一框架.首先,利用自表示和样本存在指示矩阵学习一致相似图,它反映了样本间的公共相似关系;其次,利用投影映射将样本矩阵投影到超球面上,得到公共低维表示;最后,将两者通过谱表示嵌入在一起,解决了因多视图数据缺失引起的不完整多视图聚类问题.该算法在真实数据集上的实验结果优于其他算法,证明了算法的有效性.  相似文献   

5.
介绍了3种用于文本聚类的特征选择方法:文档频度、单词权、单词熵.用一个中文文本语料库对这3种特征选择方法进行了比较实验,实验结果表明在文本聚类中单词权的特征选择方法具有最好的选择结果.  相似文献   

6.
针对目前特征选择算法应用于数据分类精度不理想的问题, 提出一种基于最大相关最小冗余的特征选择算法, 该算法结合特征选择算法和聚类分析算法对特征进行处理, 将分类中冗余的特征去除. 利用支持向量机对一组心脏病患者实际测量得到的数据进行分类实验, 实验结果表明, 该方法可有效筛选影响分类的特征, 进而提高分类准确率.  相似文献   

7.
目前存在的无监督特征选择算法中往往会忽略特征与特征之间的关系,从而使得特征选择结果不理想.针对这个问题,提出了基于相似性特征聚类的加权无监督特征选择算法(Weighted unsupervised feature selection algorithm based on similarity feature clust...  相似文献   

8.
Web文本聚类是一种典型的无指导机器学习技术,目标是将站点上采集到的Web文本分成若干簇,使同一簇内的文本相似性最大,不同簇间的文本相似性最小.为了对原始粗糙的Web文本数据进行降维处理,在知识属性值的基础上,计算单个属性相对于属性集的重要性量化值,并根据属性重要性量化值对特征向量降维,并采用K-means算法对降维后的数据聚类,实验证明该方法缩短了聚类时间.  相似文献   

9.
提出并实现了利用自组织特征映照网络来解决模式识别中的聚类问题的算法,对该算法的理论基础进行了必要的阐述,给出了实现的具体算法,同时提供了计算机的仿真结果。  相似文献   

10.
Web文本聚类是一种典型的无指导机器学习技术,目标是将站点上采集到的Web文本分成若干簇,使同一簇内的文本相似性最大,不同簇间的文本相似性最小.为了对原始粗糙的Web文本数据进行降维处理,在知识属性值的基础上,计算单个属性相对于属性集的重要性量化值,并根据属性重要性量化值对特征向量降维,并采用K-means算法对降维后的数据聚类,实验证明该方法缩短了聚类时间.  相似文献   

11.
针对传统的随机森林算法(RF)在对高维特征数据集计算速度慢、聚类效果不佳的缺陷,提出了一种基于高维特征聚类的随机森林算法(HDFC-RF),首先用传统RF方法对初始高维数据集聚类后,使用K均值聚类(KM)和模糊C-均值(FCM)结合,计算样本相似度,并对聚类特征划分族群,最后通过计算DBI指标,并与相关性阈值δ比较和排序,得到最终的高维特征序列。将HDFC-RF算法应用于高维特征数据集Colon Tumor,与传统的RF和FSRF算法比较。实验结果表明,HDFC-RF算法对于高维特征的数据集具有更好的聚类效果、训练速度也更快,具备良好的可行性。  相似文献   

12.
一种基于改进遗传算法的文本特征选择方法   总被引:2,自引:2,他引:0  
文本特征选择对提高文本分类的速度和准确率,改善网络信息过滤效果至关重要.把特征选择看作优化组合问题,提出用遗传算法进行文本特征选择.传统遗传算法适应性较差,本文对传统遗传算法交叉概率、变异概率、更新策略等重要参数和关键环节作了改进,实验验证了该算法的有效性.  相似文献   

13.
大气环境监测点位优化的灰色聚类方法   总被引:2,自引:0,他引:2  
运用基于灰色关联度的聚类分析方法实现了常德市大气监测点位优化 .结果表明 ,用此法进行大气监测点位优化是可靠的 ,其优化点位具有足够的代表性与可行性 ,聚类组别具明晰的环境意义 ,且方法简单 ,易于在计算机上实现  相似文献   

14.
随着经济的快速发展,我国的生态环境面临着越来越大的压力,对生态环境的监测和预警是维护绿色生态环境可持续发展的重要措施。获得最为理想的生态环境数据是开展生态监测和预警的前提,而合理的采样点选择是生态环境监测中一个重要环节。本文介绍了一种对采样点进行优选的方法,首先利用数据预处理技术对初始环境监测数据进行处理,之后利用基于改进凝聚层次聚类算法对环境监测数据进行聚类,最后选出距离聚类中心最近的采样点作为优选采样点。整个处理技术简单有效,对于中小规模的生态环境监测采样点的优选具有现实意义。  相似文献   

15.
为了提高数据流的聚类质量与效率,提出了一种基于密度的数据流聚类算法,该算法采用双层聚类框架,对于历史数据的遗忘问题采用了消逝策略和粒度调整策略,消逝策略能够处理噪声,节约内存;粒度调整策略检测当前的内存消耗,提高了聚类质量。基于标准数据集和仿真数据集的实验表明,此算法是可行有效的,适合处理和分析大规模的快速数据流。  相似文献   

16.
聚类分析是重要的数据挖掘方法,在商务智能、地理信息系统、医学等方面有广泛的应用.随着聚类分析的蓬勃发展,涌现出了许多聚类算法,其中最重要的算法之一是基于密度的空间聚类以及其多种变种——基于密度连通链、基于加权密度、基于引力连通集合的算法.这些算法在概念上相似但没有统一的描述.本文针对基于密度的空间聚类及其变种提出了拓扑的概念.给出了聚类拓扑结构的定义,把簇定义为拓扑连通集合.此外,本文运用全新的拓扑思想改进典型的算法,提出了一种拓扑聚类的新算法.实例证明此算法有效.  相似文献   

17.
一种两阶段的神经网络属性选择方法   总被引:1,自引:0,他引:1  
神经网络的输入属性选择一直是一个比较困难的问题.由于神经网络反复训练的时间复杂度,Wrap-per方法是不适用的,而单纯使用Filter方法也难以获得很好的分类精度.文中提出了一种两阶段的神经网络属性选择方法,以综合Filter和Wrapper两类方法的优势.该方法首先采用基于不一致率的遗传算法GFSIC来删除属性集合中的无关属性,然后采用基于敏感性度量的属性选择算法SBFCV来删除冗余和无用的属性.研究和实验结果表明,该方法可以有效地删除原始数据中的无关和冗余属性,增强神经网络的泛化能力.  相似文献   

18.
模糊聚类应用于MIS子系统划分的研究   总被引:1,自引:0,他引:1  
本文介绍了模糊聚类应用于MIS子系统划分的新方法,包括基于模糊等价关系的方法和基于模糊相似关系的“最大树”方法.  相似文献   

19.
参数化设计的研究与应用   总被引:1,自引:0,他引:1  
参数化设计是目前CAD发展的主流方向,本文通过对各种参数设计方法分析的基础上,提出一个基于几何约束图的参数化设计模型,并给出参数化模型的数据结构和约束求解算法,此算法可以有效地检查系统的过约束和欠约束情况。  相似文献   

20.
依据机器学习理论,提出一种手写汉字识别中的特征提取方法,以及将判定树归纳学习算法应用于学习识别过程,使得特征提取和识别同时进行.依据判定树有选择地提取特征进行匹配,可减少特征提取的数量,提高识别速度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号