共查询到20条相似文献,搜索用时 9 毫秒
1.
基于自动编码器的短文本特征提取及聚类研究 总被引:3,自引:0,他引:3
针对短文本的特点, 提出一种基于深层噪音自动编码器的特征提取及聚类算法。该算法利用深度学习网络, 将高维、稀疏的短文本空间向量变换到新的低维、本质特征空间。首先在自动编码器的基础上, 引入L1范式惩罚项来避免模型过分拟合, 然后添加噪音项以提高算法的鲁棒性。实验结果表明, 将提取的文本特征应用于短文本聚类, 显著提高了聚类的效果, 有效地解决了短文本空间向量的高维、稀疏问题。 相似文献
2.
近年来,随着获取信息手段的增多,对高维度数据的聚类变得越来越难.利用深度学习与聚类分析相结合的方式,通过对深度聚类算法的深入调查与研究,提出了基于自编码器的多模态嵌入式聚类模型,该模型分别将自编码器、卷积自编码器、卷积变分自编码器模型提取的特征进行自适应特征融合,再将融合后的特征输入深度聚类层得到聚类结果.多模态数据有助于提取更全面的数据信息,自适应特征融合能够很好地计算每个模态提取特征对融合特征的贡献度,从而提高无监督聚类算法的稳定性.提出的模型在4种公开数据集上进行了实验,验证了该模型的有效性,聚类结果优于现有流行的算法. 相似文献
3.
张义良 《萍乡高等专科学校学报》2006,(3):43-45
遗传算法(Genetic Algorithm,简称GA)是一类模拟生物界的进化规律(适者生存,优胜劣汰遗传机制)而形成的一种最适应全局优化概率搜索算法。针对常规动态聚类方法对初始聚类中心的敏感性以及聚类结果与样本输入次序有关等问题,本文提出了一种基于GA的动态聚类方法,并将它应用到数据库的数据分析中。计算结果表明,该方法是一个具有全局最优解的动态聚类方法,其结果明显好于K-均值聚类算法。 相似文献
4.
针对原始深度嵌入聚类(DEC)算法中聚类层得出的初始聚类数目和聚类中心有很强的随机性,从而影响DEC算法效果的问题,提出一种基于改进DEC的评论文本聚类算法,对无类别标注的电商评论数据进行无监督聚类.首先获得融合句子嵌入向量和主题分布向量的BERT-LDA数据集向量化表示;然后改进DEC算法,通过自动编码器进行降维处理,在编码器后堆叠聚类层,其中聚类层的聚类数目基于主题连贯性选择,同时使用主题特征向量作为自定义聚类中心,再进行编码器和聚类层的联合训练以提高聚类的准确度;最后利用可视化工具直观展示聚类效果.为验证算法的有效性,将该算法与6个对比算法在无标注的产品评论数据集上进行无监督聚类训练,结果表明,该算法在轮廓系数和Calinski-Harabaz(CH)指标上取得了0.213 5和2 958.18的最佳效果,说明其可有效处理电商评论数据,反映用户对产品的关注情况. 相似文献
5.
针对非合作通信条件下缺少标签数据的通信辐射源个体识别问题,提出了一种基于深度聚类的通信辐射源个体识别方法。利用自编码器网络强大的特征提取和数据重构能力对原始I/Q数据进行表征学习,提取个体识别的指纹特征,同时将表征学习过程和特征聚类过程进行联合优化,使表征学习和特征聚类契合度更高,更好地完成无标签条件下的通信辐射源个体识别。通过对5种ZigBee设备采集的信号进行实验,结果表明在信噪比高于0 dB时,可以达到85%以上的识别准确率,证明了本文方法的有效性和稳定性。 相似文献
6.
对于图像的聚类,现有方法在特征提取方面或难以选择合适的维度转换方法,或提取的特征对图像特征的表达较弱且不够丰富,对图像的聚类效果产生了较大影响,导致了聚类精度较低。为此,提出一种基于多尺度残差卷积自编码器的图像聚类方法,通过构建具有若干个含有残差连接的多尺度卷积模块,获得中间层的高维特征表达,并以此进行图像聚类。实验结果表明,在MNIST数据集上的聚类准确率为82.2%, ARI (Adjusted Rand Index)值为0.781 0, NMI (Normalized Mutual Information)值为0.853 2,模型达到了较好的聚类效果。 相似文献
7.
针对目前深度多视角子空间聚类算法因为缺少对自表达矩阵的低秩表示约束而导致的模型缺乏鲁棒性的问题,提出了深度低秩多视角子空间聚类算法。在深度多视角子空间聚类算法的基础上,通过矩阵分解将自表达层分解为多视角一致性自表达层和单视角特异性自表达层,得到具有低秩线型约束的双层自表达模块;强制所有视角的一致性自表达层的参数相同、特异性自表达层的参数各不相同,充分利用多视角数据的互补性;将自表达模块嵌入到每个视角的深度自编码器中,得到可以通过反向传播算法求解的深度低秩多视角子空间聚类模型;在深度模型训练中,一致性自表达层学习多视角数据的一致性信息,特异性自表达层学习单个视角的独特信息,双层自表达模块隐性地添加了低秩表示约束。6个公开数据集上的实验结果表明:与深度多视角子空间聚类算法相比,所提算法的聚类正确率平均提升了0.064,标准化互信息提升了0.064;所提算法的正确率和标准化互信息优于其他11种先进聚类算法的,聚类正确率最大提升了0.097,标准化互信息最大提升了0.103。 相似文献
8.
针对当前自动文摘方法的缺陷,提出了基于文本聚类和自然语言理解的自动文摘实现方法.将文本聚类引入自动文摘中,实现多文档的自动文摘.提出了基于标题和段首句的二次自动分词算法.实验结果表明,分词正确率和召回率均在95%以上.实现了面向塑料行业的基于文本聚类和自然语言理解的自动文摘系统,其多文档自动文摘的正确率和召回率都在75%以上.实验表明该方法可行,对自动文摘系统的设计具有借鉴意义和深入研究价值. 相似文献
9.
图像和语音已成为日常生活和科研的常见数据类型,图像的聚类分析是数据挖掘和图像处理领域的重要任务之一.基于自编码器的深度聚类方法具有表征能力有限的缺点,并且特征的生成与聚类指派是分步进行的.为此,提出一种基于新颖卷积自编码器的深度Softmax聚类算法(Asymmetric Convolutional Auto-encoder Based Softmax Clustering,ASCAE-Softmax).首先设计一种非对称的卷积自编码器网络结构(ASCAE),通过优化卷积和添加全连接层,使整个网络呈非对称;接着使用Softmax聚类器把特征映射成聚类概率分布,构造辅助目标概率分布,将特征学习与聚类判别联合在一起.通过迭代最小化KL(Kullback-Leibler)散度损失达到清晰的聚类划分.实验结果表明,该方法能够学习出使同类更加紧凑、异类更加稀疏的特征表示,且聚类结果优于经典的深度聚类算法. 相似文献
10.
在多标签分类的相关研究中,由于现有的基于网络表示学习算法的相关方法只利用了网络中节点之间的邻接领域信息,而没有考虑到节点之间的结构相似性,从而导致分类准确性较低,因此,本文提出一种基于深度自动编码器的多标签分类模型。该方法首先利用轨迹计算算法(Orca)计算不同规模下网络中节点的结构相似性,作为深度自动编码器的输入来改进隐藏层中的向量表示,保留网络的全局结构;然后利用节点的邻接领域信息在模型中进行联合优化,从而能有效地捕捉到网络的高度非线性结构;最后根据隐藏层得到节点的向量表示,利用支持向量机对节点进行多标签分类。验证实验采用3个公开的网络数据集,实验结果表明,与基准方法相比,本文方法在多标签分类任务中能取得更好的效果。 相似文献
11.
文本聚类具有数据稀疏性的特点,常见的聚类方法采用基于距离的相异度,为了增强文档的区分特征,提出一种基于非对称相似度的方法,来度量文档对象之间的关联。定义了文本对象之间的非对称相似度度量。利用文本非对称相似度矩阵的稀疏特性,采用强连通构件的划分方法对文本对象进行聚类分析。并通过迭代的方法形成聚类结果的概念层次。实验结果表明:非对称相似度比距离相异度具有更高的准确率和更少的执行时间,当聚类结果簇数目达到较小时,准确率提高约为20%。 相似文献
12.
快速搜索与发现密度峰值聚类(clustering by fast search and find of density peaks, DPC)算法对聚类中心点进行了全新的定义,能够得到更优的聚类结果。但该算法需要手动选取聚类中心,容易出现多选、漏选聚类中心的问题。提出一种自动选取聚类中心的密度峰值聚类算法。将参数积γ引入新算法以扩大聚类中心的选取范围,利用KL散度的差异性度量准则对聚类中心点和非聚类中心点进行清晰划分,以Dkl排序图中的拐点作为分界点实现了对聚类中心的自动选取。在人工以及UCI数据集上的实验表明,新算法能够在自动选取聚类中心的同时,获得更好的聚类效果。 相似文献
13.
在地球物理勘探中需要利用测井资料了解地下地质情况,其中测井曲线分层是首先要完成的基础工作。本文利用图论聚类的方法,结合实际数据对测井曲线进行自动分层,并比较了自动分层和人工分层的优越性。 相似文献
14.
提出一种改进K-means聚类算法——cnnK-means算法,优化学生成绩分析.分析结果表明,语文和数学成绩联系最大,数学和英语成绩联系最小,英语成绩对学生成绩的分类影响最直接和也最明显.如果想要提高学生的整体成绩,教育者需要在英语方面做出更大的努力. 相似文献
15.
16.
在模糊C-均值聚类(FCM)目标函数的基础上按聚类中心分离原则增加一个聚类中心分离项来扩展FCM算法,提出基于聚类中心分离的模糊聚类模型(FCM_CCS)。该模型可使聚类过程中的聚类中心之间距离扩大,从而得到更好的聚类效果。由于该模型和FCM一样对噪声敏感我们提出它的可能性聚类模型(PCM_CCS),最后进一步扩展成它的可能性模糊聚类模型(PFCM_CCS)。基于聚类中心分离的可能性模糊聚类模型在处理噪声数据和克服一致性聚类问题方面表现出良好的性能。对数据集的测试实验结果表明了提出的PFCM_CCS能同时产生模糊隶属度和典型值,使聚类中心间距扩大,同时具有更好的聚类准确率。 相似文献
17.
基于山峰聚类的聚类上限确定方法 总被引:1,自引:0,他引:1
田彦山 《江西师范大学学报(自然科学版)》2007,31(2):134-137
文章提出了一种基于山峰聚类的聚类上限检测方法,依靠山峰聚类确定聚类数目的上限,仿真试验表明,这种方法能将聚类上限确定在一个合理的范围之内,从而加快聚类的效率. 相似文献
18.
19.
针对原始振动数据无监督特征学习问题,提出了一种深度小波自动编码器(deep wavelet automatic encoder,DWAE)与鲁棒极限学习机(extreme learning machine,ELM)相结合的滚动轴承的智能故障诊断方法。首先,利用小波函数作为非线性激活函数设计小波自动编码器从而有效地捕获信号特征。其次,利用多个小波自动编码器构造一个深度小波自动编码器来增强无监督特征学习能力。最后,采用鲁棒极限学习机作为分类器,对不同的轴承故障进行分类识别。用该方法对实验所得的轴承振动信号进行对比分析,结果验证了该方法能够在原始振动数据无监督特征学习的条件下该方法优于传统方法和标准深度学习方法。 相似文献
20.