期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于自动编码器的短文本特征提取及聚类研究 总被引：3，自引：0，他引：3

刘勘袁蕴英《北京大学学报(自然科学版)》2015,51(2):282-288

针对短文本的特点, 提出一种基于深层噪音自动编码器的特征提取及聚类算法。该算法利用深度学习网络, 将高维、稀疏的短文本空间向量变换到新的低维、本质特征空间。首先在自动编码器的基础上, 引入L1范式惩罚项来避免模型过分拟合, 然后添加噪音项以提高算法的鲁棒性。实验结果表明, 将提取的文本特征应用于短文本聚类, 显著提高了聚类的效果, 有效地解决了短文本空间向量的高维、稀疏问题。相似文献

2.

基于自编码器的多模态深度嵌入式聚类

徐慧英董仕豪朱信忠赵建民《浙江师范大学学报(自然科学版)》2022,(1):26-34

近年来,随着获取信息手段的增多,对高维度数据的聚类变得越来越难.利用深度学习与聚类分析相结合的方式,通过对深度聚类算法的深入调查与研究,提出了基于自编码器的多模态嵌入式聚类模型,该模型分别将自编码器、卷积自编码器、卷积变分自编码器模型提取的特征进行自适应特征融合,再将融合后的特征输入深度聚类层得到聚类结果.多模态数据有助于提取更全面的数据信息,自适应特征融合能够很好地计算每个模态提取特征对融合特征的贡献度,从而提高无监督聚类算法的稳定性.提出的模型在4种公开数据集上进行了实验,验证了该模型的有效性,聚类结果优于现有流行的算法. 相似文献

3.

基于自编码器的过完备多级表示深度子空间聚类

汪雷杰;徐慧英;朱信忠;汪紫莹《浙江师范大学学报(自然科学版)》2024,(2):166-175

深度子空间聚类网络利用深度自表达性,借助具备全连接层的欠完备深度自编码器,有效地解决了无监督子空间聚类难题.然而,该方法使用输入数据的不完全表示,并且缺乏低级和高级信息的集成,从而损害其鲁棒性.为解决这一问题,提出了一种新的深度子空间聚类方法,该方法使用卷积自动编码器将输入图像转换为位于线性子空间联合上的新表示.在编码器层加入了过完备分支,使得网络能够捕捉到更精细的数据细节.此外,在编码器和相应的解码器层之间引入多个完全连接的线性层.这些互相连接的层协同作用,将低级和高级信息结合在一起,从而在编码器的不同层级上生成了多组自表达和信息表示.该过程有效地促进了特征学习过程.最后,引入了一个新的损失最小化问题,利用初始样本聚类有效地集成了多级表示,从而更准确地恢复了底层子空间结构.随后,采用迭代方案来最小化损失函数.在4个真实数据集上的实验结果表明,在大多数子空间聚类场景中,本文方法最优. 相似文献

4.

基于遗传算法的一种自动聚类方法

张义良《萍乡高等专科学校学报》2006,(3):43-45

遗传算法(Genetic Algorithm,简称GA)是一类模拟生物界的进化规律(适者生存,优胜劣汰遗传机制)而形成的一种最适应全局优化概率搜索算法。针对常规动态聚类方法对初始聚类中心的敏感性以及聚类结果与样本输入次序有关等问题,本文提出了一种基于GA的动态聚类方法,并将它应用到数据库的数据分析中。计算结果表明,该方法是一个具有全局最优解的动态聚类方法,其结果明显好于K-均值聚类算法。相似文献

5.

基于改进DEC的评论文本聚类算法

陈可嘉夏瑞东林鸿熙《吉林大学学报(理学版)》2023,(5):1147-1158

针对原始深度嵌入聚类(DEC)算法中聚类层得出的初始聚类数目和聚类中心有很强的随机性,从而影响DEC算法效果的问题,提出一种基于改进DEC的评论文本聚类算法,对无类别标注的电商评论数据进行无监督聚类.首先获得融合句子嵌入向量和主题分布向量的BERT-LDA数据集向量化表示;然后改进DEC算法,通过自动编码器进行降维处理,在编码器后堆叠聚类层,其中聚类层的聚类数目基于主题连贯性选择,同时使用主题特征向量作为自定义聚类中心,再进行编码器和聚类层的联合训练以提高聚类的准确度;最后利用可视化工具直观展示聚类效果.为验证算法的有效性,将该算法与6个对比算法在无标注的产品评论数据集上进行无监督聚类训练,结果表明,该算法在轮廓系数和Calinski-Harabaz(CH)指标上取得了0.213 5和2 958.18的最佳效果,说明其可有效处理电商评论数据,反映用户对产品的关注情况. 相似文献

6.

基于深度聚类的通信辐射源个体识别方法

下载免费PDF全文

贾鑫蒋磊郭京京齐子森《空军工程大学学报(自然科学版)》2024,25(1):115-122

针对非合作通信条件下缺少标签数据的通信辐射源个体识别问题,提出了一种基于深度聚类的通信辐射源个体识别方法。利用自编码器网络强大的特征提取和数据重构能力对原始I/Q数据进行表征学习,提取个体识别的指纹特征,同时将表征学习过程和特征聚类过程进行联合优化,使表征学习和特征聚类契合度更高,更好地完成无标签条件下的通信辐射源个体识别。通过对5种ZigBee设备采集的信号进行实验,结果表明在信噪比高于0 dB时,可以达到85%以上的识别准确率,证明了本文方法的有效性和稳定性。相似文献

7.

基于多尺度残差卷积自编码器的图像聚类方法

李丁园李晓杰《吉林大学学报(信息科学版)》2022,(4):684-687

对于图像的聚类,现有方法在特征提取方面或难以选择合适的维度转换方法,或提取的特征对图像特征的表达较弱且不够丰富,对图像的聚类效果产生了较大影响,导致了聚类精度较低。为此,提出一种基于多尺度残差卷积自编码器的图像聚类方法,通过构建具有若干个含有残差连接的多尺度卷积模块,获得中间层的高维特征表达,并以此进行图像聚类。实验结果表明,在MNIST数据集上的聚类准确率为82.2%, ARI (Adjusted Rand Index)值为0.781 0, NMI (Normalized Mutual Information)值为0.853 2,模型达到了较好的聚类效果。相似文献

8.

基于文本聚类和NLU的自动文摘研究

下载免费PDF全文

郭庆琳樊孝忠柳长安《北京理工大学学报》2005,25(8):705-709

针对当前自动文摘方法的缺陷,提出了基于文本聚类和自然语言理解的自动文摘实现方法.将文本聚类引入自动文摘中,实现多文档的自动文摘.提出了基于标题和段首句的二次自动分词算法.实验结果表明,分词正确率和召回率均在95%以上.实现了面向塑料行业的基于文本聚类和自然语言理解的自动文摘系统,其多文档自动文摘的正确率和召回率都在75%以上.实验表明该方法可行,对自动文摘系统的设计具有借鉴意义和深入研究价值. 相似文献

9.

深度低秩多视角子空间聚类

闫金涛李钟毓唐启凡周志豪《西安交通大学学报》2021,(11):125-135

针对目前深度多视角子空间聚类算法因为缺少对自表达矩阵的低秩表示约束而导致的模型缺乏鲁棒性的问题,提出了深度低秩多视角子空间聚类算法。在深度多视角子空间聚类算法的基础上,通过矩阵分解将自表达层分解为多视角一致性自表达层和单视角特异性自表达层,得到具有低秩线型约束的双层自表达模块;强制所有视角的一致性自表达层的参数相同、特异性自表达层的参数各不相同,充分利用多视角数据的互补性;将自表达模块嵌入到每个视角的深度自编码器中,得到可以通过反向传播算法求解的深度低秩多视角子空间聚类模型;在深度模型训练中,一致性自表达层学习多视角数据的一致性信息,特异性自表达层学习单个视角的独特信息,双层自表达模块隐性地添加了低秩表示约束。6个公开数据集上的实验结果表明:与深度多视角子空间聚类算法相比,所提算法的聚类正确率平均提升了0.064,标准化互信息提升了0.064;所提算法的正确率和标准化互信息优于其他11种先进聚类算法的,聚类正确率最大提升了0.097,标准化互信息最大提升了0.103。相似文献

10.

基于深度自动编码器的多标签分类研究

聂煜廖祥文魏晶晶杨定达陈国龙《广西师范大学学报(自然科学版)》2019,37(1)

在多标签分类的相关研究中,由于现有的基于网络表示学习算法的相关方法只利用了网络中节点之间的邻接领域信息,而没有考虑到节点之间的结构相似性,从而导致分类准确性较低,因此,本文提出一种基于深度自动编码器的多标签分类模型。该方法首先利用轨迹计算算法(Orca)计算不同规模下网络中节点的结构相似性,作为深度自动编码器的输入来改进隐藏层中的向量表示,保留网络的全局结构;然后利用节点的邻接领域信息在模型中进行联合优化,从而能有效地捕捉到网络的高度非线性结构;最后根据隐藏层得到节点的向量表示,利用支持向量机对节点进行多标签分类。验证实验采用3个公开的网络数据集,实验结果表明,与基准方法相比,本文方法在多标签分类任务中能取得更好的效果。相似文献

11.

基于深度特征表示的Softmax聚类算法

陈俊芬赵佳成韩洁翟俊海《南京大学学报(自然科学版)》2020,(4):533-540

图像和语音已成为日常生活和科研的常见数据类型,图像的聚类分析是数据挖掘和图像处理领域的重要任务之一.基于自编码器的深度聚类方法具有表征能力有限的缺点,并且特征的生成与聚类指派是分步进行的.为此,提出一种基于新颖卷积自编码器的深度Softmax聚类算法(Asymmetric Convolutional Auto-encoder Based Softmax Clustering,ASCAE-Softmax).首先设计一种非对称的卷积自编码器网络结构(ASCAE),通过优化卷积和添加全连接层,使整个网络呈非对称;接着使用Softmax聚类器把特征映射成聚类概率分布,构造辅助目标概率分布,将特征学习与聚类判别联合在一起.通过迭代最小化KL(Kullback-Leibler)散度损失达到清晰的聚类划分.实验结果表明,该方法能够学习出使同类更加紧凑、异类更加稀疏的特征表示,且聚类结果优于经典的深度聚类算法. 相似文献

12.

基于非对称相似度的文本聚类方法

宋韶旭李春平《清华大学学报(自然科学版)》2006,46(7):1325-1328

文本聚类具有数据稀疏性的特点,常见的聚类方法采用基于距离的相异度,为了增强文档的区分特征,提出一种基于非对称相似度的方法,来度量文档对象之间的关联。定义了文本对象之间的非对称相似度度量。利用文本非对称相似度矩阵的稀疏特性,采用强连通构件的划分方法对文本对象进行聚类分析。并通过迭代的方法形成聚类结果的概念层次。实验结果表明:非对称相似度比距离相异度具有更高的准确率和更少的执行时间,当聚类结果簇数目达到较小时,准确率提高约为20%。相似文献

13.

基于图论聚类的测井曲线自动分层

丁超戴开云王伟张鑫《安庆师范学院学报(自然科学版)》2011,17(4):7-9,16

在地球物理勘探中需要利用测井资料了解地下地质情况,其中测井曲线分层是首先要完成的基础工作。本文利用图论聚类的方法,结合实际数据对测井曲线进行自动分层,并比较了自动分层和人工分层的优越性。相似文献

14.

基于KL散度的密度峰值聚类算法

丁志成葛洪伟周竞《重庆邮电大学学报(自然科学版)》2019,31(3):367-374

快速搜索与发现密度峰值聚类(clustering by fast search and find of density peaks, DPC)算法对聚类中心点进行了全新的定义,能够得到更优的聚类结果。但该算法需要手动选取聚类中心,容易出现多选、漏选聚类中心的问题。提出一种自动选取聚类中心的密度峰值聚类算法。将参数积γ引入新算法以扩大聚类中心的选取范围,利用KL散度的差异性度量准则对聚类中心点和非聚类中心点进行清晰划分,以Dkl排序图中的拐点作为分界点实现了对聚类中心的自动选取。在人工以及UCI数据集上的实验表明,新算法能够在自动选取聚类中心的同时,获得更好的聚类效果。相似文献

15.

改进K-means聚类算法对学生成绩的分析与评价

王锦严德菊《牡丹江师范学院学报(自然科学版)》2021,(2):20-22

提出一种改进K-means聚类算法——cnnK-means算法,优化学生成绩分析.分析结果表明,语文和数学成绩联系最大,数学和英语成绩联系最小,英语成绩对学生成绩的分类影响最直接和也最明显.如果想要提高学生的整体成绩,教育者需要在英语方面做出更大的努力. 相似文献

16.

聚类数的自动确定

程慈柴瑞敏《科技信息》2008,(14):143-143

对聚类分析中聚类数的确定问题进行了研究。在SOFM神经网络的基础上,从聚类准则出发,通过试验对聚类准则的曲线特征进行了详细的分析和论证,设计出一种结构自适应的聚类神经网络,该网络能自动确定最佳的聚类数,并提出了一种减少计算量的改进算法。相似文献

17.

基于山峰聚类的聚类上限确定方法 总被引：1，自引：0，他引：1

田彦山《江西师范大学学报(自然科学版)》2007,31(2):134-137

文章提出了一种基于山峰聚类的聚类上限检测方法,依靠山峰聚类确定聚类数目的上限,仿真试验表明,这种方法能将聚类上限确定在一个合理的范围之内,从而加快聚类的效率. 相似文献

18.

基于聚类中心分离的模糊聚类模型

武小红周建江《华南理工大学学报(自然科学版)》2008,36(4):110-115

在模糊C-均值聚类（FCM）目标函数的基础上按聚类中心分离原则增加一个聚类中心分离项来扩展FCM算法,提出基于聚类中心分离的模糊聚类模型(FCM_CCS)。该模型可使聚类过程中的聚类中心之间距离扩大,从而得到更好的聚类效果。由于该模型和FCM一样对噪声敏感我们提出它的可能性聚类模型(PCM_CCS),最后进一步扩展成它的可能性模糊聚类模型(PFCM_CCS)。基于聚类中心分离的可能性模糊聚类模型在处理噪声数据和克服一致性聚类问题方面表现出良好的性能。对数据集的测试实验结果表明了提出的PFCM_CCS能同时产生模糊隶属度和典型值,使聚类中心间距扩大,同时具有更好的聚类准确率。相似文献

19.

基于层次聚类的虚假用户检测

方勇刘道胜黄诚《清华大学学报(自然科学版)》2017,57(6):620-624

互联网上充斥着大量恶意用户,而互联网服务提供商通常有海量的注册用户,使得系统难以从中发现虚假账户。针对海量注册数据中,恶意用户批量注册的虚假账户通常具有相似性的特点。该文提出海量数据中定位虚假账户的系统模型,利用用户名字符串组成模式对海量数据进行预分类,进而对每个分类中元素计算字符串相似度,即计算字符串Levenshtein距离。设置合适的阈值,进行层次聚类分析,从而定位藏匿在海量注册数据中的成组的虚假账户。实验结果表明：该系统模型有效,与现有的模型相比,该系统对数据维度、数据特性依赖较小。相似文献

20.

基于数据集相关性聚类的渗透测试目标信息获取模型研究

下载免费PDF全文

仇冰雪刘丹李毅超《科学技术与工程》2012,12(21):5187-5191

渗透测试中对目标进行侦察的目的是为了获取目标网络的IP地址、运行的操作系统以及应用程序列表。目前侦察主要通过一些单一的工具进行,这种方式侦察周期较长。本文结合目标信息内容,提出一种通过对数据集进行相关性聚类的方式来获取目标信息的模型,并设计了原型系统。实验结果表明,该模型优于相关工作,在较短的时间周期内获取了准确的目标信息。相似文献