共查询到20条相似文献,搜索用时 0 毫秒
1.
传统的文本分类算法都是采用期望交叉熵、信息增益和互信息等统计方法,通过设置阈值获取特征集,如果训练集的数据量较大,则容易出现特征项不明确,特征信息丢失等缺陷,为解决上述问题,提出运用“深度学习”中的稀疏自动编码器算法自动提取文本特征,然后结合深度置信网络形成SD算法进行文本分类。实验表明,在训练集较少的情况下,SD算法的分类性能低于传统的支持向量机,但是在处理高维数据时,SD算法则比支持向量机具有较高的准确率和召回率。 相似文献
2.
目前,网络评论的情感分类研究大部分是不平衡样本数据,正向样本的数量一般远大于负向样本,对这种不平衡样本集进行分类时容易产生少数类误差较大的问题。而且由于网络评论的表达形式多变,不易获取到大量的有监督的数据。针对上述问题,对无监督的不平衡网络评论情感分类进行研究。首先通过改进降噪自动编码器,提高少数类的特征值,避免分类样本向多数类偏移。然后将获取的特征值作为k-means算法的输入值,实现了无监督的样本分类。实验证明,该算法对不平衡率较高的样本具有良好的适应性,从而验证了算法的有效性。 相似文献
3.
针对ML-GCN中标签共现嵌入维度过高影响模型分类性能和ML-GCN中没有充分发掘标签之间不对称关系的问题,提出一种基于图注意力网络的多标签图像分类模型ML-GAT;ML-GAT模型首先对高维标签语义嵌入矩阵进行降维;然后通过降维后的低维标签语义嵌入表示和标签类别共现图得到标签共现嵌入;与此同时ML-GAT将多标签原始... 相似文献
4.
针对面向实际应用场景中数据标签易残缺导致有监督多标签分类方法可用训练数据量减少,未能利用大量标签缺失数据中蕴含的样本特征空间关联知识以最大化判别间隔,限制多标签分类效果等问题,本文提出一种融合样本相似性的弱监督多标签分类方法.该方法利用标签相关性和样本相似性恢复标签以提高数据利用率,并将标签恢复嵌入到训练过程中以便挖掘标签相关性,通过近端加速梯度法进行参数优化,建立弱监督学习场景的多标签分类模型.在真实数据集上的实验结果表明,该方法能够利用样本相似性有效提升模型在标签残缺时的分类能力,实用价值大. 相似文献
5.
针对现有文本多标签语义信息挖掘方法仅注重从文本到标签的映射方向,而忽略了从标签到文本的映射方向的问题,本文认为从标签到文本的映射方向可以过滤文本中与标签无关的噪声信息,进而生成只关注于标签信息的文本表示。基于此假设,本文基于注意力机制提出了一种深度模块化标签注意网络,主要由标签注意网络进行多层级联而成。在标签注意网络中构建了双向标签注意单元和自我注意单元,从而得到标签和文本的双向依赖表示。模型在公开数据集RCV1、AAPD、EUR-Lex上与SGM、LSAN、EXAM等算法进行比较,对于现有的最佳性能平均提升0.54%。 相似文献
6.
在层次多标签分类问题中,一个样本同时被赋予多个类别标签,并且这些类别标签被组织成一定的层次结构。层次多标签分类问题的主要挑战在于:①分类方法的输出必须符合标签的层次结构约束;②层次深的节点所代表的标签往往只有很少的样本与之相关,造成标签不平衡的问题。提出一种用于层次多标签分类问题的增量式超网络学习方法(hierarchical multi-label classification using incremental hypernetwork, HMC-IMLHN),通过将超网络的超边组织成相应的层次结构,使输出的预测标签能够满足标签的层次约束。此外,超网络学习方法可以利用标签之间的关联减少标签不平衡问题对分类性能的影响。实验结果表明,与其他层次多标签分类方法相比,提出的增量式超网络方法能够取得较好的分类准确性。 相似文献
7.
为了从文本中可以更加准确地分析其蕴含的内容,给人们的生产生活提供建议,在基于深度学习的传统多标签分类方法的基础上,提出一种融合多粒度特征和标签语义共现的多标签分类模型。该模型利用双向长短时记忆网络双向长短时记忆网络(bidirectional long short-term memory network, Bi-LSTM)提取多粒度的文本特征,获得不同层次的文本特征;并通过计算pmi的方式构建标签关系图,利用图卷积网络(graph convolution network, GCN)深入提取标签的隐藏关系,获得具有标签信息的文本表示;最终融合多粒度文本特征,进行多标签文本分类。在AAPD和news数据集上进行实验。结果表明:所提出模型的Micro-F1值分别达到0.704和0.729,验证了模型的有效性。 相似文献
8.
网络行为识别一直是网络安全中的研究热点,随着网络中数据量的海量增大以及数据的非线性等问题的影响,对于网络行为识别的特征提取和识别技术提出更高的要求。文章提出了一种基于堆叠自动编码器的网络行为识别方法,该方法通过构建堆叠自动编码器和SOFTMAX分类器的深度学习框架,结合无监督的预训练和有监督的全局微调,优化堆叠自动编码器的特征提取性能,实现了网络行为特征的深度提取,从而对高校流量数据中上网行为进行分析识别。 相似文献
9.
信息技术高速发展为人们生活带来便利的同时,海量的信息也给人们带来许多困扰,如图像检索变得越来越困难.因此智能化地进行图像分类识别具有重要的研究意义.基于多示例学习的图像分类方法得到了越来越多学者关注,.也提出了一些算法,但仍存在特征表达有限,模型受无关示例影响较大的问题.文章提出一种基于深度特征选择的多示例算法,并验证... 相似文献
10.
多标签流形学习(multi-label manifold learning, ML$^{2}$)基于特征流形构建标签流形, 将标签逻辑值转换为实数值, 能更好地反映标签相关性, 提高分类性能. 但是, ML$^{2}$ 与多数多标签分类方法一样, 是基于数据的全部特征进行标签预测, 没有考虑不同特征对不同类别标签的鉴别能力. 因此, 提出一种基于类属特征的多标签流形学习分类(label specific feature based multi-label manifold learning, LSF-ML$^{2}$)方法. 首先, 利用标签数据优化类属特征重要度矩阵, 确定类属特征子集; 再将子集的特征流形映射到标签空间, 使标签从离散型变为数值型; 最后, 通过多输出回归实现分类. 实验结果表明, 所提方法性能优于多种多标签分类方法. 相似文献
11.
12.
针对多标签文本分类任务中如何有效地提取文本特征和获取标签之间潜在的相关性问题,提出一种CNN(convolutional neural networks)结合Bi-LSTM (bi-directional long short-term memory)的模型.首先,通过CNN网络和最大池化提取文本的特征;然后,利用训练的Labeled-LDA(labeled latent dirichlet allocation)模型获取所有词与标签之间的词-标签概率信息;接着,使用Bi-LSTM网络和CNN网络提取当前预测文本中每个词的词-标签信息特征;最后,结合提取的文本特征,预测与当前文本相关联的标签集.实验结果表明,使用词-标签概率获取文本中词与标签之间的相关性信息,能够有效提升模型的F1值. 相似文献
13.
尽管深度神经网络算法在标签自动标注领域已取得一定的成果,但对于包含大量噪声标签的真实音乐数据集仍存在自动标注效果差的问题.为此,文中通过对音乐标签进行表示学习,挖掘音乐标签与音频特征之间的潜在关系,提出了基于标签深度分析的音乐自动标注算法.该算法先通过多层级卷积网络提取音频特征,再通过音乐标签向量的表示学习来降低噪声数据对音乐自动标注网络的不良影响.在真实音乐标注数据集上的实验结果表明,该算法能取得更高的平均受试者特征曲线下面积,标注效果优于其他自动标注算法. 相似文献
14.
15.
基于自动编码器的短文本特征提取及聚类研究 总被引:3,自引:0,他引:3
针对短文本的特点, 提出一种基于深层噪音自动编码器的特征提取及聚类算法。该算法利用深度学习网络, 将高维、稀疏的短文本空间向量变换到新的低维、本质特征空间。首先在自动编码器的基础上, 引入L1范式惩罚项来避免模型过分拟合, 然后添加噪音项以提高算法的鲁棒性。实验结果表明, 将提取的文本特征应用于短文本聚类, 显著提高了聚类的效果, 有效地解决了短文本空间向量的高维、稀疏问题。 相似文献
16.
《云南民族大学学报(自然科学版)》2017,(2):162-166
把深度信念网络应用于天体光谱的分类.首先,使用小波变换对光谱数据进行降噪预处理,其次,采用PCA对光谱数据进行特征值提取降维,然后建立深度信念网络模型并构造分类器,最后使用该分类器对美国斯隆巡天项目的天体光谱数据进行激变变星的分类研究,并与受限波尔兹曼机网络进行了对比研究.由于深度信念网络对数据有深层次的学习能力,采用深度信念网络对天体光谱进行分类有一定优势.实验结果证明了分类方法的有效性. 相似文献
17.
多标签分类中如何有效处理具有许多实例和大量标签的大规模数据集、补偿训练集中缺失标签以及利用未标记实例改进预测性能等问题已成为重要研究方向。提出嵌入式多标签分类(EMC)算法,首先从伪实例参数化的高斯过程(GP)中提取两组随机变换来模拟特征向量、潜在空间表示向量和标签向量之间的非线性关系映射,其次引入一组辅助变量结合专家集成(EEOE)方法补偿缺失标签,最后利用未标记实例学习随机函数的平滑映射提高预测性能。仿真结果表明,与特征识别隐式标签空间编码的多标签分类(FaLE)算法和半监督低秩映射多标签分类(SLRM)算法相比,EMC算法优化了处理大规模数据集、补偿缺失标签及利用未标记数据的能力,从而提高了类标签的预测性能,且具有良好的可扩展性,训练时间短。 相似文献
18.
针对原始振动数据无监督特征学习问题,提出了一种深度小波自动编码器(deep wavelet automatic encoder,DWAE)与鲁棒极限学习机(extreme learning machine,ELM)相结合的滚动轴承的智能故障诊断方法。首先,利用小波函数作为非线性激活函数设计小波自动编码器从而有效地捕获信号特征。其次,利用多个小波自动编码器构造一个深度小波自动编码器来增强无监督特征学习能力。最后,采用鲁棒极限学习机作为分类器,对不同的轴承故障进行分类识别。用该方法对实验所得的轴承振动信号进行对比分析,结果验证了该方法能够在原始振动数据无监督特征学习的条件下该方法优于传统方法和标准深度学习方法。 相似文献
19.
基于粗糙集的多标签文本分类算法 总被引:1,自引:1,他引:0
将粗糙集优越的约简理论应用于多标签文本分类,提出了基于粗糙集理论的多标签文本分类算法,该算法利用训练阶段得到的各个类别的分类规则与测试实例逐一匹配,得出实例的类标签集合,扩展了粗糙集理论在文本分类中的应用,实验证明算法有效可行. 相似文献
20.
合并症预测是典型的多标签分类问题,有效利用标签之间的相关性是提高多标签分类模型精度的关键.针对该问题提出了高血压患者常见合并症的预测模型AR-MLKNN(multi-label k-nearest neighbor based on association rules),首先从不同语义空间的临床概念中构建了患者特征表示,然后通过疾病标签关联信息量化合并症并发关系,并基于样本k邻城内标签的概率分布以后验概率的方式计算样本对每个疾病标签的隶属概率.利用合并症并发关系和疾病标签隶属概率映射形成合并症风险矩阵,基于合并症风险值,根据最小化分类损失的原则动态调整分类阈值以获取最优分类结果.实验结果表明该模型可以对高血压合并症进行较为准确的预测,F1-score达到82%,相较于常规的ML-KNN(multi-label k-nearest neighbor)模型提高了8%,在临床辅助决策领域具有一定的应用价值. 相似文献