共查询到20条相似文献,搜索用时 62 毫秒
1.
多标签文本分类是自然语言处理领域的重要任务之一.文本的标签语义信息与文本的文档内容有紧密的联系,而传统的多标签文本分类方法存在忽略标签的语义信息以及标签的语义信息不足等问题.针对以上问题,提出一种融合标签嵌入和知识感知的多标签文本分类方法 LEKA (Label Embedding and Knowledge-Aware).该方法依赖于文档文本以及相应的多个标签,通过标签嵌入来获取与标签相关的注意力.考虑标签的语义信息,建立标签与文档内容的联系,将标签应用到文本分类中.另外,为了增强标签的语义信息,通过知识图谱嵌入引入外部感知知识,对标签文本进行语义扩展.在AAPD和RCV1-V2公开数据集上与其他分类模型进行了对比,实验结果表明,与LCFA (Label Combination and Fusion of Attentions)模型相比,LEKA的F1分别提高了3.5%和2.1%. 相似文献
2.
针对社交网络用户人格预测问题, 提出一种结合信息增益与语义特征提炼用户文本信息, 并采用多标签分类算法进行综合预测的方法. 先基于信息增益提取文本词特征, 包括情感词、 词性和时态等, 进行特征选择与加权; 对于语义特征, 将文本内容映射为本体概念并计算语义相关度; 然后以基于词的特征和语义特征的共同
影响为依据, 运用多标签分类算法执行人格预测过程, 从不同角度处理文本信息, 并充分考虑了类标签间的相关性. 实验结果验证了该方法的有效性. 相似文献
3.
流标签是当前多标签学习领域中一个较新颖的挑战性问题,存在标签空间未定、标签数量不断增加甚至趋于无穷等问题.在多标签学习的特征选择中,每当有新的标签到达时标签空间都将发生改变,传统的多标签特征选择算法需重新进行特征选择,所以不适用.针对此问题,采用将流标签进行分组批量处理的方式,并考虑标签之间的相关性,提出一种新的流式多标签特征选择方法,考虑分组后每组标签内部潜在的关联结构和不同标签组之间的标签差异性,赋予每组标签不同的权重来计算每个特征与标签空间的模糊互信息.同时,结合mRMR (Max-Relevance and Min-Redundancy)的特征选择策略进行冗余特征的剔除,从而挑选最优的特征子集.该方法同时适用于固定标签空间和流式标签空间中的特征选择问题.最后,选取八个多标签基准数据集,采用四种评价指标与已有相关的多标签特征选择方法进行对比实验,实验结果证明了提出方法的有效性和高效性. 相似文献
4.
针对标签特定特征多标签学习算法(multi-label learning with label-specific features, LIFT)未能在聚类以及分类阶段考虑标签相关性问题,提出一种基于标签相关性的标签特定特征多标签学习算法(multi-label learning with label-specific features via label correlations, LFLC).将标签空间加入特征空间进行聚类构建分类模型,采用考虑标签相关性的聚类集成技术为每个标签构造标签特定特征,使用相关性矩阵构建无向完全图并挖掘图中标签集合相关性,通过树集成表达标签间多种不同结构的强相关性.在试验部分,采用涵盖不同领域的10个数据集,以Hamming Loss、Ranking Loss、One-error、Coverage、Average Precision和macroAUC为评估指标,进行了参数敏感性分析和统计假设检验.结果表明:结合聚类集成与标签间强相关性的LFLC算法较其他对比多标签算法整体上能取得较好的效果. 相似文献
5.
特征选择是提高多标签分类性能的一种关键技术,一些特征选择算法在选择与标签相关的特征时没有从多个角度考虑标签结构,致使好的特征未能被选取,影响分类性能.为此,提出一种多角度标签结构和特征融合的多标签特征选择MLSFF.该算法的主要特点是:1)从三个角度考虑标签结构,提取三个重要的特征子集.2)融合提取的三个特征子集将整个... 相似文献
6.
为了从文本中可以更加准确地分析其蕴含的内容,给人们的生产生活提供建议,在基于深度学习的传统多标签分类方法的基础上,提出一种融合多粒度特征和标签语义共现的多标签分类模型。该模型利用双向长短时记忆网络双向长短时记忆网络(bidirectional long short-term memory network, Bi-LSTM)提取多粒度的文本特征,获得不同层次的文本特征;并通过计算pmi的方式构建标签关系图,利用图卷积网络(graph convolution network, GCN)深入提取标签的隐藏关系,获得具有标签信息的文本表示;最终融合多粒度文本特征,进行多标签文本分类。在AAPD和news数据集上进行实验。结果表明:所提出模型的Micro-F1值分别达到0.704和0.729,验证了模型的有效性。 相似文献
7.
《西安交通大学学报》2015,(5)
标签传播算法的主要思想是利用已标注数据的标签信息预测未标注数据的标签信息。然而,传统传播算法没有区别对待未标注数据与已标注数据相互之间的转移信息,导致算法的收敛速度较慢,影响了算法的性能。针对传统算法的不足,提出了差异权重标签传播算法,算法按标注信息的重要性赋予不同的权重。在解决了大规模特征矩阵相乘问题之后,将提出的差异权重标签传播算法应用到Hadoop框架下,采用分布式计算,实现了能够处理大规模数据的多标签分类算法(HSML),并将提出的HSML算法与现有主流多标签分类算法进行了性能比较。实验结果表明,HSML算法在多标签分类的各项性能评测指标和执行速度上都是有效的。 相似文献
8.
9.
多标签分类中如何有效处理具有许多实例和大量标签的大规模数据集、补偿训练集中缺失标签以及利用未标记实例改进预测性能等问题已成为重要研究方向。提出嵌入式多标签分类(EMC)算法,首先从伪实例参数化的高斯过程(GP)中提取两组随机变换来模拟特征向量、潜在空间表示向量和标签向量之间的非线性关系映射,其次引入一组辅助变量结合专家集成(EEOE)方法补偿缺失标签,最后利用未标记实例学习随机函数的平滑映射提高预测性能。仿真结果表明,与特征识别隐式标签空间编码的多标签分类(FaLE)算法和半监督低秩映射多标签分类(SLRM)算法相比,EMC算法优化了处理大规模数据集、补偿缺失标签及利用未标记数据的能力,从而提高了类标签的预测性能,且具有良好的可扩展性,训练时间短。 相似文献
10.
针对面向实际应用场景中数据标签易残缺导致有监督多标签分类方法可用训练数据量减少,未能利用大量标签缺失数据中蕴含的样本特征空间关联知识以最大化判别间隔,限制多标签分类效果等问题,本文提出一种融合样本相似性的弱监督多标签分类方法.该方法利用标签相关性和样本相似性恢复标签以提高数据利用率,并将标签恢复嵌入到训练过程中以便挖掘标签相关性,通过近端加速梯度法进行参数优化,建立弱监督学习场景的多标签分类模型.在真实数据集上的实验结果表明,该方法能够利用样本相似性有效提升模型在标签残缺时的分类能力,实用价值大. 相似文献
11.
12.
针对热应力下绝缘栅双极型晶体管(insulated gate bipolar transistor, IGBT)的性能随时间逐步退化的特性,将深度学习中的时间序列预测算法应用到IGBT故障预测中,提出了基于门控循环单元(gated recurrent unit, GRU)与主成分分析-迁移学习(principal components analysis-transfer learning, PCA-TL)的故障预测新方法。该方法以电参数集电极-发射极电压VCE作为衰退参数,采用GRU模型构建衰退参数与故障时间的映射关系;利用PCA技术综合相异分布特征的IGBT故障指标,引入TL方法,通过微调GRU预测模型的参数完成从源域到目标域的迁移,实现目标域样本的故障预测。实验结果表明,基于GRU的故障预测模型具有较高的预测精度,与长短期记忆(long short-term memory, LSTM)算法相比,训练速度更快;PCA-TL方法可实现同类器件不同工况下的故障监测任务。验证了所提方法的可行性和正确性。 相似文献
13.
针对人脸识别中经常遇到的"小样本"和"过学习"等问题,同时为了进一步改善人脸图像的奇异值特征在人脸识别中的识别性能,提出了一种基于奇异值分解和支持向量机的人脸识别新方法.在特征提取阶段,首先对训练样本集中的每一个人脸图像矩阵进行奇异值分解,得到训练样本的奇异值特征,然后对每个样本的奇异值特征向量进行降维、归一化、奇异值向量的分量重新排列等处理.在识别阶段,运用支持向量机作为分类工具,为了提高分类能力,选取径向基函数作为支持向量机的核函数.最后在ORL人脸数据库上验证了该方法.实验结果表明,通过对奇异值特征的相关处理,提高了识别速度和正确识别率.从而证明了所提出方法的有效性,具有一定的应用价值. 相似文献
14.
为解决传统模型表示出的词向量存在序列、上下文、语法、语义以及深层次的信息表示不明的情况,提出一种基于预训练模型(Roberta)融合深层特征词向量的深度神经网络模型,处理中文文本分类的问题。通过Roberta模型生成含有上下文语义、语法信息的句子向量和含有句子结构特征的词向量,使用DPCNN模型和改进门控模型(RGRU)对词向量进行特征提取和融合,得到含有深层结构和局部信息的特征词向量,将句子向量与特征词向量融合在一起得到新向量。最后,新向量经过softmax激活层后,输出结果。在实验结果中,以F1值、准确率、召回率为评价标准,在THUCNews长文本中,这些指标分别达到了98.41%,98.44%,98.41%。同时,该模型在短文本分类中也取得了很好的成绩。 相似文献
15.
学习成绩是评价一个学生学习情况的最重要最基础的指标,对学习成绩的分析有利于老师掌握学生的学习情况,进行针对性地进行教学辅导,而对学生而言,能提前知道自己未来课程在学习过程中出现的情况也有利于学生发现自身存在的问题并提前加以防范.现有的研究工作大多是基于对课程、历史成绩或行为数据的分析来对学生的总成绩进行预测,很少有研究将学生行为与学生课程成绩等方面结合起来综合全面的预测学生未来所有的课程的学习情况,对此,本文从一个新的角度出发,利用学生的行为、个人属性和历史成绩等三个方面数据,根据学生未来不同课程动态的进行影响因素的选择,并利用支持向量机对学生成绩进行预警,为数据挖掘技术在教育领域的应用做了一些探索性工作. 相似文献
16.
滚动轴承作为旋转机械设备中的关键部件,影响着设备的可靠性运行。为了智能开展设备维护工作,提高设备的运转效率,提出一种基于互信息(mutual information,MI)的主成分分析(principal component analysis,PCA)(MI-PCA)结合支持向量回归(support vector regression,SVR)的滚动轴承剩余寿命预测方法。首先利用小波包降噪算法剔除原始振动信号中的异常数据点和噪声,并基于降噪数据提取其时域、频域和时频域特征;然后结合特征与剩余寿命的互信息值进行特征筛选,再通过PCA降维算法获得可表征轴承退化状态的敏感特征,用于SVR的输入;最后构建并训练SVR剩余寿命预测模型,并将其应用于滚动轴承全寿命试验数据。试验结果表明与基于MI和基于PCA的SVR回归预测模型(MI-SVR模型、PCA-SVR模型)相比,基于MI-PCA的SVR模型具有更高的预测精度(预测精度可达97%),能够实现滚动轴承剩余寿命的精准预测,为开展及时有效的设备维护工作提供了决策依据。 相似文献
17.
针对河道砂体横向变化较快的非均质性特点, 通过对低频信息保存较好的地震纯波进行信息挖潜, 提取纯地震振幅信息以及相对阻抗反演进行河道砂体预测, 利用地震低频增量属性对流体进行预测, 有效解决了河道砂体横向变化较快的横向非均质性难题。通过河道砂体及流体检测结果, 进行井位部署的优选, 提供建议井5 口, 其中4 口获得高产, 研究结果可以作为油田生产井位部署的主要依据, 此研究方法可以在类似地质条件区块中加以推广应用。 相似文献
18.
针对肿瘤基因数据因维度高和冗余基因较多而导致分类精度低的问题,提出一种基于PCA和信息增益的肿瘤特征基因选择方法.该方法首先使用PCA算法剔除冗余基因,获得预选特征基因子集;然后利用信息增益算法对预选特征基因子集进行优化选取,得到特征基因子集;最后采用不同分类模型对特征基因子集进行仿真实验.实验结果表明,所提方法提高了基因表达谱的分类精度,从而表明致病基因被有效地选取出来. 相似文献
19.
基于向量空间模型的信息检索系统的研究与实现 总被引:2,自引:0,他引:2
基于向量空间模型的信息检索系统具有良好的性能。本文阐述了向量空间模型的基本概念和思想,提出了一个基于向量空间模型的信息检索系统的体系结构模型,进一步讨论了该系统实现的关键技术和实现方法。 相似文献
20.
通过寻找一个最优的特征子集,特征选择可以降低计算复杂度,提高分类精度以及结果的可理解性。提出基于大间隔信息粒化的特征选择算法,通过聚类等方式对原始数据进行单类信息粒化,然后在粒化的基础上构造了模糊间隔和类间隔2个评价指标进行特征评价。并分别在不同的数据上验证了这种特征选择方法的有效性,实验结果表明,基于大间隔粒计算的特征选择算法效果要优于其他的大间隔特征算法。 相似文献