首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
针对传统文本特征选择算法没有考虑特征的语义及特征与类别之间关系的问题,提出了一种结合语义和分类贡献的特征选择算法.利用LDA主题模型获取文本和词的表示,通过计算词与文本之间的语义相似度,获取词对文本的重要性.再利用Word2vec词向量模型获取文本类别特征,通过计算文本中的词与文本类别特征之间的语义相似度,获取词对类别的重要性,最后结合词对文本的重要性和词对类别的重要性选择分类贡献度高的词作为最终的分类特征.实验表明,该算法能够有效地降低文本特征数量,减少分类计算开销,降低噪声对分类的影响,提升分类效果.  相似文献   

2.
针对当前文本分类算法未能充分利用标签的语义表示导致文本表示学习与分类预测割裂的问题,提出一种融合文本内容编码和标签引导文本编码的文本分类方法.在文本内容编码部分,通过长短时记忆网络获得文本序列累计语义表示,通过自注意力机制捕获和强化文本长距离语义依赖.在标签引导文本编码部分,设计交互注意力机制,通过标签引导得到经由标签...  相似文献   

3.
针对传统端到端模型在输入文本语义较复杂情况下生成的问题普遍存在语义不完整的情形,提出一种基于语义特征提取的文本编码器架构.首先构建双向长短时记忆网络获得基础的上下文信息,然后采用自注意力机制及双向卷积神经网络模型分别提取语义的全局特征和局部特征,最后设计一种层次结构,融合特征及输入自身信息得到最终的文本表示进行问题生成.在数据集SQuAD上的实验结果表明,基于语义特征提取与层次结构进行问题生成效果显著,结果明显优于已有方法,并且语义特征提取和层次结构在任务的各评价指标上均有提升.  相似文献   

4.
跨境民族文本分类任务是跨境民族文化分析中的基础性工作,其目的是将跨境民族文化文本进行归类处理。针对跨境民族文化数据分类面临类别交叉的问题,提出融合领域知识图谱的跨境民族文本分类方法,利用跨境民族文化知识图谱对文本中的跨境民族实体进行语义扩展,通过实体在知识图谱中的类别特征来增强文本的类别语义特征。此外,通过掩码自注意力机制分别对文本的词级、句子级进行特征提取以此得到文本中句子的局部特征和全局特征。实验表明,本文方法在跨境民族文化数据集中相比基线模型的F1值提升了11.9%。  相似文献   

5.
类别文本生成旨在让机器生成人类可理解的文本,并且赋予生成文本特定的类别属性。现有工作主要采用基于生成对抗网络的文本生成框架,往往直接采用卷积神经网络进行文本特征提取,缺乏对文本全局语义的关注;此外,简单地在生成网络中引入注意力无法有效消除解码过程中的噪声。针对上述问题,本文提出一种将文本全局特征与局部特征联合建模的方法,通过将长短时记忆网络提取的全局语义信息与卷积神经网络提取的局部语义信息进行融合,增强生成过程中对文本全局语义信息的关注,并且引入双重注意力,进一步过滤掉序列生成中的无关信息。与基准模型相比,本文提出的方法分别在2个公开的真实数据集(Movie Review和Amazon Review)上取得了至少0.01和0.004的BLEU值的提升,表明了本文方法的有效性。  相似文献   

6.
针对目前的篇章级行文一致性度量模型只考虑了待测作文的全文行文一致性,无法捕捉文本语义块的隐含语义特征及其之间的一致性问题,提出了一种通用的作文行文一致性测评模型. 该模型借鉴孪生神经网络的思想,创新性地同时提取作文中核心人物的性格、形象特征以及故事情节特征并进行相似度度量,从而获取文本的中心思想以及行文一致性的匹配分数;使用无监督主题模型Biterm-LDA(Latent Dirichlet Allocation)对作文进行主题特征提取,解决了对手工标注的依赖。实验结果表明提出的模型评分与人工标注结果多数一致,且优于普通神经网络模型.   相似文献   

7.
基于循环结构的卷积神经网络文本分类方法   总被引:1,自引:0,他引:1  
现有卷积神经网络在文本分类性能上受到词向量窗口长度的影响,在研究卷积神经网络分类方法的基础上,提出一种基于循环结构的神经网络文本分类方法,该方法对文本进行单次正向及反向扫描,能够在学习单词表示时尽可能地捕获上下文信息,整体算法时间复杂度为O(n),是线性复杂度;该方法构建文本语义模型可以捕获长距离的依赖关系,使得词向量窗口长度对文本分类性能没有影响,对上下文更有效地建模。实验结果表明,该方法构建文本语义模型的准确率达到96.86%,召回率达到96.15%,F1值达到96.5%,性能优于传统文本分类算法和卷积神经网络方法。  相似文献   

8.
针对传统语言模型不能解决深层双向表征和分类模型不能充分捕获文本显著特征的问题,提出了一种基于BERT-BiGRU-CNN(Bidirectional Encoder Representation from Transformers-Bidirectional Gating Recurrent Unit-Convolutional Neural Networks)的文本分类模型。首先,该模型使用BERT预训练语言模型进行文本表示;其次,将BERT的输出数据输入BiGRU中,以捕获文本的全局语义信息;然后,将BiGRU层的结果输入CNN中,捕获文本局部语义特征;最后,将特征向量输入Softmax层得到分类结果。实验采用中文新闻文本标题数据集,结果表明,基于BERT-BiGRU-CNN的文本分类模型在数据集上的F1值达到0.948 5,优于其他基线模型,证明了BERT-BiGRU-CNN模型可提升短文本的分类性能。  相似文献   

9.
细粒度情感分析是自然语言处理的关键任务之一,针对现有的解决中文影评情感分析的主流方案一般使用Word2Vector等预训练模型生成静态词向量,不能很好地解决一词多义问题,并且采用CNN池化的方式提取文本特征可能造成文本信息损失造成学习不充分,同时未能利用文本中包含的长距离依赖信息和句子中的句法信息。因此,提出了一种新的情感分析模型RoBERTa-PWCN-GTRU。模型使用RoBERTa预训练模型生成动态文本词向量,解决一词多义问题。为充分提取利用文本信息,采用改进的网络DenseDPCNN捕获文本长距离依赖信息,并与Bi-LSTM获取到的全局语义信息以双通道的方式进行特征融合,再融入邻近加权卷积网络(PWCN)获取到的句子句法信息,并引入门控Tanh-Relu单元(GTRU)进行进一步的特征筛选。在构建的中文影评数据集上的实验结果表明,提出的情感分析模型较主流模型在性能上有明显提升,其在中文影评数据集上的准确率达89.67%,F1值达82.51%,通过消融实验进一步验证了模型性能的有效性。模型能够为制片方未来的电影制作和消费者的购票决策提供有用信息,具有一定的实用价值。  相似文献   

10.
传统分布式语义文本分类方法难以高效地在云计算环境下实现文本快速准确分类。为此,提出一种新的云计算环境下分布式语义文本自适应分类方法。通过期望交叉熵对分布式语义文本特征进行选择,针对任意类别中的词,按照权重值从大到小的顺序对其进行排列,将排在前面的若干词看作特征词;针对分布式语义文本集中的所有类别进行同样的操作,将获取的所有类别特征词结合在一起,建立特征词典。针对主题引入加权策略,通过权重值对不同主题针对不同类别的判断能力进行描述,以获取最佳主题,给出新文本特征产生过程。依据提取的分布式语义文本特征,通过朴素贝叶斯分类器实现分布式语义文本的自适应分类。实验结果表明,所提方法分类精度和效率高。  相似文献   

11.
为了分析突发事件期间网络舆论的情感倾向,以更有效地调节人们的情绪,维护社会稳定。本文提出了一种融合BERT模型和多通道卷积神经网络的深度学习方法用于细粒度情感分类,以获取更加丰富的文本语义特征信息。通过BERT 对输入的文本进行编码,以增强文本的语义特征表示,再通过具有多个不同大小的卷积核的并行卷积层来学习文本特征,捕获文本的深层次特征,提升模型在文本分类的性能。对比实验表明,该模型在准确性、召回率和F1值方面均优于传统的情感分类模型,并能显著改善细粒度情感分类的性能。除此之外,本文还探究了表情符号对细粒度情感分类模型的影响,实验结果表明表情符号转换成文字后可以增强文本的情感特征提取能力,提升模型分类性能。  相似文献   

12.
医疗文本具有实体密度高、句式冗长等特点,简单的神经网络方法不能很好地捕获其语义特征,因此提出一种基于预训练模型的混合神经网络方法。首先使用预训练模型获取动态词向量,并提取实体标记特征;然后通过双向长短期记忆网络获取医疗文本的上下文特征,同时使用卷积神经网络获取文本的局部特征;再使用注意力机制对序列特征进行加权,获取文本全局语义特征;最后将实体标记特征与全局语义特征融合,并通过分类器得到抽取结果。在医疗领域数据集上的实体关系抽取实验结果表明,新提出的混合神经网络模型的性能比主流模型均有提升,说明这种多特征融合的方式可以提升实体关系抽取的效果。  相似文献   

13.
目前,细粒度情感分析已在观点挖掘、文本过滤等域获得广泛应用,通过细粒度情感分析,能完成更精准的文本理解和结果判断.其中,包含方面、观点和情感极性的情感三元组抽取任务是一个具有代表性的细粒度情感分析任务,且大多数相关研究是基于管道模型和端到端模型开展的.然而,一方面,管道模型本质为两阶段模型,存在错误传播的问题;另一方面,端到端模型也无法充分利用句子中各组成之间的联系,存在高层次语义关系捕获能力欠缺的问题.为解决以上问题,本文对句法和语义知识进行特征补充,提出一个基于语义增强和指导路由机制的情感三元组抽取方法(ASTE-SEGRM).首先,基于键值对网络学习源文本的句法特征和词性特征.区别于以往的建模方式,本文所提方法动态捕捉不同句法及词性类型的重要程度,并赋予不同的权重,以实现语义增强;其次,受启发于迭代路由机制,引入指导路由机制构建神经网络,使用先验知识指导情感三元组的抽取;最后,在四个基准数据集上的实验结果证明,本文所提方法优于数个基线模型.  相似文献   

14.
For projects with thousands of files, finding the locations of bugs is time-consuming and labor-intensive. Bug reports as a potential resource to help locate bugs in source codes have been used to design automatic tools to solve this problem. Existing information retrieval(IR)-based bug localization methods rely heavily on the similarity score between bug report and historical reports. As deep learning methods show great advantages in calculating text semantic similarity, we adapt the transformer network with IR-based bug localization methods to design a novel approach, TSLocator, to bug localization. In TSLocator, we propose five new features between bug reports and source codes. We use SVMRank to model the relation between all the six features and the actual buggy file. Given a new bug report, TSLocator automatically calculates the features and linearly weights the features to produce a suspicious score for all candidate files. TSLocator recommends a list of suspicious buggy files ranked by the score. The experimental results show that TSLocator outperforms existing methods in accuracy and performance of bug localization.  相似文献   

15.
针对社交网络用户人格预测问题, 提出一种结合信息增益与语义特征提炼用户文本信息, 并采用多标签分类算法进行综合预测的方法. 先基于信息增益提取文本词特征, 包括情感词、 词性和时态等, 进行特征选择与加权; 对于语义特征, 将文本内容映射为本体概念并计算语义相关度; 然后以基于词的特征和语义特征的共同
影响为依据, 运用多标签分类算法执行人格预测过程, 从不同角度处理文本信息, 并充分考虑了类标签间的相关性. 实验结果验证了该方法的有效性.  相似文献   

16.
传统分布式语义文本分类方法难以高效地在云计算环境下实现文本快速准确分类,为此,提出一种新的云计算环境下分布式语义文本自适应分类方法。通过期望交叉熵对分布式语义文本特征进行选择,针对任意类别中的词,按照权重值从大到小的顺序对其进行排列,将排在前面的若干词看作特征词,针对分布式语义文本集中的所有类别进行同样的操作,将获取的所有类别特征词结合在一起,建立特征词典。针对主题引入加权策略,通过权重值对不同主题针对不同类别的判断能力进行描述,以获取最佳主题,给出新文本特征产生过程。依据提取的分布式语义文本特征,通过朴素贝叶斯分类器实现分布式语义文本的自适应分类。实验结果表明,所提方法分类精度和效率高。  相似文献   

17.
针对现有突发事件演化关系抽取方法仅利用了句子本身的信息而忽略了背景知识的问题,引入概念图谱进行特征拓展,以获得更多的语义信息来改善演化关系抽取效果。首先根据概念图谱构建突发事件语义网络,通过特征迭代选择算法获得演化因子的概念特征,然后联合概念特征与突发事件文本作为双向门控循环单元(BiGRU)模型的输入进行特征学习,并利用注意力(Attention)机制对输出的特征信息序列实施加权变换,最后将学习到的特征序列输入到分类器进行演化关系分类。实验结果表明,所提出的基于概念图谱与BiGRU-Att模型的方法相比于现有方法,在准确率、召回率和F_1值等评价指标上均有提升。  相似文献   

18.
基于循环神经网络(recurrent neural network,RNN)注意力机制的序列到序列模型在摘要信息提取服务中已经取得了较好的应用,但RNN不能较好地捕捉长时序信息,这使现有模型受限。为此,提出了基于改进Transformer的生成式文本摘要模型。该模型利用Transformer提取全局语义,使用局部卷积提取器提取原文细粒度特征,并设计全局门控单元以防止信息冗余和弥补语义不足,筛选出利于摘要生成的文本关键信息。实验结果表明,所提模型在大规模中文短文本摘要数据集(large scale Chinese short text summarization,LCSTS)上的效果有明显的提升,在电力运维摘要数据集上,也有良好效果,具有可扩展性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号