首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
在自然语言生成任务中,主题文本生成是一项富有挑战性的工作,其主要难点在于:源信息量远小于目标生成的信息量.为了解决该问题,本文提出一个基于外部知识筛选的主题文本生成模型Trans K,通过引入与主题词相关的外部知识来丰富源信息,进而提高生成文本的质量.本文为了解决引入外部知识的“一词多义”问题,提出一种基于线性变换的主题向量计算方法,用于筛选和主题词语义一致的外部知识;提出一种基于注意力机制的外部权重计算方法,为每个外部词设定一个主题权重,使其更贴合文本语义;为了解决主题词(含候选词)在生成文本中反复出现的问题,提出一种基于多头注意力机制的内部权重计算方法.在EASSY数据集上的实验表明,与基线相比,Trans K生成文本质量的各项指标更优.此外,人类评估表明,该模型可生成与主题更相关、语言更连贯、且符合语义逻辑的文本.  相似文献   

2.
针对传统端到端模型在输入文本语义较复杂情况下生成的问题普遍存在语义不完整的情形, 提出一种基于语义特征提取的文本编码器架构. 首先构建双向长短时记忆网络获得基础的上下文信息, 然后采用自注意力机制及双向卷积神经网络模型分别提取语义的全局特征和局部特征, 最后设计一种层次结构, 融合特征及输入自身信息得到最终的文本表示进行问题生成. 在数据集SQuAD上的实验结果表明, 基于语义特征提取与层次结构进行问题生成效果显著, 结果明显优于已有方法, 并且语义特征提取和层次结构在任务的各评价指标上均有提升.  相似文献   

3.
基于大型预训练语言模型的有监督学习方法在可控文本生成任务上取得了优秀的成果,但这些研究都着重于控制生成文本的高级属性(比如情感与主题),而忽略了泛化性问题.现有的基于自监督学习的研究方法则通过句子级别的训练来使模型获得补全整句的能力,使模型做到单词和短语级别的控制生成,但生成与特定属性强相关句子的能力依旧待提升.所以本文提出了一种单词级别(细粒度)与句子(粗粒度)级别相结合的多粒度训练方式:单词级别的主题模型让模型学习主题层面的语义以获得主题到文本的生成能力,句子级别的自监督训练让模型学习整句的表征以获得补全句子的能力.通过主题模型与自监督学习的结合,使模型在单词与短语级别的可控生成阶段取得了更好的效果.实验表明,本文提出的模型在主题契合度以及常规文本生成指标方面优于现有的基线模型.  相似文献   

4.
针对目前金融领域文本存在标注资源匮乏的问题,提出一种基于生成对抗网络的金融文本情感分类方法. 该方法以边缘堆叠降噪自编码器生成鲁棒性特征表示作为输入,在生成对抗过程中,通过向文本表示向量添加噪声向量再生成新样本,应用对抗学习思想优化文本特征表示. 在公开的跨领域情感评论Amazon数据集和金融领域数据集上进行实验,并与基准实验对比,结果表明,该方法在平均准确率上有显著提升.  相似文献   

5.
针对传统情感分析方法对微博短文本应用效果不佳的问题,提出将文本情感特征与深度学习模型融合的微博情感分析新机制.通过词向量计算文本的语义特征,结合基于表情字符的情感特征,利用卷积神经网络挖掘特征集合与情感标签间的深层次关联,训练情感分类器.实验结果表明,相比基于词典的机器学习模型,该机制将情感分析准确率与F度量分别相对提升21.29%和19.20%.该机制结合语义和情感特征,利用卷积神经网络的抽象特征提取能力,改善微博短文本的情感分析精度.  相似文献   

6.
多文档文摘提取方法的研究   总被引:1,自引:0,他引:1  
在深入分析当前流行的自动文摘技术和方法的基础上,将语义方法融入统计算法,提出了一种基于统计的多文档文摘提取方法,描述了它的实现过程.该方法利用文档内和文档之间段落的语义相关性,实现了多文档文摘的自动生成.首先对文档进行分段实现信息分割,再利用聚类技术对文本段进行聚类实现信息合并,最后从类中抽取代表段产生摘要文本.实验结果表明,该方法是一个有效、实用的方法.  相似文献   

7.
现有的客观图像质量评价方法用于GAN生成图像质量评价时,往往出现与人的主观评价不一致的情况.针对这个问题,提出了一种更符合人类视觉感知的GAN生成图像质量客观评价方法AJ-GIQA(attention and just noticeable difference based generated image quality assessment).首先,模拟人类视觉系统的失真敏感度特性,对GAN生成图像进行预处理,得到其最小可觉差图;然后,将注意力模块引入特征提取网络,模拟人类视觉系统的注意力机制,获取图像的显著性特征;最后,将图像特征输入结合语义信息的质量预测网络,基于图像内容综合评价GAN生成图像的质量.在GAN生成图像数据集上的实验结果表明,AJ-GIQA的评价结果与主观平均意见得分有更高的一致性;在图像质量排序一致性上的实验结果表明,AJ-GIQA的准确率在LGIQA-LSUN-cat数据集上达到了最优,和SFA方法相比性能提高了0.267;在泛化性能上的实验结果表明,与最先进的HyperIQA方法相比,AJ-GIQA在数据集PIPAL的Pearson线性相关系数提高了0.027...  相似文献   

8.
为使支持向量机(SVM)更加适用于在线文本分类应用,利用SVM在小训练样本集条件下仍有高泛化能力的特性,结合文本特征向量在特征空间中具有聚类性的特点,提出一种用语义中心集代替原训练样本集作为训练样本和支持向量的SVM语义SVM.文中给出了语义中心集的生成步骤、语义SVM的在线学习算法框架,以及基于SMO算法的在线学习算法的实现.实验结果表明,相对于标准SVM,语义SVM及其在线学习算法不仅在线学习速度和分类速度有数量级提高,而且在分类准确率方面具有一定优势.  相似文献   

9.
现有的基于深度学习和神经网络的日志异常检测方法通常存在语义信息提取不完整、依赖日志序列构建和依赖日志解析器等问题.基于注意力机制多特征融合和文本情感分析技术,提出了一种日志异常检测方法 .该方法首先采用词嵌入方法将日志文本向量化以获取日志消息的词向量表示,接着将词向量输入到由双向门控循环单元网络和卷积神经网络组成的特征提取层中分别提取日志消息的上下文依赖特征和局部依赖特征,使用注意力机制分别加强两种特征中的关键信息,增强模型识别关键信息的能力.使用基于注意力机制的特征融合层为两种特征赋予不同权重并加权求和后输入由全连接层构成的输出层中,实现日志消息的情感极性分类,达到日志异常检测的目的 .在BGL公开数据集上的实验结果表明,该模型的分类准确率和F1值分别达到了96.36%和98.06%,与同类日志异常检测模型相比有不同程度的提升,从而证明了日志中的语义情感信息有助于异常检测效果的提升,并且经过实验证明了使用注意力机制的模型可以进一步提高文本情感分类效果,进而提升日志异常检测的准确率.  相似文献   

10.
抽象语义表示(Abstract Meaning Representation,AMR)到文本生成(简称AMR-to-Text生成),可将给定的AMR图生成与其意义相同的文本。由于AMR-to-Text生成可使用的标准数据集规模较小,因此该任务生成文本的性能受模型影响较大。针对此问题,文章基于大规模自动标注语料来比较先进模型和基准模型生成文本的性能,探索了先进模型在使用大规模自动标注语料的基础上,是否还能够保持其显著的性能优势。使用了(Sequenceto-Sequence,Seq2Seq)的Transformer模型和当前AMR-to-Text生成性能最优的图到序列模型,通过不同方案比较模型生成文本的性能。实验结果表明,在大规模自动标注语料的基础上,AMR-to-Text生成任务的先进模型与基准模型生成文本的性能没有显著差异,先进模型的性能优势不明显。  相似文献   

11.
高分辨率遥感影像在实际应用中得到广泛使用。高分影像语义分割方法的研究具有重要实际应用价值。近来基于深度卷积网络的遥感影像标注方法表现出了比传统方法更为优越的性能;然而由于其基于固定感受野大小的上下文信息获取方法没有显式利用像素间约束关系,导致同一地物内部语义标注结果不一致。基于同一区域内部像素属于相同类别概率较大的假定,试图引入图像区域内部语义标注一致性约束,以改善现有深度卷积神经网络描述上下文信息的能力。在现有全卷积网络模型基础上,利用卷积神经网络最后一层特征,引入一个表示区域内部像素特征一致性的损失函数;将该损失函数与softmax损失函数进行联合训练,得到网络模型参数。在ISPRS(国际摄影测量与遥感学会)的Vaihingen 2D语义标注数据集上,对提出的方法进行了实验验证,实验结果表明所提方法在大多数类别上取得了较现有卷积神经网络模型更优的分类结果,总体准确率达85.18%。提出的引入区域内部像素标记一致性的全卷积网络模型,可以有效捕捉区域内部像素特征一致性的上下文信息,能有效纠正全卷积网络模型在区域内部像素分类中的冲突,获得区域一致较好的分类结果,从而改善图像的语义标注效果。  相似文献   

12.
针对现有的中文文本情感分析方法不能从句法结构、上下文信息和局部语义特征等方面综合考量文本语义信息的问题,提出一种基于特征融合的中文文本情感分析方法.首先,采用Jieba分词工具对评论文本进行分词和词性标注,并采用词向量训练工具GloVe获取融入词性的预训练词向量;然后,将词向量分别作为引入Self-Attention的BiGRU和TextCNN的输入,使用引入Self-Attention的BiGRU从文本的句法结构和文本的上下文信息两个方面综合提取全局特征,使用TextCNN提取文本的局部语义特征;最后,将全局特征和局部语义特征进行融合,并使用Softmax进行文本情感分类.实验结果表明,本文方法可以有效提高文本情感分析的准确率.  相似文献   

13.
针对现有突发事件演化关系抽取方法仅利用了句子本身的信息而忽略了背景知识的问题,引入概念图谱进行特征拓展,以获得更多的语义信息来改善演化关系抽取效果。首先根据概念图谱构建突发事件语义网络,通过特征迭代选择算法获得演化因子的概念特征,然后联合概念特征与突发事件文本作为双向门控循环单元(BiGRU)模型的输入进行特征学习,并利用注意力(Attention)机制对输出的特征信息序列实施加权变换,最后将学习到的特征序列输入到分类器进行演化关系分类。实验结果表明,所提出的基于概念图谱与BiGRU-Att模型的方法相比于现有方法,在准确率、召回率和F_1值等评价指标上均有提升。  相似文献   

14.
目前的源代码漏洞检测方法大多仅依靠单一特征进行检测,表征的维度单一导致方法效率低.针对上述问题提出一种基于结构化文本及代码度量的漏洞检测方法,在函数级粒度进行漏洞检测.利用源代码结构化文本信息及代码度量结果作为特征,通过构造基于自注意力机制的神经网络捕获结构化文本信息中的长期依赖关系,以拟合结构化文本和漏洞存在之间的联系并转化为漏洞存在的概率.采用深度神经网络对代码度量的结果进行特征学习以拟合代码度量值与漏洞存在的关系,并将其拟合的结果转化为漏洞存在的概率.采用支持向量机对由上述两种表征方式获得的漏洞存在概率做进一步的决策分类并获得漏洞检测的最终结果.为验证该方法的漏洞检测性能,针对存在不同类型漏洞的11种源代码样本进行漏洞检测实验,该方法对每种漏洞的平均检测准确率为97.96%,与现有基于单一表征的漏洞检测方法相比,该方法的检测准确率提高了4.89%~12.21%,同时,该方法的漏报率和误报率均保持在10%以内.  相似文献   

15.
传统分布式语义文本分类方法难以高效地在云计算环境下实现文本快速准确分类,为此,提出一种新的云计算环境下分布式语义文本自适应分类方法。通过期望交叉熵对分布式语义文本特征进行选择,针对任意类别中的词,按照权重值从大到小的顺序对其进行排列,将排在前面的若干词看作特征词,针对分布式语义文本集中的所有类别进行同样的操作,将获取的所有类别特征词结合在一起,建立特征词典。针对主题引入加权策略,通过权重值对不同主题针对不同类别的判断能力进行描述,以获取最佳主题,给出新文本特征产生过程。依据提取的分布式语义文本特征,通过朴素贝叶斯分类器实现分布式语义文本的自适应分类。实验结果表明,所提方法分类精度和效率高。  相似文献   

16.
针对基于传统机器学习方法设计的DR胸片肺结核检测器存在着泛化能力不强,实际检测精度低等问题,提出了一种基于Focal Loss的深度学习检测方法Tuberculosis Neural Net(TBNN).医学图像的特殊性,存在带标注的数据量小导致无法充分训练深层网络模型等问题.该方法利用肺炎和肺结核同为呼吸道感染疾病且在DR胸片上有相似表征的特点,基于迁移学习原理训练特征提取子网络,减少肺结核胸片样本不足对模型训练造成的影响.首先在大型的肺炎胸片数据集上训练特征提取网络,以获取DR图像中丰富的深层图像语义信息,然后使用样本较少的肺结核数据集微调网络参数,并将多层卷积的输出作为TBNN分类子网络的输入,得到基于DR胸片的肺结核病灶检测模型.实验结果表明,该方法生成的检测模型在分类精度和性能上均优于基于传统机器学习的肺结核检测器.在同等训练数据量和训练周期下,模型性能高于其他采用传统数据增强方法的深层网络肺结核检测算法,且能标识病灶区域,准度上有不低于放射科阅片医生的表现.  相似文献   

17.
王栋  王海荣  车淼  孙崇 《广西科学》2023,30(1):79-88
问答系统作为信息检索的一种高级形式,已成为人工智能和自然语言处理领域中一个备受关注的研究方向。本文聚焦于知识图谱问答(Knowledge Graph Question Answering, KGQA)研究中的关系检测,针对现有方法中未能较好兼顾全局语义和局部语义信息,以及复杂问题准确率不高的问题,提出了一种结合问题-关系注意力和特征视图匹配的关系检测方法。该方法从问题和知识库中提取多粒度的特征,将提取特征构造成特征对视图作为关系检测模型的输入,视图内部利用双边多视角匹配(Bilateral Multi-Perspective Matching, BiMPM)进行比较匹配,得出关系预测结果。为验证本文提出的方法,在SimpleQuestions、WebQSP数据集上,与6种主流基线方法进行对比实验,本方法的准确率分别提升3.42个和0.45个百分点。  相似文献   

18.
基于卷积神经网络, 提出一种基于改进卷积神经网络的短文本分类模型. 首先, 采用不同编码方式将短文本映射到不同空间下的分布式表示, 提取不同粒度的数字特征作为短文本分类模型的多通道输入, 并根据标准知识库提取概念特征作为先验知识, 提高短文本的语义表征能力; 其次, 在全连接层增加自编码学习策略, 在近似恒等的基础上进一步组合数字特征, 模拟数据内部的关联性; 最后, 利用相对熵原理为模型增加稀疏性限制, 降低模型复杂度的同时提高模型的泛化能力. 通过对开源数据集进行短文本分类实验, 验证了模型的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号