期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

黄炎孙海丽徐科余晓阳王同洋张新访路松峰《北京大学学报(自然科学版)》2020,56(1):9-15

针对计算机自动生成的文本缺乏主题思想这一问题, 提出一种基于主题约束的篇章级文本自动生成方法。该方法围绕用户输入的主题描述语句提取若干主题词; 然后对主题词进行扩展和主题聚类, 形成文章主题规划; 最后利用每个聚类中的关键词信息约束每个段落的文本生成。该模型从文本主题分布、注意力评分方法和主题覆盖生成3个方面对现有基于注意力机制的循环神经网络文本生成模型进行了改进。在3个真实数据集上分别与Char-RNN, SC-LSTM和MTA-LSTM基准模型进行对比, 并对3个方面的改进进行独立验证。实验结果表明, 所提方法在人工评判和BLEU自动评测上均优于基准模型, 生成的文本能更好地贴合主题。相似文献

2.

基于预警文本信息的调度命令智能生成模型

彭其渊胡雨欣鲁工圆《同济大学学报(自然科学版)》2020,48(9):1328-1335

提出调度命令智能生成模型,该模型由神经网络和调度命令修正模块两部分组成。基于长短时记忆(LSTM)网络构建序列-序列(seq2seq)模型,将预警文本信息作为模型的输入进行训练,提出五种调度命令修正策略并分别对五种易错信息进行修正,最终得到调度命令。结果表明:该模型具有利用预警文本信息生成调度命令的能力,引入的调度命令修正模块能够有效提升调度命令生成质量。相似文献

3.

融合事件信息的复杂问句分析方法

刘小明樊孝忠刘里《华南理工大学学报(自然科学版)》2011,39(7):140-145

问答系统中的复杂问句通常涉及很多事件信息,正确处理其中的事件内容对提高系统准确率有重要的影响.为此,文中提出了一种融合事件信息的复杂问句分析方法.该方法将事件视为由多个要素构成的复杂数据对象,从而定义了事件的语义表征模型,给出了相似度计算方法.文中首先利用相关的事件抽取方法获取复杂问句中的事件信息,生成事件的语义模型实... 相似文献

4.

模板化网页主题信息的提取方法 总被引：37，自引：0，他引：37

欧健文董守斌蔡斌《清华大学学报(自然科学版)》2005,45(9):1743-1747

为了消除网页噪音,有效地提取基于模板的网页主题信息,提出了一种新的信息提取方法.该方法采用机器自动学习方式生成网页集的模板;以网页链接关系中的锚点文本作为提取目标对模板进行标记,生成对应模板的提取规则;依据模板的提取规则对网页主题信息进行提取.对国内2 588个新闻网页进行了检测.实验结果表明,该方法可以快速、有效地提取模板生成的网页集主题信息,准确率达99.5%.将该方法应用于搜索引擎系统(木棉检索)中,与原来的检索系统相比较,索引文件的大小减少约50%,检索的速度和精确度也得到提高. 相似文献

5.

基于认知图谱的智能问答系统推理模型研究

袁满张维罡李明轩《吉林大学学报(信息科学版)》2021,39(5):589-595

目前现有问答系统模型大多数都采用模板匹配的方式进行推理,对问题推理不够充分,因此,提出基于认知图谱的问答系统推理模型.依据专业领域知识作为知识源构建本体;并基于该认知图谱构建了"问题-关系"一对一的认知图谱问答系统模型.最后通过将问答问题划分为简单问题与复杂问题分别对问题进行处理,其中简单问题运用BERT+ CRF(Bidirectional Encoder Representations from Transformers+Conditional Random Field)模型进行模板匹配;针对复杂问题运用Node2vec生成子图后用GCN(Graph Convolutional Network)推理模型进行推理,将得出的答案作为输出结果.最后对所提出的模型通过井下作业领域进行了实验,结果表明认知图谱问答模型优于其他算法模型. 相似文献

6.

面向问答领域的数据增强方法

丁家杰肖康叶恒周夏冰张民《北京大学学报(自然科学版)》2022,58(1):54-60

针对当前自动问答数据增强方法需要大量外部数据的问题,提出一个面向问答模型缺陷的数据增强方法.首先,在训练集上训练好问答模型、问题生成模型以及问答匹配模型;然后,获取问答模型在训练集上预测的所有答案,并选取其中预测错误的答案;再后,使用问题生成模型对这些答案生成相应问题;最后,通过问答匹配模型对生成的问答对进行过滤,保留... 相似文献

7.

结合Transformer模型与深度神经网络的数据到文本生成方法

许晓泓何霆王华珍陈坚《重庆大学学报(自然科学版)》2020,43(7):91-100

数据到文本的生成是指从结构化数据生成连贯文本的一种自然语言处理方法。近年来,由于端到端训练的深度神经网络的应用,数据到文本生成的方法显示出了巨大潜力。该方法能够处理大量数据自动生成连贯性文本,常用于新闻写作、报告生成等场景。然而,已有研究中对于数据中具体数值、时间等数据信息的推理存在较大缺陷,无法充分利用数据间的结构信息给出合理的生成指引,并且生成过程容易出现语义与句法分离训练的问题。因此,文中提出一种结合Transformer模型与深度神经网络的数据到文本生成方法,并提出一个用于内容规划的Transformer Text Planning(TTP)算法,有效地解决上述问题。在Rotowire公开数据集上进行方法验证,实验结果表明,文中方法性能优于已有数据到文本生成模型,可直接应用于结构化数据到连贯性文本的生成任务中,具有一定的实际应用价值。相似文献

8.

基于问句语义表征的中文问句相似度计算方法

陈康樊孝忠刘杰贾可亮《北京理工大学学报》2007,27(12):1073-1076

提出了一种中文问句语义相似度计算的新方法.该方法分为两步:第一步采用基于问句句型模板规则匹配的方法提取问句语义表征;第二步根据问句语义表征计算问句语义相似度.采用该方法开发了一个面向常问问题集(FAQ)的问答系统.实验结果表明,采用该方法获得的相似度计算的准确率约为85%. 相似文献

9.

基于生成对抗网络的类别文本生成

蔡丽坤吴运兵陈甘霖刘翀凌廖祥文《广西师范大学学报(自然科学版)》2022,(4):79-90

类别文本生成旨在让机器生成人类可理解的文本,并且赋予生成文本特定的类别属性。现有工作主要采用基于生成对抗网络的文本生成框架,往往直接采用卷积神经网络进行文本特征提取,缺乏对文本全局语义的关注;此外,简单地在生成网络中引入注意力无法有效消除解码过程中的噪声。针对上述问题,本文提出一种将文本全局特征与局部特征联合建模的方法,通过将长短时记忆网络提取的全局语义信息与卷积神经网络提取的局部语义信息进行融合,增强生成过程中对文本全局语义信息的关注,并且引入双重注意力,进一步过滤掉序列生成中的无关信息。与基准模型相比,本文提出的方法分别在2个公开的真实数据集(Movie Review和Amazon Review)上取得了至少0.01和0.004的BLEU值的提升,表明了本文方法的有效性。相似文献

10.

面向语义关系的生物文本检索算法

李姣黄民烈丁石林余浩朱小燕《中国科学技术大学学报》2006,36(8):906-908

面向语义关系的生物文本检索算法通过从生物文本中自动生成满足一定语义关系的模板，将语义关系提取与文本信息检索技术有机融合，以满足用户对生物语义关系查询的需求．在国际性评测会议TREC Genomics提供的标准数据集上的实验结果表明，该算法可以显著地改善生物文本信息检索的性能（平均检索精度提高15．34N）．相似文献

11.

基于主题和焦点的问句相似度计算方法

曾辉徐海洲钟茂生《科学技术与工程》2014,14(6):213-214

问句相似度计算是基于常问问题库的问答系统的重点。现在的问句相似度计算准确率较低,为此,提出了一种基于主题和焦点的中文问句相似度计算方法。主题和焦点能够反映问句的主旨,识别出问句的主题能够更好地理解问句。其中抽取问句主题和焦点的方法能获取部分语义信息,而且比传统的根据疑问词进行语义分析的方法适用类型更广,同时在计算问句相似度时考虑了主题和焦点的影响。最后通过设计实验与其他方法进行比较,实验表明,该方法提高了准确率。相似文献

12.

基于词语情感倾向的问句相似度计算

田芳《安庆师范学院学报(自然科学版)》2014,(2):33-36

问句相似度计算是FAQ问答系统的核心问题,直接关系到FAQ问答系统的准确率。对义或反义的词语有着很高的词语相似度值,如果直接用于问句相似度计算中,有可能导致相反的两个问句有着很高的相似度,因此,本文提出了一种基于词语情感的问句相似度计算方法,采用了负加权法降低相反的问句成为相似的问句的可能,实验结果验证了该方法有助于提高问句相似度计算的准确度。相似文献

13.

多文档短摘要生成技术研究

张随远薛源海俞晓明刘悦程学旗《广西师范大学学报(自然科学版)》2019,37(2)

自动摘要技术用于将较长篇幅的文章压缩为一段较短的能概括原文中心内容的文本。多文档冗余度高,电子设备所展示的空间有限,成为摘要发展面临的挑战。本文提出融合图卷积特征的句子粗粒度排序方法。首先将句子之间的相似度矩阵视为拓扑关系图,对其进行图卷积计算得到图卷积特征。然后通过排序模型融合图卷积特征以及主流的抽取式多文档摘要技术对句子进行重要度排序,选取排名前四的句子作为摘要。最后提出基于Seq2seq框架的短摘要生成模型:①在Encoder部分采用基于卷积神经网络(CNN)的方法;②引入基于注意力的指针机制,并将主题向量融入其中。实验结果表明,在本文场景下,相较于循环神经网络(RNN),在Encoder部分基于CNN能够更好地进行并行化,在效果基本一致的前提下,显著提升效率。此外,相较于传统的基于抽取和压缩的模型,本文提出的模型在ROUGE指标以及可读性(信息度和流利度)方面均取得了显著的效果提升。相似文献

14.

基于对比学习思想的多跳问题生成

王红斌杨何祯旻王灿宇《吉林大学学报(理学版)》2023,(5):1103-1111

针对获取大规模的多跳问答训练数据集耗时耗力的问题,提出一个基于对比学习思想的多跳问题生成模型.模型分为生成阶段和对比学习打分阶段,生成阶段通过执行推理图生成候选多跳问题,对比学习打分阶段通过一个基于对比学习思想的无参考问题的候选问题打分模型对候选问题进行打分排序,并选择最优的候选问题.该模型在一定程度上缩小了无监督方法与人工标注方法的差距,有效缓解了缺少多跳问答数据集的问题.在数据集HotpotQA上的实验结果表明,基于对比学习的多跳问题生成模型能有效扩充训练数据,极大减少了人工标注数据的成本. 相似文献

15.

融入领域知识的跨境民族文化生成式摘要方法

赵冠博张勇丙毛存礼高盛祥王奉孝《南京大学学报(自然科学版)》2023,(4):620-628

从跨境民族文化文本中生成具有领域知识的摘要对进一步开展跨境民族文化文本检索、问答等任务具有重要的支撑作用，当前基于深度学习的生成式文本摘要取得了较好的效果，但直接用于跨境民族文化文本摘要任务会导致生成的摘要出现领域词汇丢失的问题.为此，提出一种融入领域知识的跨境民族文化生成式摘要方法（Domain Knowledge-Culture-Generative Summary,DKCGS），在编码端将跨境民族文化领域词典编码与原文本编码融合，以此增强模型对领域词汇的表征能力；在解码端，基于指针生成网络将具有同义或跨境关系的领域词汇分布与原文本分布结合，提高模型生成文化领域词汇的准确率.同时，在通用领域文本上进行预训练并进一步初始化参数，以缓解数据稀缺导致模型训练效果不佳的问题.实验结果表明，提出的方法在跨境民族文本摘要数据集上比基线模型的Rouge-1提升了0.95，有效提升了跨境民族文化文本摘要生成的质量. 相似文献

16.

基于序列到序列模型的法律问题关键词抽取

曾道建童国维戴愿李峰韩冰谢松县《清华大学学报(自然科学版)》2019,(4)

传统的关键词抽取算法不能够抽取那些没有在文本当中出现过的关键词,因此在抽取法律问题(短文本)的关键词任务上效果不佳。该文提出了一种基于强化学习的序列到序列(seq2seq)模型来从法律问题中抽取关键词。首先,编码器将给定法律问题文本的语义信息压入一个密集矢量;然后,解码器自动生成关键词。因为在关键词抽取任务中,生成的关键词的前后顺序无关紧要,所以引入强化学习来训练所提出的模型。该模型结合了强化学习在决策上的优势和序列到序列模型在长期记忆方面的优势,在真实数据集上的实验结果表明,该模型在关键词抽取任务上有较好的效果。相似文献

17.

问答社区问句中多字词表达提取

吴瑞红吕学强李卓舒燕《吉林大学学报(理学版)》2014,52(6):1230-1238

基于互动问答社区问句中多字词表达和问句理解的关系,提出针对互动问答社区问句进行多字词表达抽取,并基于互动问答社区问句中多字词表达的特点,提出适用于互动问答社区的多字词表达提取方法.该方法在利用互信息和停用词表的方法从问句中抽取候选多字词表达的基础上,将候选多字词表达分为正确串、残缺串、冗余串和错误串4类,借助搜索引擎对查询串的优化和候选多字词表达在互联网上的检索结果,设计候选多字词表达校正方法,实现对多字词表达的提取.以新浪爱问知识人问题库中的问句进行实验,结果表明,多字词表达抽取的准确率、召回率和F值分别达到84%,52%和0.64,验证了该方法的有效性. 相似文献

18.

银行领域汉语自动问答系统BAQS的研究与实现 总被引：13，自引：2，他引：13

樊孝忠李宏乔李良富叶江《北京理工大学学报》2004,24(6):528-532

介绍BAQS的研究背景和系统框架.探讨基于问点块和语义块识别以及句模匹配分析问句的新方法,并用向量表示整个问句语义.借鉴本体和知网思想,构建银行领域本体库和银行知网.采用预先对金融领域实用文本进行标注,依据问句向量从标注树中提取答案.并针对某银行实现汉语自动问答系统.实验表明该方法可行,对自动问答系统的设计具有借鉴意义和深入研究的价值. 相似文献

19.

基于LDA模型与语义网络对评论文本挖掘研究

王涛李明《重庆工商大学学报(自然科学版)》2019,36(4):9-16

通过主题模型与语义网络对旅游电商中的评论文本进行挖掘,从而引导消费者与商家对评论信息作出重要决策;提出一种基于LDA(Latent Dirichlet Allocation,LDA)主题聚类与语义网络模型(LDA topic clustering and semantic network model,LTC-SNM)的方法对酒店在线评论文本进行研究;获取在线评论文本进行数据预处理,使用Word2vec生成词向量,利用机器学习算法对评论文本进行情感分类;通过LDA主题模型对分类后的文本进行聚类,生成酒店的特征主题词;通过ROSTCM将特征主题词与所修饰的情感词生成语义网络,缓解了挖掘文本信息的复杂性;实验结果表明:提出的LTC-SNM文本挖掘方法使得在线用户评价的主题更具表达性。相似文献

20.

基于历史文化知识图谱的问答模型研究

陈赛飞扬殷锋李泽宇王小雪《西南民族大学学报(自然科学版)》2023,(6):679-685

利用知识图谱技术整合历史文化资源,对历史文化的传承和保护具有现实意义.针对现存历史文化领域问答系统构建中存在用户问句识别精准度不高、深层语义匹配不准确的问题,提出了一种知识嵌入的语言表示模型(K-ERNIE-LSTM).该模型先通过构建历史文化领域知识图谱,将其中三元组作为领域知识注入到句子中;而后利用ERNIE预训练模型获取文本的语义信息,再用LSTM提取文本特征;最后使用softmax函数获得最终的标签分类结果.实验结果表明,该模型在文化领域数据集上具有80.20%的准确率、82.68%的召回率和81.42%的F1得分,性能较其他方法得到明显提升. 相似文献