首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
对于终身主题模型而言,先验知识的正确性对后续的建模任务起到了至关重要的作用.因此,提出了一种基于语义相似度改进的少样本终身主题模型SS-AMC(Semantic Similarity-AMC),利用BERT获取共现词对的词向量,计算其语义相似度,通过设置相似度阈值进而优化知识库中的先验知识,以提升少样本终身主题模型的性能.在中英文数据集上的实验结果表明,SS-AMC模型的主题一致性较基线模型有了明显的提升.  相似文献   

2.
基于主题注意力层次记忆网络的文档情感建模   总被引:2,自引:0,他引:2  
针对文档水平情感分析传统模型存在先验知识依赖以及语义理解不足问题,提出一种基于注意力机制与层次网络特征表示的情感分析模型TWE-ANN.采用基于CBOW方式的word2vec模型针对语料训练词向量,减小词向量间的稀疏度,使用基于Gibbs采样的LDA算法计算出文档主题分布矩阵,继而通过层次LSTM神经网络获取更为完整的文本上下文信息从而提取出深度情感特征,将文档主题分布矩阵作为模型注意力机制提取文档特征,从而实现情感分类.实验结果表明:提出的TWE-ANN模型较TSA、HAN模型分类效果较好,在Yelp2015、IMDB、Amazon数据集上的F值分别提升了1.1%、0.3%、1.8%,在Yelp2015和Amazon数据集上的RMSE值分别提升了1.3%、2.1%.  相似文献   

3.
LDA可以实现大量数据集合中潜在主题的挖掘与文本信息的分类,模型假设,如果文档与某主题相关,那么文档中的所有单词都与该主题相关.然而,在面对实际环境中大规模的数据,这会导致主题范围的扩大,不能对主题单词的潜在语义进行准确定位,限制了模型的鲁棒性和有效性.本文针对LDA的这一弊端提出了新的文档主题分类算法gLDA,该模型通过增加主题类别分布参数确定主题的产生范围,提高分类的准确性.Reuters-21578数据集与复旦大学文本语料库中的数据结果证明,相对于传统的主题分类模型,该模型的分类效果得到了一定程度的提高.  相似文献   

4.
目前对于机器阅读理解的研究大多都使用预先训练的语言模型如BERT来编码文档和问题的联合上下文信息,相较于传统的RNN结构,BERT模型在机器阅读理解领域取得了显著的性能改进.但是当前基于BERT的机器阅读理解模型由于输入长度有限(最大长度为512),在进行特征提取时,存在一定程度的语义丢失,且不具备建立长距离依赖能力.为了解决这个问题,提出了一种基于BERT-Base的长本文机器阅读理解模型BERT-FRM.通过添加重叠窗口层以更灵活的方式切割输入文本,使用两个BERT模型独立编码问题和文档,并且在模型中添加递归层来传递不同片段之间的信息,赋予模型建立更长期依赖的能力.实验结果表明,BERT-FRM模型与BERT-Base基线模型相比,在TriviaQA和CoQA两个机器阅读理解数据集上的F1值分别提升了3.1%和0.8%.  相似文献   

5.
近年来,基于深层语义信息表征的pointwise重排序策略存在忽略被检索文档之间的偏序关系的问题,并且,患者病例查询的内容表征也需要满足生物医学领域的特定需求。针对以上问题,本文提出了一种基于生物医学预训练语言模型(BioBERT)的偏序文档检索方法,该方法基于BM25召回文档,对待排序文档依次使用pointwise与pairwise提取特征,其中,pointwise方法能够获取待排序文档的全局位置特征,而引入查询特征的pairwise方法可以学习待排序文档之间的相对偏序关系。在TREC 2019 Precision Medicine Track数据集上的实验表明,该方法在p@10指标中,相比于最优的基准方法提升了3.3%。  相似文献   

6.
电网设备缺陷部位识别是设备故障分析的关键环节。该文提出一种基于预训练语言模型双向Transformers偏码表示(Bidirectional encoder representation from transformers,BERT)的电网设备缺陷文本分类方法。基于BERT预训练语言模型对电网设备缺陷部位文本进行预训练生成具有上下文特征的词嵌入(Word embedding)向量作为模型输入,然后,利用双向长短时记忆(Bi-directional long short-term memory)网络对输入的电网设备缺陷文本向量进行双向编码提取表征缺陷文本的语义表征,并通过注意力机制增强电网设备缺陷文本中与缺陷部位相关的领域词汇的语义特征权重,进而得到有助于电网设备缺陷部位分类的语义特征向量。通过模型的归一化层实现电网设备缺陷部位文本分类。在主变压器、SF6真空断路器这两种设备缺陷文本数据集上实验结果表明,提出的方法比基于BiLSTM-Attention模型的F_1值分别提升了2.77%和2.95%。  相似文献   

7.
为能在搜索引擎返回的结果集上构建贴近用户意图的主题层,并在文档词与主题间建立映射,将社会化标注引入经典的LDA模型,构建一种基于主题-标签-文档词之间关系的三层主题模型,并将其用于伪相关反馈查询扩展词的选取.实验结果表明,该模型提取的查询扩展词能描述标签的语义,模型用于伪相关反馈后,提取的扩展词能覆盖查询条件,在多数情况下结果列表的NDCG值高于基本伪相关反馈和结果集聚类方法.  相似文献   

8.
针对传统语言模型不能解决深层双向表征和分类模型不能充分捕获文本显著特征的问题,提出了一种基于BERT-BiGRU-CNN(Bidirectional Encoder Representation from Transformers-Bidirectional Gating Recurrent Unit-Convolutional Neural Networks)的文本分类模型。首先,该模型使用BERT预训练语言模型进行文本表示;其次,将BERT的输出数据输入BiGRU中,以捕获文本的全局语义信息;然后,将BiGRU层的结果输入CNN中,捕获文本局部语义特征;最后,将特征向量输入Softmax层得到分类结果。实验采用中文新闻文本标题数据集,结果表明,基于BERT-BiGRU-CNN的文本分类模型在数据集上的F1值达到0.948 5,优于其他基线模型,证明了BERT-BiGRU-CNN模型可提升短文本的分类性能。  相似文献   

9.
为解决当前软件缺陷报告库中经常存在着大量重复缺陷报告被提交的问题,提出了一种基于LDA-BERT的重复缺陷报告检测模型模型.首先,将潜在狄利克雷分配模型(LDA,Latent Dirichlet Allocation)模型输出向量同BERT(Bidirectional Encoder Representations from Transformers)模型输出向量连接成新的模型向量,目的是融合主题模型LDA对于主题识别的优势和BERT模型识别上下文语义优势;然后,为了保证在检测的精度的同时,缩短检测时间,提出了二级特征向量再检测方法,通过二次抽取特征向量,以达到检测的精度与时间上的平衡的问题;最后,将大型开源项目缺陷报告库作为实验数据集,对所提出的模型方法与同类模型进行实验比对,实验结果表明本模型的召回率、精度在实验数据集的TOP-2000等指标上分别达到61.35%、47.34%.与同类模型相比该模型提高的百分比分别是4.3%和5.2%.实验结果表明,与已有的方法相比,提出的模型对于重复缺陷报告检测是有效果的.  相似文献   

10.
基于隐主题马尔科夫模型, 消除LDA主题模型的主题独立假设, 使得文摘生成过程中充分利用文章的结构信息, 并结合基于内容的多特征方法提高文摘质量。提出在不破坏文章结构的前提下, 从单文档扩展到多文档的自动文摘策略, 最终搭建完善的自动文摘系统。在DUC2007标准数据集上的实验证明了隐主题马尔科夫模型和文档特征的优越性, 所实现的自动文摘系统ROUGE值有明显提高。  相似文献   

11.
文本观点检索旨在检索出与查询主题相关并且表达用户对主题观点的文档。由于用户查询时输入通常很短,难以准确表示查询的信息需求。知识图谱是结构化的语义知识库,通过知识图谱中的知识有助于理解用户的信息需求。因此,提出了一种基于知识图谱的文本观点检索方法。首先由知识图谱获取候选查询扩展词,并计算每个候选词扩展词分布、共现频率、邻近关系、文档集频率,然后利用4类特征通过SVM分类得到扩展词,最后利用扩展词对产生式观点检索模型进行扩展,实现对查询的观点检索。实验表明,在微博和推特两个数据集上,与基准工作对比,所提出的方法在MAP、NDCG等评价指标上均有显著的提升。  相似文献   

12.
由于用户查询信息不足而导致传统向量空间模型检索结果不够准确,针对此问题,提出了一种基于文档关系改进的向量空间模型.改进模型将初始检索结果中排名靠前的高相关文档组成基准集,通过计算初始检索结果集中每篇文档与基准集的相似度,来修正原模型中文档与查询的相似度,实现对检索结果的重排序,从而实现对向量空间模型的改进.实验结果表明:与传统向量空间模型相比,改进模型使得相关文档排名更合理,在保证召回率的条件下提高了准确率.  相似文献   

13.
一种基于主题的文档检索模型   总被引:2,自引:1,他引:1  
现有信息检索模型难以从主题层次上准确判别文档相似性,为此,本文提出了一个基于主题的文档检索模型(TDRM).TDRM为所有文档建立公共主题空间,把每个文档表示为主题空间上的一个向量,并用向量夹角余弦定义文档相似度.TDRM模型借助Latent Dirichlet Allocation的主题生成方法估计每个文档的主题分布.实验结果证明,与基于词频统计的向量空间模型相比,TDRM模型在相关文档检索方面有更高的检索精度.  相似文献   

14.
一种改进的LDA主题模型   总被引:2,自引:0,他引:2  
由于文档中的词符合幂律分布,使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量的高频词淹没使得主题表达能力降低.通过一种高斯函数对特征词加权,改进LDA主题模型的主题分布.实验显示加权LDA模型获得的主题间的相关性以及复杂度(Perplexity)值都降低,说明改进模型在主题表达和预测性能方面都有所提高.  相似文献   

15.
在信息检索中,文档表示模型的优劣是影响检索性能的重要因素之一.根据全信息理论,认识论信息是语法信息、语义信息和语用信息的三位一体.当前主流的文档表示模型主要利用语法和语义信息,造成语用信息的缺失,成为改善检索性能的瓶颈.该文提出了一种整合用户查询行为与文档内容的文档表示模型,将用户隐性反馈的语用信息和文档自身的语义、语法信息相结合,动态调整索引库关键词权重,从而提高信息检索的查全率和查准率.  相似文献   

16.
传统三元组抽取任务的方面词与意见词的抽取相互关联,采用流水线(Pipeline)或联合(Joint)模型架构会存在误差传递、错误传播等问题.基于上述问题,本文设计基于位置提示的双通道循环网络(Position-prompt dual-channel recurrent neural network, PDRN)模型解决三元组抽取任务.采用预训练BERT模型生成词向量作为模型输入,通过双通道显示交互方法在多个循环中建立同步机制,作为两元组(方面、意见)抽取及配对,使用基于位置提示的BERT-BiLSTM模型进行情感极性判别.在3个三元组抽取数据集进行实验,F1值相较最好的流水线模型和同类联合模型提高了1%~2%,在ASOTE任务上F1值相较基线最高提升了2.9%.  相似文献   

17.
针对维吾尔语Web文档的有效检索问题,提出一种基于相关反馈和文档相似度的检索词加权方法.首先,对维吾尔语文档进行预处理,获得相应的词干集.然后,当用户输入多个检索词时,执行初始检索,并基于局部相关反馈思想提取出排名靠前的N个文档.接着,利用TF-IDF算法计算检索词与反馈文档之间的词频相似度,通过余弦距离计算文档之间的相似度,并以此对检索词进行两次加权.最后,根据加权后的检索词进行文档检索.实验结果表明:该方法能够准确地检索出用户所需的文档,并将其靠前排序.  相似文献   

18.
提出一种以词片为识别基元的特定位置后验概率网格方法,解决了语音检索中的集外词处理问题,实现开集语音文档检索。通过引入前端查询扩展技术生成多个候选查询以补偿语音识别过程带来的误差及用户输入误差。在检索过程中引入编辑距离权重来实现模糊查询,提高系统的查全率并增强系统鲁棒性。实验表明该方法在集外词处理和系统鲁棒性等方面优于传统方法。  相似文献   

19.
针对现有的融合文本和路径信息的模型未能充分挖掘和利用文本与路径语义的问题,提出了新的知识图谱嵌入学习模型(GETR模型):首先,利用LDA丰富实体描述文本语义并用TWE获取词和主题向量,采用Bi-LSTM模型把词和主题向量编码融入实体向量表示中,以增强结点的语义表达能力;其次,设计了以组合PageRank和余弦相似度算法为策略的随机游走算法,以获取实体间的多步路径,并利用自注意力机制捕获路径的重要语义融入到翻译模型中进行联合训练,从而达到有效过滤路径中的噪声和提高模型效率的目的.最后,在数据集FB15K、FB20K和WN18上,对GETR、Trans E、DKRL、TKGE模型进行知识补全和实体分类任务的评测,结果表明:GETR模型具有更好的性能表现,是一种更加高效的知识表示方法.  相似文献   

20.
一种基于农业领域本体的语义检索模型   总被引:1,自引:0,他引:1  
基于农业领域本体和词汇,给出一个针对农业领域的语义检索改进模型.该模型接受用户自然语言输入,通过计算词语与本体知识之间的相关度和相似度,来实现词汇到知识的映射.针对农业领域本体特点,给出相应的语义扩展规则,把检索结果从本体知识扩展到与之相关的资源文档,并对检索结果进行排序.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号