首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
提出了一种基于特征融合的问句匹配框架来解决问句相似度检测方法,利用答案特征、词序特征、统计特征和语义特征相结合来解决问句相似度计算问题.在Yahoo!Answers上抽取的真实标注数据集上进行实验,实验结果表明:该方法在性能上得到了较好的结果.  相似文献   

2.
视觉问答作为多模态任务,需要深度理解图像和文本问题从而推理出答案。然而在许多情况下,仅在图像和问题上进行简单推理难以得到正确的答案,事实上还有其他有效的信息如图像描述、外部知识等可以被利用。该文提出了利用图像描述和外部知识增强表示的视觉问答模型。该模型以问题为导向,基于协同注意力机制分别在图像和其描述上进行编码,并且利用知识图谱嵌入,将外部知识编码到模型当中,丰富了模型的特征表示,增强了模型的推理能力。在OKVQA数据集上的实验结果表明,该方法相比基线方法有1.71%的准确率提升,与已有的主流模型相比也有1.88%的准确率提升,证明了该方法的有效性。  相似文献   

3.
单词级别的浅层卷积神经网络(CNN)模型在文本分类任务上取得了良好的表现.然而,浅层CNN模型由于无法捕捉长距离依赖关系,影响了模型在文本分类任务上的效果.简单地加深模型层数并不能提升模型的效果.本文提出一种新的单词级别的文本分类模型Word-CNN-Att,该模型使用CNN捕捉局部特征和位置信息,利用自注意力机制捕捉长距离依赖.在AGNews、DBPedia、Yelp Review Polarity、Yelp Review Full、Yahoo! Answers等5个公开的数据集上,Word-CNN-Att比单词级别的浅层CNN模型的准确率分别提高了0.9%、0.2%、0.5%、2.1%、2.0%.  相似文献   

4.
尽管将BERT运用在Ad-hoc文档检索领域能够提升任务精确度,但也存在两个显著缺陷:第一,由于BERT存在输入限制,对长文档进行截断会导致文档信息丢失;第二,Ad-hoc文档检索任务的数据集中存在相当数量的领域特定词,而BERT不能较好地学习这些特定词的特征.而利用LDA主题模型不存在输入限制,可以表示完整的语义信息的优点,将其引入联合增强模型,且对文档中的领域特定词及语义内涵进行学习表征,弥补了BERT模型的不足.为此提出RWT-BERT联合增强模型通过对BERT和LDA主题模型的表征构建交互网络,对查询语句和长文档进行更深层次的特征挖掘.实验结果表明:该模型在3个数据集的主要指标上都有不同程度的提升,尤其在Core17数据集上,与目前效果最好的句子级Ad-hoc文档检索模型Birch相比,nDCG@20指标提高了4.01%.  相似文献   

5.
问题回答(Question Answering,简称QA)系统是当前检索等领域的研究热点之一,其目标是回答用户用自然语言提出的简单问题.文中给出了一个基于Web的中文QA原型系统--AskTheWeb的设计与实现机制.AskTheWeb利用搜索引擎获取相关网页,而后基于综合词频统计和概念的评分模型从这些网页中提取答案.文中给出的评测数据,验证了使用数据密集的思想实现基于Web的中文QA系统的可行性,而概念匹配技术对答案精度的提高有促进作用.  相似文献   

6.
针对当前自动问答数据增强方法需要大量外部数据的问题,提出一个面向问答模型缺陷的数据增强方法.首先,在训练集上训练好问答模型、问题生成模型以及问答匹配模型;然后,获取问答模型在训练集上预测的所有答案,并选取其中预测错误的答案;再后,使用问题生成模型对这些答案生成相应问题;最后,通过问答匹配模型对生成的问答对进行过滤,保留...  相似文献   

7.
在因特网(Internet)上基于关键词利用谷歌(Google)、百度(Baidu)等搜索引擎检索所需信息有它的局限性,还远不能满足在海量视像中快速检索所需资料的要求.因此视像检索就成为目前国内外信息检索领域的一个热点研究课题.本文通过从视像中提取的颜色、纹理等图像底层特征进行视像概念检测,并采用NIST为TRECVID评估提供的数据对本系统的性能进行了评测,结果表明,采用颜色和纹理相结合的办法可以有效地提高系统的检索效率.  相似文献   

8.
为了更加精准地预测二手房价格,该文以2019年深圳市二手房的真实交易数据为研究对象,利用线性回归模型、随机森林模型和XGBoost模型并加以POI计算来预测二手房价格.首先,对数据集进行清洗并可视化展示.其次,运用百度地图进行POI处理扩充数据集,使得数据集接近现实情况.接着,按照数据特征对房价影响的重要程度进行了排序,选取重要的特征来训练模型.最后,通过数值结果分析,XGBoost模型对二手房的房价评估效果最好,尤其是经过POI处理的数据集和XGBoost模型的这种组合,对于深圳市的二手房价格具有极好的预测效果.  相似文献   

9.
基于FAQ(Frequent Asked Questions)问答技术构建智能客服系统,是当前业界普遍采用的技术方案.基于FAQ构建的问答系统,其返回的结果具有稳定、可靠、质量高的优点;但因受限于人工标注的知识库规模,识别能力有限,容易遇到瓶颈.为了解决FAQ数据集规模有限的问题,给出了数据层面和模型层面的解决方法:在数据层面,利用百度知道爬取相关数据并挖掘语义等价问题,保证了数据的相关性和一致性;在模型层面,提出了一种面向迁移学习的深度神经网络transAT,该模型融合了Transformer强大的特征抽取能力和注意力机制,适用于句子对之间的语义相似度计算.实验表明,该方法可以显著提升模型在FAQ问答任务中的效果,在一定程度上解决了FAQ数据集规模有限的问题.  相似文献   

10.
针对当前机器阅读理解方法中仅将问题与段落匹配会导致段落中的信息丢失或将问题和答案连接成单个序列与段落匹配会丢失问题与答案之间的交互,和传统的循环网络顺序解析文本从而忽略段落内部推理的问题,提出一种改进段落编码并且将段落与问题和答案共同匹配的模型.模型首先把段落在多个粒度下切分为块,编码器利用神经词袋表达将块内词嵌入向量求和,其次,将块序列通过前向全连接神经网络扩展到原始序列长度.然后,通过两层前向神经网络建模每个单词所在不同粒度的块之间的关系构造门控函数以使模型具有更大的上下文信息同时捕获段落内部推理.最后,通过注意力机制将段落表示与问题和答案的交互来选择答案.在SemEval-2018 Task 11任务上的实验结果表明,本文模型在正确率上超过了相比基线神经网络模型如Stanford AR和GA Reader提高了9%~10%,比最近的模型SurfaceLR至少提高了3%,超过TriAN的单模型1%左右.除此之外,在RACE数据集上的预训练也可以提高模型效果.  相似文献   

11.
随着多媒体技术的迅速发展,图像资源的管理和检索日益成为研究热点,目前的图像检索技术因忽略了情感因素而显得力不从心.通过对自然语言分词,应用OCC情感模型,实现了使用自然语言对图像库进行情感语义检索.以百度图片频道下载的800张自然风景图像数据建立图像库并进行测试,实验结果表明取得了良好的检索效果,可为更多类型的图像情感语义检索打好基础,具有一定的实用价值.  相似文献   

12.
针对经典的文本匹配模型在问答系统中应用的缺陷和不足,提出了一种基于增强问题重要性表示网络BIWN的答案选择算法.目前,现有的答案选择模型普遍将问题句子和答案句子直接进行匹配,忽略了问题句子和答案句子中的噪声词对匹配的影响.针对这个问题,首先,利用自注意力机制修改问题句子中各个词的权重,生成“干净”的问题句子向量;然后,利用词级交互矩阵捕捉问题句子和答案句子之间的细粒度语义信息,从而有效地弱化了噪声词对正确答案的影响;最后,利用多窗口CNN提取特征信息得到预测结果.基准数据集上的对比实验表明,BIWN模型在答案选择任务的性能优于主流的答案选择算法,MAP值和MRR值提升了约0.7%~6.1%.  相似文献   

13.
基于自建模糊本体的智能信息检索研究   总被引:1,自引:0,他引:1  
提出一种基于本体的信息检索模型,该模型将信息检索系统与从搜索的数据信息自动构建的本体相结合.使用在本模型中的本体有一般语义本体、领域知识和自动生成、构建的模糊概念层.主要研究基于本体的信息检索模型.描述处理过程及检索机制,并采用TREC的评价方法评估该模型,讨论应用不同类型本体的检索效果和影响.实验结果表明,提出的信息检索模型具有较好的检索效果.  相似文献   

14.
深度学习技术逐渐成为解决图像检索和图像分类问题的主流技术,然而现有算法不能有效地处理遥感图像中的复杂空间关系以及多尺度特征问题.为有效解决遥感图像检索问题,提出了一种综合考虑空间关系与尺度特征的新方法.首先,用深度学习方法检测过的遥感图像抽象为点集;其次,构造Delaunay三角网以描述全局空间关系特征;最后,在空间特征相同的部分中使用模糊性状模型匹配局部空间特征.该模型有效地规避了因尺度不同而产生的视觉差异.在UC Merced Land-Use和RS19等公开数据集上进行实验,结果表明,该算法在多尺度遥感图像检索精度方面的表现优于其他相关方法.  相似文献   

15.
抽取式阅读理解是自然语言处理的重要任务,需要机器在阅读理解自然语言文本的基础上,从中抽取给定问题的答案(输入文本中的片段),并在问题不可回答时拒绝回答.这种不可回答情况的存在使机器阅读理解更具有挑战性,特别是在输入文本含有似是而非文本片段时,现有模型很容易将这样的片段混淆为问题答案,进而错误判断问题的可回答性.为了进一步提高抽取式机器阅读理解模型的效果,本文将SQuAD 2.0数据集中的似是而非答案看成对抗样本,将其既作为答案文本片段抽取的正例,也作为问题可回答性的负例,在现有模型答案交叉熵损失的基础上增加排序损失.在SQuAD 2.0上进行的实验表明,本文方法可以提高现有模型的阅读理解能力,明显提升可回答性判断及答案文本片段抽取的效果.  相似文献   

16.
基于先验知识的三维模型特征选择算法   总被引:1,自引:0,他引:1  
基于内容的三维模型检索被广泛运用于许多研究领域.为了弥补特征提取算法描述模型特征的不足,提高三维模型的检索效果,该文提出了一种基于先验知识的三维模型特征向量动态选择算法.该算法利用查询模型计算各种特征向量的先验知识,然后动态地选择描述能力较强的特征向量计算模型之间的相似度距离.实验采用标准的模型库Princeton shape benchmark(PSB)和多种公认的评价方法,结果显示该算法提高了三维模型的检索效果,优于现有的2种流行的三维模型特征选择算法.  相似文献   

17.
针对控制回路中同时存在控制阀摩擦和保护阀切换作用的非线性问题,提出了基于阈值含输入非线性自回归(TNARX)模型的控制性能基准估计方法.将系统的输入输出测量数据根据阈值划分后,在不同的局部数据空间上建立NARX模型,这些局部模型的组合用来描述整个非线性系统.利用合并方差准则组合这些局部模型的预测误差方差,从而估计出整个非线性系统的控制性能基准.通过与多项式自回归(PAR)模型、含输入的多项式自回归(PARX)模型和自激励阈值自回归(SETAR)模型的比较,表明TNARX模型可以得到较好的估计结果.仿真分析验证了该方法的有效性.  相似文献   

18.
百度搜索引擎是一项方便快捷的检索方法,利用百度检索可以在Internet中检索任何需要的信息资料,这种方法具有细致入微的人性化,可以准确地、快速的检索到需要的信息资源。百度搜索引擎功能十分强大,目前它是网络信息资源丰富的一种搜索引擎。在百度搜索目录中收录的网址有10亿多个,网页已超过80多亿,目前可以支持30多种形式的语言检索,包括中文简体和中文繁体。网络中的许多权威机构都将其评为最佳搜索引擎。百度搜索打破了传统网络分类概念,以Open Directory Project为基础,采用独树一帜的网页级别(PageRank)新技术,依据互联网本身的链…  相似文献   

19.
准确挖掘网页中的信息对检索系统非常重要.提出了一种基于模板的网页信息抽取方法进行网页信息抽取.该方法采用网页抓取与数据模板技术实现了网页信息的自动发现与抽取.在Yahoo网站上的实验结果表明,该方法具有较好的检索效果.  相似文献   

20.
实体解析致力于识别多条记录是否描述真实世界相同实体,这是数据清洗和数据集成中的关键问题.近年来,基于深度学习的实体解析广受欢迎,它们需要大量标注数据才能达到较优的效果.然而,在现实场景中,大量高质量标注数据不容易获得.本文提出了一个基于深度迁移学习的实体解析模型,通过域分离网络提取源域和目标域的公共特征,并利用公共特征得到实体解析结果,从而实现从源域到目标域的迁移.实验结果表明,在多个数据集上,本文提出的方法比之前最好的方法在F1度量上最大提高了40%左右.实验证明本文的方法具有更好的表现,并且训练时间更短.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号