首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在汉语问答系统中,当用自然语言问句进行文档检索时,由于问句比查询词包含更多的语义信息,因此必须进行查询词扩展以提高信息检索的性能.通过分析已有的查询扩展方法,提出了基于集合论的查询扩展新方法.它结合了3种传统的查询扩展方法:语义词典法、自动相关反馈法和问题类型词.实验结果表明该方法在Web检索方面是有效并且优于传统的方法.  相似文献   

2.
针对在密集分析型查询请求和海量数据的应用场景下传统关系型数据库MySQL性能不佳问题,提出了基于窗口函数(Window Function)的分析型查询优化方法,以分区(Partitioning)方法代替传统的分组(Group by)操作,并提出了基于分布式集群(SQL-on-Hadoop:SparkSQL)计算引擎的海量数据查询优化方法,采用内存列存储优化技术和Spark分布式集群计算以提高查询性能.同时,以典型的分析型SQL查询实例验证了其有效性.结果表明,所提出的查询优化方法能够显著提高查询性能.与传统的关系型数据库MySQL相比,基于SparkSQL的查询优化方法的查询速度大幅提高,从而验证了其用于可视化学术搜索系统AceMap数据查询的正确性.  相似文献   

3.
针对传统查询词临近性(QTP)分析方法无法有效提高查准率的问题,提出了一种孤立项过滤的信息检索查询词分析方法.该方法根据词汇相似度较高的查询词对之间具有强可替代性这一事实,从查询词及其实例中分解出查询内的孤立项和文档内的孤立项,在分析查询词临近性之前预先进行孤立项过滤,使之不参与QTP统计量的计算,由此减小了过分强调临近性对查准率的影响.实验结果表明,对于词汇相似度差异比较显著的查询,进行孤立项过滤的查询词临近性分析方法的平均检索精确度比传统分析方法提高14%.  相似文献   

4.
针对基于关键词匹配的搜索引擎存在的问题,提出一种基于语义词典的局部查询扩展方法,首先利用共现分析法和语义相似度选取扩展词,再对原始查询词和扩展词加权,最后计算文档相似度从而获得排序后的扩展查询结果.该方法克服了其它局部扩展方法将大量无关词加入查询的问题.实验表明,该方法有效地提高了查询结果的查准率.  相似文献   

5.
基于用户查询日志的命名实体挖掘的目标是从用户查询日志中挖掘一组具有指定类别的命名实体。为解决已有用户查询日志实体挖掘研究工作中的种子实体不充分的问题,提出了一种基于二部图的半监督排序方法,利用实体之间的关系(实体共享查询模板)来改善实体排序效果。该方法首先基于候选实体和查询模板构建一个二部图,然后基于二部图将种子实体的类别相关性传播到其他候选实体,最后按照类别相关性得分对候选实体进行排序,并进一步给出方法中迭代过程的等价优化框架。实验结果表明本文提出的方法优于基准方法,具有较好的挖掘效果。  相似文献   

6.
区别于传统的信息检索,地理信息检索通过一个查询范围词来限制用户的兴趣区域.目前的技术一般是把该查询范围词作为一个过滤器,将在该范围之外的文档排除在查询结果外.但是,词在地理空间的频率分布并不是均匀的,因此词在排序结果中的重要性应该随着查询范围的变化而有所改变.为此,提出了一种新的基于语言模型的地理信息查询模型,把查询范围引入到传统的语言模型中.在该模型中,引入了一个local model来描述查询词的地理分布特性.实验结果表明,新的检索模型优于TF-IDF与传统的语言模型.  相似文献   

7.
基于用户兴趣及术语间关系的查询扩展方法   总被引:1,自引:0,他引:1  
针对传统查询扩展方法无法根据不同用户的需求进行检索的不足,提出一种基于用户兴趣和术语间关系进行查询扩展的方法。通过对用户浏览的网页文档及得到的网页日志进行挖掘得到一系列代表用户兴趣的术语,根据与初始查询词存在同义关系的用户兴趣术语及其权重对初始查询词权重进行调整,利用兴趣术语中与初始查询词存在本体关联关系的术语对初始查询进行扩展。实验结果表明,该方法相对于传统查询扩展方法在一定程度上提高了信息检索的查全率和查准率。  相似文献   

8.
在新闻推荐场景下,传统的基于文本特征的新闻推荐模型只考虑了词的共现关系,无法捕获词语的隐含词义和关联知识;而基于深度学习的推荐模型在融合知识图谱信息中仅仅考虑实体的信息,忽略了远距离实体之间的联系,造成实体之间的关联信息和深层次语义联系的缺失.针对该问题提出了一种基于知识增强的深度新闻推荐网络(deep knowledge-enhanced network,DKEN),利用长短期记忆网络提取知识图谱中的实体路径特征,补充到注意力网络中,然后针对不同的候选新闻动态地构建用户的特征.实验表明该实体路径信息能提高模型的效果,在F1指标上提升大约1%.   相似文献   

9.
问题的提出 现代俄语中的主从复合句有带连接词(或关联词)的和不带连接词的。在带有连接词(或关联词)的主从复合句中的连接词和关联词有很大的意义,正如Г.П乌汉诺夫副教授所说:“在复合句的组机中,连接词和联系用语(即我们这里所指的关联词——引者)起着很重要的作用。”(注一)  相似文献   

10.
改进规则的可放缩矢量图形地图的查询模型   总被引:1,自引:1,他引:0  
分析了基于SVG(可放缩矢量图形)格式时态GIS(地理信息系统)领域,尤其是地理元素查询方面的研究现状,针对现有的XML(可扩展标记语言)查询方法进行了分析和对比.在基于SVG语法规则改进研究的基础上,并结合LISAⅡ(layered intersection scan algorithmⅡ,分层交叉扫描算法Ⅱ)查询技术,提出了一种适合改进规则的SVG格式的GIS数据地理元素查询模型及其算法,通过定义关键字查询语法规则表达式,定义关键字查询的""和"or"操作规则,实现了组合查询;通过定义实体元素节点,减少了节点数,提高了查询效率.该模型实现了SVG格式地图的地理元素查询,包括对整幅地图的各种组合查询和分图层的各种组合查询,解决了基于SVG格式地图元素查询的技术瓶颈.大量的数据验证表明,该查询模型是有效的.  相似文献   

11.
汉越跨境民族文本检索是一类面向领域的跨语言检索任务,旨在以一种语言作为问题查询,检索出另一种语言对应的民族、宗教、文化习俗等跨境民族文档.但在汉越跨境民族文本检索任务中存在大量不常见的领域实体,实体表达形式多样,且中文和越南语两种语言领域实体没有直接对应关系,导致跨语言领域词对齐和语义对齐困难,进而影响汉越跨境民族文本检索模型性能.基于此,提出一种基于领域知识图谱和对比学习的汉越跨境民族文本检索方法 .首先,利用多头注意力机制将汉越跨境民族领域知识图谱融入查询和文档,丰富查询和文档中不常见的跨境民族领域实体信息;然后,引入对比学习来解决跨语言查询和文档的语义表征对齐困难问题;最后,将融入知识图谱的查询和文档表征之间的相似度计算作为相关性分数.实验表明,提出的方法和基线模型相比,性能提高了4.1%.  相似文献   

12.
将知识库增量引文推荐(cumulative citation recommendation, CCR)任务分解为3个基本的关键问题:针对知识库某一实体名的查询扩展;针对文档和实体的特征提取;基于线性和非线性相结合的分类模型。提出了基于语义词典(DBpedia)与词向量(word embedding)相结合的方法进行查询扩展,以及利用LDA和ESA两种算法对文档进行特征提取,最终通过线性逻辑回归与非线性随机森林相融合的分类算法实现CCR算法。与基线系统相比,该方法在TREC KBA2014评测数据上的试验结果的F1平均提升了14.7%,表明本文设计的方法能够较好地解决引文推荐问题。  相似文献   

13.
一种编辑距离算法及其在网页搜索中的应用   总被引:1,自引:0,他引:1  
针对传统方法不能很好地处理网页中简短域与用户查询之间的相关性排序问题,提出一种基于改进的编辑距离排序算法.将以词为单位的用户查询和简短网页域通过匹配编码转化为2个字符串,再利用改进的编辑距离计算2个字符串之间的相似性.由于在用户查询与待比较的简短网页域之间引入了查询词分布的位置、顺序和距离等,以及含有查询词修饰关系的重要信息,所以编码字符串之间的相似程度可以衡量对应的查询与简短网页域之间的相关性.经大规模真实搜索引擎实验表明,该算法较之传统的相关性排序算法,可以显著地提高网页搜索中的简短网页域相关性排序性能,尤其适用于简短域与用户查询之间的相关性比较.  相似文献   

14.
传统的基于关键词匹配的查询方法因查询词短少,微博博文短小,容易引起歧义性,对查询效率有较大影响.提出一种基于本体和局部查询反馈的微博查询扩展算法,首先结合安全领域文档构建安全领域本体知识库,然后利用本体提供的语义知识对初始查询词进行扩展,再结合局部查询反馈对候选扩展词集进行筛选,最后通过二次查询和迭代操作得到最终查询结果.实验结果表明,基于本体和局部查询反馈的微博查询扩展算法比基于关键词的查询扩展算法、基于本体的查询扩展算法和基于"伪相关反馈"的查询扩展算法有更好的查全率和查准率.  相似文献   

15.
基于后验概率词格的汉语自然对话语音索引   总被引:1,自引:0,他引:1  
语音索引是语音检索任务的关键问题之一.该文针对汉语自然对话语音索引问题,提出了基于子词的词格索引和融合方法.采用后验概率形式表示的词格取代最优路径进行索引.根据后验概率词格特性,将LVCSR识别得到的基于词的词格分解为基于子词的词格;在汉语自然对话语音关键词检测任务上,采用字、有调音节和无调音节作为子词单元,关键词检测指标品质因数相对基线系统分别提高了3.9%、4.4%和7.4%.根据后验概率词格节点之间、边之间可合并的特性,在词格内部进行合并,并对不同识别器结果词格进行融合,品质因数指标由基线系统的68.3%(用LVSCR得到的)和66.9%(用音节识别器得到的)提高到78.8%.  相似文献   

16.
在中文文本信息中,同一个语义往往有多种不同的表达方法,不同的个体对同一个词语理解也会有一定的偏差,这将导致在信息检索时,出现查询项与检索数据"词不匹配"的问题.虽然,模糊检索是改善这一问题的有效方法之一,但仅仅利用已知信息进行模糊检索,已不能满足充斥着大规模无标定文本信息的网络时代的检索需要.提出一个基于词向量的模糊检索查询扩展方法,通过词向量计算查询项的相似词,进而进行查询项扩展.相比与传统的模糊检索方法,在同一测试集中,基于词向量的模糊查询扩展方法测评出的查全率、查准率以及两者的调和平均数均得到了有效提升.  相似文献   

17.
当搜索日志存在查询词稀疏性和时效性问题时,基于搜索日志的查询扩展方法无法保证查询扩展的质量,无法满足具有时效性查询请求的需求.提出了基于搜索日志与局部上下文的查询扩展方法,通过发掘搜索日志中用户查询词和相关文档的关联关系,抽取查询扩展词,并用局部上下文从相关文档集中提取出频率较大,同时具有时效性的查询扩展词.通过对查询扩展词的查询性能和时效性的计算,该方法为原始查询补充更高质量的查询扩展词.实验结果表明,该方法能够有效地提升准确率和召回率,使原始查询获得更好的查询性能.  相似文献   

18.
传统的查询扩展技术大都依据单个查询词的相关性来扩展查询词,忽略了查询词之间的相关性以及查询扩展词的不同重要程度,使得扩展效果不佳。针对此问题,提出了一种基于PageRank算法的查询扩展模型,该模型在Markov网络检索模型的基础上,从查询本身出发,将所有与查询相关的词组成Markov查询关联子网,在此子网上应用PageRank算法来计算候选扩展词的权重,由权重序来确定扩展词的选取,排名前列的扩展词进入检索阶段,消除噪音,提高检索效率。在标准数据集上的实验结果表明,本文提出的模型能有效地改善检索效果。  相似文献   

19.
传统中医本草文献含有丰富的中医知识,是中医理论研究的重要载体.为了更好地挖掘中医本草知识,精准地实现中医本草文献命名实体识别任务,提出了一种基于特征增强的Bert-BiGRU-CRF中医本草命名实体识别模型,使用特征融合器拼接Bert生成的词向量与实体特征作为输入,以双向门控循环单元(bi-directional gated recurrent unit, BiGRU)为特征提取器,以条件随机场(conditional random fields, CRF)进行标签预测,通过特征增强的方法更好地识别中医本草的药名、药性、药味、归经等实体及其边界信息,完成中医本草命名实体任务.在中医本草数据集上的实验结果表明,融入特征的模型F1值达到了90.54%,证明了所提出的方法可以更好地提高中医本草命名实体识别精度.  相似文献   

20.
针对多数据源的融合应用,构建了基于多数据源的知识图谱.首先,对不同领域内的数据源构建相应本体库,并将不同本体库通过数据融合映射到全局本体库;然后,利用实体对齐和实体链接方法进行知识获取和融合;最后,搭建知识图谱应用平台,提供查询和统计等操作.在实体对齐方面,利用传统的基于相似性传播实体对齐方法,获得良好的实体对齐效果;在实体链接方面,提出了基于约束嵌入转换的预测推理方法,实验结果表明,在预测准确率上取得较好的结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号