首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
对缅甸文字进行文本挖掘,提出一种新的缅甸文字单字分割算法和词干提取算法.在向量空间模型下,使用Okapi相似度评测方法,评测缅甸文字文档与查询关键字之间的相关性,实现一个基于以上算法的缅甸文字文献检索系统.实验结果证明:所提出来的算法能够快速、有效地挖掘Web上的Html文档.  相似文献   

2.
提出了基于查询过程的动态计算数据源和查询关键词相似度的算法.当用户查询时,从数据源中选择子集进行查询,然后计算结果网页与查询关键词的相似度,按加权均值法调整该数据源的相似度,随着系统的运行,数据源与关键词的相似度不断被动态调整以反映数据源的实际情况,从而为数据源选择做出判断依据.  相似文献   

3.
针对搜索引擎领域存在的因查询条件模糊而严重影响信息检索性能的问题,提出了一种混合语义相似度优化模糊查询算法。首先,根据相似度计算概念提出了与其接近的新概念提取方法;然后,利用TF-IQF模型将链接划分成标记,并使用这些标记组成的集合表示出查询;最后,构建二分图识别出相关的查询,使用二分图计算出查询相似度。实验结果表明,相比点击文档、相关查询和反向查询三种算法,取得了更好的全查率、检索精度及F-度量。  相似文献   

4.
利用语音识别技术,依英语发音的特有性,搭建完整合理的计算机辅助英语发音评测系统。整个系统包括3个部分:语音段验证、语音信号切割和发音评测。其中语音段验证利用置信度评估的技术,并依据置信度阀值对评测语音内容是否需要评测做出判断;语音信号切割是以预先训练好的英语发音声学模型为切割依据,通过强制对位的方式切割出正确的发音区段;英语发音评测是系统的核心,使用的评测方式是比较评测语音和标准语音的相似度,采用4个评测特征:发音完整度、韵律性、语速和准确度进行发音相似度评测。针对不同的特征参数设计合理的评测机制,并对4个特征参数进行加权运算,以建立一个完整合理的英语发音评测系统。实验证明,系统能够给出比较客观的评分,达到预期设计目标。  相似文献   

5.
混合语义模型的产品知识文档检索   总被引:1,自引:0,他引:1  
为解决产品知识文档检索过程中遇到的问题,提出一种基于混合语义模型的检索方法.该方法将传统的用户查询需求扩展为用户偏好、语境和用户查询混合而成的语义集合,并对知识文档和用户需求进行基于本体的模糊概念表达.对于知识文档,选择领域本体的叶节点来构造文本概念向量,根据概念在本体图中的深度、携带的信息量,及出现在文档与语料库中的频度来计算权重.同样采用本体表达知识语境与查询语义,建立用户偏好模型.针对检索模型的不同组成,阐述了相应的相似度计算方法,采用概念的语义距离计算用户当前语境和文档语境之间的相似度,用余弦法计算查询语义、用户偏好与文档的相似度.最后用实验验证了该方法的检索效果优于传统的向量空间方法.  相似文献   

6.
针对汉语句际关系中分布最广泛的并列复句, 提出一种自动识别的方法。通过对句子语义相似度和结构相似度的计算, 使用基于词义的句子相似度计算、最大公共子串、最大谓词周边匹配长度、加重特定词语复现等方法, 在广义并列关系上进行评测。最后将其中3种方法进行集成, 并取得了较为理想的效果。  相似文献   

7.
针对如何根据用户的检索状况来提高信息检索的反应速度及查询的准确性的问题,利用向量空间模型信息检索与路径相似度蚁群算法中利用同一方式——相似度来决定下一步方向的共同特点,提出将一种基于路径相似度的蚁群算法应用于信息检索的方法。采用这种算法在性能和收敛性速度上优于常规算法。  相似文献   

8.
蒋鹏 《南昌高专学报》2009,24(3):159-161
文章分析了当前案例相似度和语义相似度,提出了针对应急案例语义相似度计算方法。该方法可以定量地分析OWL所描述概念、特性之间的相似度,为应急案例库语义查询中的扩充概念集和查询结果排序打下基础,进一步提高应急决策支持系统的效率。  相似文献   

9.
用户查询与文档之间语义匹配但词法不匹配现象是影响信息检索效果的重要原因之一。鉴于语义检索受限于本体自身的质量,为了降低其对检索效果的影响,通过分析目前语义查询扩展的研究现状,在已有概念相似度计算算法研究基础上进行改进和融合,提出了一种基于本体的信息检索查询扩展方法,并主要对基于本体技术的概念相似度计算算法进行修正,得到了组合向量空间模型QCR(Q,Ci)=∑k=1,…,Kwk-Sim_Rel(qK,Ci),作为引入查询扩展后的查询结果相关度评价方法。这种方法中,通过建立本体模型并计算本体中概念间的语义相似度来确定扩展查询词,它可以根据用户输入的名称,检索出相关文档并由用户自由设置相似度阈值,并将普通主题检索与语义检索合并,在本体乏力时返回普通检索结果,这在一定程度上弥补了垂直检索系统发展的不足。
  相似文献   

10.
用户查询与文档之间语义匹配但词法不匹配现象是影响信息检索效果的重要原因之一。鉴于语义检索受限于本体自身的质量,为了降低其对检索效果的影响,通过分析目前语义查询扩展的研究现状,在已有概念相似度计算算法研究基础上进行改进和融合,提出了一种基于本体的信息检索查询扩展方法,并主要对基于本体技术的概念相似度计算算法进行修正,得到了组合向量空间模型QCR(Q,Ci)=∑k=1,…,Kwk*Sim_Rel(qK,Ci),作为引入查询扩展后的查询结果相关度评价方法。这种方法中,通过建立本体模型并计算本体中概念间的语义相似度来确定扩展查询词,它可以根据用户输入的名称,检索出相关文档并由用户自由设置相似度阈值,并将普通主题检索与语义检索合并,在本体乏力时返回普通检索结果,这在一定程度上弥补了垂直检索系统发展的不足。  相似文献   

11.
用户查询与文档之间语义匹配但词法不匹配现象是影响信息检索效果的重要原因之一.鉴于语义检索受限于本体自身的质量,为了降低其对检索效果的影响,通过分析目前语义查询扩展的研究现状,在已有概念相似度计算算法研究基础上进行改进和融合,提出了一种基于本体的信息检索查询扩展方法,并主要对基于本体技术的概念相似度计算算法进行修正,得到了组合向量空间模型QCR(Q,Ci)=∑k=1.….K wk*Sim_Rel(qK,Ci),作为引入查询扩展后的查询结果相关度评价方法.这种方法中,通过建立本体模型并计算本体中概念间的语义相似度来确定扩展查询词,它可以根据用户输入的名称,检索出相关文档并由用户自由设置相似度阈值,并将普通主题检索与语义检索合并,在本体乏力时返回普通检索结果,这在一定程度上弥补了垂直检索系统发展的不足.  相似文献   

12.
由于Deep Web查询接口的自动发现是获取Deep Web信息的基础,提出了基于搜索引擎的表单发现方法和基于语义相似度的查询表单判定方法.该文首先定义了查询表单的特征的表示方法,然后自动提取样本查询接口的特征并将其中的文字特征进行组合提交给搜索引擎以实现查询表单的搜索,最后基于语义相似度和字面相似度的方法判定搜索表单和样本表单之间的相似度,并由此判定是否是WDB的查询接口.实验证明该文方法具有良好的可行性和实用性,为深入研究Deep Web提供了良好的条件.  相似文献   

13.
本体问答系统需要实现从自然语言问句到本体查询语句的转换,目前的解决方法主要有自然语言接口和问句相似度方法。针对现有问句相似度方法在本体问答系统中应用的不足,设计了改进的相似度计算方法。通过建立常问问题的查询模式集合,综合考虑问句的统计、语义、结构特征计算目标问句的相似度,分别以自动选择和用户交互两种方式选择目标问句的查询模式,并将其转换成实际SPARQL查询语句,最终检索本体及抽取出答案。两种方式的准确率分别为83.8%和92.1%。  相似文献   

14.
提出一种利用关系数据库系统在一般图结构的半结构化数据上进行近似查询的途径.根据嵌套结构和文本值的相似性来度量路径的相似性;根据路径的相似性得到查询目标节点与数据源节点的相似性.为返回数据源中与查询目标节点相似的节点,首先提取出数据源中长度在固定范围内的所有路径,然后利用关系数据库系统将其与查询路径进行相似性连接,并按相似度从大到小返回所有结果.为提高相似性连接的效率,引入q窗口概念,并利用若干路径相似的必要条件来减少计算相似性函数的次数.试验证明了其有效性.  相似文献   

15.
在信息检索领域,基于不精确的语义信息进行查询,需要用户多次进行筛选,降低了查询效率,因此,语义相似度计算的精确性至关重要.目前,人们主要利用概念词的距离、内容、属性等信息进行语义相似度计算,其中综合距离,信息内容和概念词属性等因素的混合式语义相似度计算方法是比较热门的方法,但该方法进行语义相似度计算时,权值的确定是根据专家的经验,人为的进行确定,具有一定的主观性,影响了语义相似度计算的准确性和客观性.因此,本文提出了一种新的混合式语义相似度计算方法,采用模糊优化的思想确定混合式语义相似度计算方法中的权值,避免了主观性,使语义相似度的计算更准确,查询结果更符合人们的需求.  相似文献   

16.
目前探究维吾尔语词向量表示的相关研究报道很少,在对其性能评价、实际使用等方面存在一些问题亟待解决.基于此,构建了维吾尔语版wordsim240和word analogy词向量评测数据集;提出了新的单词语义相似度评测方法,并以命名实体识别任务作为实际任务验证其有效性;同时分析了改进的类比推理评测方法鉴别词向量表示语义的能力.实验结果显示,提出及改进的方法均能有效应用于评测任务;且在较小语料规模下,较低维度(64,128,256维)的词向量在各项评测任务上表现更好.  相似文献   

17.
基于多查询数据融合和正相关反馈的检索算法   总被引:4,自引:0,他引:4  
为提高信息检索系统的性能,提出了一种多查询数据融合与正相关反馈相结合的检索算法.算法的核心思想是:利用基于向量表示的余弦相似度测度计算查询与文档之间的相似度,采用多查询数据融合技术将多个检索结果融合,以及从上一次检索结果中取出前M个相关文档和初始查询一起构成新的查询,将新查询提交给系统并继续下一次的检索,如此反复,直到获得满意的结果.实验结果表明,该算法相对于仅使用了多查询数据融合技术的算法和仅使用了正相关反馈技术的算法,其平均准确率分别提高42.6%和23.17%.  相似文献   

18.
建立了一种表达用户信息需求的界模型,通过计算信息需求的上边界、下边界,确定信息需求的需求域.该模型从语言学的角度出发,通过挖掘语言的内涵和外延来表达语言的含义.用户的查询请求有其内涵和外延,信息需求域正是通过表达查询请求的内涵和外延来反映用户的真实信息需求.在信息检索时,计算文档与信息需求域的相似度,并根据相似度对文档进行排序.在实际检索时,采用用户真实相关反馈机制,该相关反馈机制得到的是真相关文档,因而可以更好地表达用户的信息需求.使用Lemur工具进行的对比分析实验表明,界模型下的真相关反馈信息检索具有较理想的效果.  相似文献   

19.
20.
飞行数据是一种典型的时间序列数据,其存在随机噪声以及各种复杂变形,导致了相似子序列查询困难。为此,提出一种基于DTW病态匹配的飞行数据相似子序列查询方法。首先,利用已知的查询序列样本集构建上、下边界曲线,同时给出了相应的下界距离,并证明了其正确性。以此建立下界算法,用于筛选相似度高的子序列。其次,利用DTW距离搜索路径病态匹配来对筛选后的子序列无效序列段进行识别并去除,解决了子序列有效匹配长度难以确定的问题。仿真实验结果表明:该方法可以较为精确地查询出相似子序列,其起止时间偏差可以控制在3 s以下,满足飞机飞行动作查询的实际需求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号