首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
针对位置语言模型没有考虑词与词之间语义关系的问题, 提出一种结合语义的位置语言模型。首先采用高斯核函数来度量词与词之间的位置关系; 然后提出一种平滑互信息的技术来度量词与词之间的语义关系, 证明了平滑互信息能够有效解决大量词对之间无法通过互信息来计算转移概率的问题; 还证明了位置语言模型是结合语义位置语言模型的一个特例; 最后将结合语义的位置语言模型应用于信息检索, 得到一个基于该模型的检索模型。实验结果表明, 基于该模型的检索模型在性能方面要优于基于位置语言模型的检索模型。  相似文献   

2.
语义相似性度量能够提高信息检索的准确性和效率,已成为文本处理中的一个核心任务.为解决一词多义等词汇歧义问题,提出一种基于低维向量组合的语义向量模型.该模型引入了知识库与语料库的多语义特征的融合,主要的语义融合对象包括连续的分布式词向量和从WordNet结构中的语义特征信息.首先利用深度学习技术中的神经网络语言模型,预先从文本语料中学习得到连续的低维词向量;然后从知识库WordNet中抽取多种语义信息和关系信息;再将多语义信息融入词向量进行知识扩展和强化,生成语义向量,从而实现基于向量空间的语义相似性度量方法.在基准测试集上的实验结果表明,该方法优于基于单一信息源(知识库WordNet或文本语料)的语义相似性度量方法,其皮尔森相关系数比基于原始词嵌套向量的方法提高了7.5%,说明在向量特征层面上的多语义信息的融合有助于度量词汇间的语义相似性.  相似文献   

3.
张磊  褚昆  郭黎利 《应用科技》2009,36(4):28-31
针对二元模型,提出了一种基于互信息的回退(MI Back-off)平滑算法.从互信息的角度,分析词之间的搭配关系,根据模型中每个二元对的互信息对其概率进行不同程度的折扣,并利用低阶模型对零概率事件进行补偿,通过极小化困惑度的原则体现新算法的合理性.在不同类别测试集下,该平滑算法与传统Katz平滑算法相比,模型困惑度下降均超过20%。  相似文献   

4.
一种改进的Lucene语义相似度检索算法   总被引:2,自引:0,他引:2  
 Lucene的基础上,结合检索词项的语义信息,利用外部词典Wordnet分析检索词项与被检索文档中词项的语义相似度,在此基础上实现对文档语义信息的检索。通过分析现有的相似度量函数的核心特征,选择合适的语义相似度量方法,提出了一种新的词项语义相似度检索函数,该函数能够对检索文档按照语义相似度进行排序。实验结果表明,所提出的方法能够有效地提升文献检索的准确度。  相似文献   

5.
提出一种基于词间关联度度量的维吾尔文本自动切分方法。该方法从大规模生语料库中自动获取维吾尔文单词Bi-gram及上下文语境信息, 在充分考虑维吾尔文单词间结合规则的前提下, 将相邻单词间的互信息、t-测试差及双词邻接对熵的线性融合作为组合统计量(dmd), 度量文本中相邻单词之间的关联程度。以dmd度量的弱关联的词间位置作为切分点进行自动切分, 得到语义及结构完整的词串, 而不仅仅是以空格隔开的单词。在大规模文本语料上进行的测试表明, 该方法的切分准确率达到88.21%。  相似文献   

6.
基于互信息的粗糙集信息检索模型   总被引:2,自引:0,他引:2  
在信息检索过程中,由于文档中存在大量的多义和近义现象,导致不确定性出现,这将影响检索的性能.为此采用基于互信息的粗糙集理论来处理这类不确定性问题.首先计算训练文档集中的词之间的互信息,对互信息做模糊聚类来构造词之间的等价关系,然后借助于该等价关系提出并实现了一个以粗糙集上下近似为基础的信息检索模型,通过实验的测试,该模型能够提高信息检索的效率.  相似文献   

7.
利用语义、语法等语言知识,对中心词驱动的句法分析模型规则进行分解和修改,结合分词、词性标注进行句法分析,提出一种可同时考虑多个语义依存关系的模型.利用互信息给出基于邻接关系、语义依存关系的2种词相似度定义,提出一种自下而上的分层聚类算法,以解决中心词驱动模型数据稀疏问题,用改进的句法分析模型进行句法分析实验.研究结果表明:模型精确率和召回率分别为88.14%和86.93%,综合指标比Collins头驱动句法分析模型的综合指标提高6.09%.  相似文献   

8.
为了克服肺部病变CT表现复杂,极易造成医生误诊的缺点,提出了一种基于相似性度量的医学图像检索算法并用于肺癌的诊断研究,该相似性度量保持了图像的语义相关和视觉相似.首先,根据相似性度量理论构建距离度量学习算法学习一个马氏距离;然后,根据学习的马氏距离度量,提出新的医学图像检索算法,并将提出的算法应用于肺癌的诊断研究.实验结果证明了该检索算法在肺癌诊断应用中的可行性和有效性.  相似文献   

9.
一种结合同义词典和词对共现距离的查询扩展方法   总被引:1,自引:0,他引:1  
为了在检索过程中全面表达查询意愿,提出一种结合同义词典和词对共现距离的查询扩展方法。横向利用同义词典方法进行扩展,发挥它的简单、高效优势;纵向利用可观察的语言事实统计上下文词对的共现距离,从而对词汇语义相关性进行精确和有效的度量,用简洁、相关的词来扩展查询词。实验表明,该方法在实际搜索引擎中有较好效果。  相似文献   

10.
针对医疗信息系统中传统科室推理方法存在的计算效率低下、推荐效果欠佳与知识库难于维护等问题,提出了基于词向量句子相似度量的医疗科室推荐方法.该方法采用深度学习工具构建医疗知识库词向量模型,以词向量代替语义词典检索或词频统计来实现医疗问答对的相似度量,建立基于句子相似度量的医疗科室推荐框架.通过专业医疗在线问医平台真实问答数据的实验,结果表明,与传统科室推理方法相比较,该方法具有更高的推荐准确率与工程可行性.  相似文献   

11.
针对维吾尔语事件时序关系识别问题,提出了一种结合注意力机制的双向长短时记忆模型.基于维吾尔语语言及事件时序关系的特点,抽取13项基于事件间内部结构信息的特征.将词向量作为双向长短时记忆模型的输入,挖掘给定事件句隐含的上下文语义信息.结合事件触发词建立注意力机制,获取该事件句的事件语义特征.将事件内部结构特征和语义特征相融合,作为softmax层的输入,进而完成事件时序关系的识别.实验结果表明,该方法在获取事件句隐含语义信息的同时也能获取对应的事件语义特征.融合事件内部结构特征后,识别准确率为89.42%,召回率为86.70%,衡量模型整体性能的F值为88.03%,从而证明了该方法在维吾尔语事件时序关系识别任务上的有效性.  相似文献   

12.
分析了句型结构中的否定句和转折句对倾向词极性的影响,提出一种基于句型结构的领域倾向性词表构建算法.该方法不仅考虑了词与词之间的相关性,也考虑了词与文档之间的相关性信息.该算法利用改进的拉普拉斯平滑方法来计算候选词和基准词之间的语义相关性,同时结合词与文档的相关性信息,加入了对转折句和否定句的处理,最后采用改进的信息瓶颈...  相似文献   

13.
区别于传统的信息检索,地理信息检索通过一个查询范围词来限制用户的兴趣区域.目前的技术一般是把该查询范围词作为一个过滤器,将在该范围之外的文档排除在查询结果外.但是,词在地理空间的频率分布并不是均匀的,因此词在排序结果中的重要性应该随着查询范围的变化而有所改变.为此,提出了一种新的基于语言模型的地理信息查询模型,把查询范围引入到传统的语言模型中.在该模型中,引入了一个local model来描述查询词的地理分布特性.实验结果表明,新的检索模型优于TF-IDF与传统的语言模型.  相似文献   

14.
基于互信息粒度的相对约简的矩阵计算方法   总被引:1,自引:0,他引:1  
提出了一种基于互信息粒度的相对约简模型,该模型利用互信息度量决策系统中的条件属性,将互信息对属性的度量映射到布尔矩阵,并能得到完备的相对约简结果;同时给出了基于布尔矩阵属性重要度的度量方法,在此基础上,设计了一种相对约简启发式计算方法,最后通过实验验证了方法的有效性.  相似文献   

15.
基于非负矩阵分解的隐含语义图像检索   总被引:1,自引:0,他引:1  
提出了一种基于非负矩阵分解(Non-negative Matrix Factorization,NMF)的隐含语义索引(Latent Semantic Indexing,LSI)模型用于图像检索.应用NMF训练算法构造了一个语义空间,将查询图像和原型图像都投影到该空间以获得语义特征,在此空间中进行相似性的度量并将距离最近的图像返回给用户.与已有两种检索模型的实验结果对比表明,所提出模型是有效的.  相似文献   

16.
基于互信息度量的特征约简是一种重要的Filter特征约简方法,其目的是剔除条件特征中与决策类别不相关的特征,并使约简子集中特征间的相关性最小.为此,本文基于特征间的区分性评价准则,提出了互信息下二进制区分矩阵的特征约简模型,并从理论上证明了二进制区分矩阵模型与互信息模型下特征约简的等价性;其次给出了条件特征的重要性度量准则,并利用渐进式计算方法构造了一种快速的特征约简算法;最后通过实验进一步验证了算法的可行性.  相似文献   

17.
初高中英语考试中单选题的机器类人答题问题(sentence completion problem),其目标是从一个词或短语集合中选择最佳答案填入目标句子的适当位置使其成为一个合理通顺的句子.尽管针对该问题学术界已经提出了许多解决方案,但是都停留在语言模型和隐语义分析的算法框架下.为此以语言模型和隐语义分析两种方法为基线,分别从固定搭配抽取、动词时态分析两个方面抽取试题的词法、语法和语义特征,以初高中英语题库中的部分试题为训练集,构建了一个基于学习排序模型的类人答题系统.该系统的在初中和高中的单选题测试集上分别达到78%和76%的准确率,与基于语言模型和隐语义分析的基线模型相比均提高了4个百分点.  相似文献   

18.
融合流形学习与相关反馈的人脸图像检索   总被引:1,自引:0,他引:1  
针对图像检索中视觉特征和语义信息中的"语义鸿沟"问题,提出一种融合流形学习和相关反馈的人脸图像检索算法.该算法充分考虑相关反馈提供的结合语义信息的正反例样本来发现图像样本之间的鉴别性流形,优化构建低维嵌入空间的特征向量,使得相关图像之间保持近邻关系,通过最大化不相关图像之间的距离,得到一个结合了用户语义理解的低维流形特...  相似文献   

19.
为解决语义网中模糊信息的表示问题,提出了一种基于关系数据库的模糊本体存储方法,定义了推理机制,实现成员关系的推理和关系度的计算.实验采用PostgreSQL数据库存储本体及SPARQL语言进行检索,结果证明了该方法的可行性.  相似文献   

20.
针对传统的壮文分词方法将单词之间的空格作为分隔标志,在多数情况下,会破坏多个单词关联组合而成的语义词所要表达的完整且独立的语义信息,在借鉴前人使用互信息MI方法来度量相邻单词间关联程度的基础上,首次采用互信息改进算法MI~k和t-测试差对壮文文本分词,并结合两者在评价相邻单词间的静态结合能力和动态结合能力的各自优势,提出了一种MI~k和t-测试差相结合的TD-MIk混合算法对壮文文本分词,并对互信息改进算法MI~k、t-测试差、TD-MI~k混合算法三种方法的分词效果进行了比较.使用人民网壮文版上的文本集作为训练及测试语料进行了实验,结果表明:三种分词方法都能够较准确而有效地提取文本中的语义词,并且TD-MI~k混合算法的分词准确率最高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号