首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
基于语义理解的文本相似度算法   总被引:26,自引:0,他引:26  
相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,在知网语义相似度的基础上,将基于语义理解的文本相似度计算推广到段落范围,进而可以将这种段落相似度推广到篇章相似度计算.给出了文本(包括词语、句子、段落)相似度的计算公式及算法,用于计算两文本之间的相似度.实例验证表明,该算法与现有典型的相似度计算方法相比,计算准确性得到提高.  相似文献   

2.
语义相似度计算是自然语言处理中的一个关键过程,在机器翻译、自动问答、句法分析、词义排歧等领域都有着广泛的应用.列举并分析了几种典型的基于知网的相似度计算方法,并提出一种改进的基于知网的相似度计算方法,实验结果表明该方法是有效的.  相似文献   

3.
计算文本相似度常用的方法是计算以VSM表示的文本之间的夹角余弦值,但这种方法并没有考虑文本中词语之间的语义相似度.另外由于计算余弦值时要考虑VSM向量对齐,从而导致计算的高维度、高复杂性.《知网》作为一个汉语常用的知识库得到广泛的研究,利用该知识库能方便地求得汉语词语之间的相似度.利用《知网》计算每篇文本中词语之间的相似度,对VSM进行改进,用少量特征词的TF/IDF值作为改进后的VSM向量中的权重,进而计算文本之间的相似度.通过比较改进前后的VSM的维数、召回率和准确率,结果显示,改进后的算法明显降低了计算的复杂度并提高了召回率和准确率.  相似文献   

4.
在《知网2002》的基础上,充分利用其层次结构,引入了马尔科夫模型来计算词汇语义相似度,实验证明,算法取得较理想的实验结果.  相似文献   

5.
6.
一种基于知网的词汇语义相似度改进计算方法   总被引:4,自引:0,他引:4  
汉语词语语义相似度计算是中文信息处理中的一个关键问题.在知网(HowNet)环境下,通过分析影响词汇相似度计算结果的概念层次树结构,提出了一种同时考虑层次树深度、密度及语义路径等多因素的义元相似度计算方法,并应用于词汇相似度计算过程.实验结果表明,该方法使词汇相似度计算结果更趋于合理,绝大部分结果更符合人们的日常体验,有效提高了词汇相似度计算结果的精确度和准确性.  相似文献   

7.
汉语词语语义相似度计算是中文信息处理中的一个关键问题。在知网(HowNet)环境下,通过分析影响词汇相似度计算结果的概念层次树结构,提出了一种同时考虑层次树深度、密度及语义路径等多因素的义元相似度计算方法,并应用于词汇相似度计算过程。实验结果表明,该方法使词汇相似度计算结果更趋于合理,绝大部分结果更符合人们的日常体验,有效提高了词汇相似度计算结果的精确度和准确性。  相似文献   

8.
基于知网语义相似度计算的特征降维方法研究   总被引:9,自引:1,他引:8  
针对文本分类处理中的高维度问题,结合知网语义词典,提出了一种新的特征降维处理方法.通过计算特征词汇之间的语义相似度,将原有特征集分成若干特征词集;同一词集内的特征词语义彼此间相似;而不同词集的特征词彼此间相似度比较小.将同一特征词集内的词汇权重相加,从而突出同义词以及近义词对文本分类的贡献,并可以大大降低文本比较的特征维数.实验结果表明,利用该方法在文本分类中得到了较好的分类准确率和分类性能.  相似文献   

9.
从海量无结构互联网信息中提取高质量的社会网络有着广阔的应用前景和较高的学术价值,本文以新浪微博网站作为信息源提取用户之间的共同兴趣网络,在知网文本相似度计算方法的基础上,结合用户特征词的词性分析,提出了一种结合词性的用户相似度计算方法,此方法可以计算用户之间的兴趣强度,进而构建共同兴趣网络。实验结果表明,该方法对用户类别判定的准确率有所提高,对兴趣网络的提取有较好的效果。  相似文献   

10.
11.
该文首先介绍了Web Service的相关技术以及基于语义的Web服务发现机制,并在此基础上提出了用欧几里德距离来计算同类服务中服务质量(Qos)与用户要求的服务质量的相似性,从而选择与用户要求最接近的服务,这样可以避免同时多个请求者都选择服务质量最好的那个服务.减少了发生负载问题的几率及解决负载问题的调度次数.  相似文献   

12.
为了使个性化虚拟人更加形象生动,能根据用户输入的文本做出表情动作,运用自然语言处理技术对中文和英文文本进行语义和分类处理,分析出动作和情感信息。采用潜在语义方法从文本中提取出动作语义信息,利用hownet计算词汇相似度,使用K最近邻方法将文本情感信息分为6类:愤怒、厌恶、恐惧、喜悦、悲伤和惊讶。实验结果为:语料文本分类准确率为87.5%,系统能从用户输入的文本中提取出情感、动作信息,使虚拟人做出相应表情变化。  相似文献   

13.
基于本体的语义相似性研究   总被引:2,自引:2,他引:0  
李文超  杨妮妮 《科学技术与工程》2012,12(21):5328-5330,5336
为了在信息检索中,从语义层面全面理解用户查询意图,提高信息的查全率和查准率,提出了基于本体的语义相似性和相关性计算方法。该算法充分考虑了本体模型结构的特点和本体间语义距离、本体密集度等因素对语义相似性的影响,提高了信息检索性能。以煤炭矿井工程的知识体系为例,建立了本体库模型,并设计了本体库的树状内存数据结构。通过实验仿真计算验证了本体相似性算法的有效性。  相似文献   

14.
一种基于义原重合度的词语相似度计算   总被引:1,自引:0,他引:1  
通过分析知网中的义原关系,认为在同一棵树中两个相等距离的义原,公共节点对相似度大小起着决定性作用;距离根节点越远,分类越细致,描述的信息越详细;它们的相似度也就越大.提出了一种基于知网的相似度的计算方法,定义了知网义原间的相似度公式.实验表明,利用本文方法计算词语相似度,所得结果在一定程度上更加与人的直观相符.  相似文献   

15.
文本聚类的关键是对高维的特征集进行降维.本文对常用的一些特征选择、特征抽取等主流特征降维方法进行了介绍,分析了它们各自的特点及其适用范围.  相似文献   

16.
首先介绍了几种常见的特征选择和特征抽取方法,并结合K-近邻分类算法对4种特征选择方法进行了分类测试,同时通过测试分析,提出了一些改进的、可行的互信息评价函数.  相似文献   

17.
基于深度学习的短文本语义相似度度量方法是现代自然语言处理任务的基石,其重要性不言而喻。本文提出一种基于卷积神经网络和双向门控循环单元的文本编码模型,通过卷积层提取重要语义并且通过双向门控循环单元保证语义顺序,采用孪生神经网络结构保证文本编码的一致性。选取传统的卷积神经网络和长短期记忆网络以及BERT模型进行对比验证,在Quora、Sick和MSRP数据集上的验证结果表明,本文模型的精确率和召回率表现优异,且F1值也优于传统模型。  相似文献   

18.
介绍了本体的相关知识和3种不同的领域本体语义相似度算法,针对这3种算法的视角和优缺点提出了改进的基于领域本体的语义相似度计算方法。该方法综合考虑语义距离、概念特征和信息量中多种语义相似度计算影响因素,较真实地反映了概念间的语义关系。  相似文献   

19.
一种基于概念相似度的文本模糊聚类方法   总被引:4,自引:0,他引:4  
文本挖掘是数据挖掘的一个重要研究领域。基于形式概念分析和概念相似度,给出了一种新的文本模糊聚类方法。该方法不仅考虑了关键词之间的语义关系,而且通过非距离计算得到模糊相似矩阵。可根据不同要求,得到不同的聚类结果,具有较好的灵活性。最后通过实例,说明了给出算法的可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号