首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 65 毫秒
1.
基于语义联系的新闻网页关键词抽取   总被引:1,自引:0,他引:1  
提出一种基于语义联系的新闻网页度,还考虑词语在具体上下文中的相关性,用词汇链将词语语义联系表示成图形式,在此基础上抽取出新闻网页关键词.对从网易网站选取120篇有核心提示的新闻网页进行测试,实验结果表明,所提出的方法比基于词频的关键词抽取方法和基于<知网>语义相似度构建词汇链的关键词抽取方法,在准确率和召回率上有很大的提高,当抽取关键词个数为3时,比基于词频方法的准确率和召回率分别提高了27.77%和21.38%.  相似文献   

2.
潘畅  章淑芬 《景德镇高专学报》2011,26(1):113-114,110
传统的语义理论忽视词的义项之间的关联性和层次性,因此无法完整解释词的多义现象.认知语言学认为,词义属于语义范畴,一个词的各种意义构成一个范畴,各义项成员地位不同,具有中心义项和边缘义项之分,其中心义项即原型义项.语义范畴围绕原型意义向外扩展,形成放射形结构,抽象程度也不断提高.本文依据原型范畴理论和意象图式理论,通过对...  相似文献   

3.
计算文本相似度常用的方法是计算以VSM表示的文本之间的夹角余弦值,但这种方法并没有考虑文本中词语之间的语义相似度.另外由于计算余弦值时要考虑VSM向量对齐,从而导致计算的高维度、高复杂性.《知网》作为一个汉语常用的知识库得到广泛的研究,利用该知识库能方便地求得汉语词语之间的相似度.利用《知网》计算每篇文本中词语之间的相似度,对VSM进行改进,用少量特征词的TF/IDF值作为改进后的VSM向量中的权重,进而计算文本之间的相似度.通过比较改进前后的VSM的维数、召回率和准确率,结果显示,改进后的算法明显降低了计算的复杂度并提高了召回率和准确率.  相似文献   

4.
不同的词或同一个词用于不同义项时,它们所指称的对象或表示的内容是互不相同、各有特点的,此其语义特点;它们在句法结构中的分布或组合能力,也是互不相同、各有特点的,此其语法特点。在语言系统中,词的语义特点和词的语法特点虽然分属两个不同的平  相似文献   

5.
通过对英语之“hand”和汉语之“手”的一词多义结构的这一个案的分析对比,发现该词的义项分布在两种语言中基本一致,其词义拓展方式呈辐射和连锁相结合的趋势;且各义项以转喻或隐喻方式为主要纽带,组成了一张多核的相关语义网。该基本人体词的多项语义分布现状反映了人类在不同语言背景下认知和语义发展中共有的思维方式,从而为多义词的外语教学提供了新的思路。  相似文献   

6.
安琪 《科技信息》2009,(33):I0188-I0189
本文运用语料库语言学词语搭配研究的方法,分别以当代美国英语语料库BROWN和当代英国英语语料库LOB,以及交大科技英语语料库JDEST为基础,利用MCONCORS)软件,将三个语料库中所出现的harbor在表示“持有或抱有(某种特殊的思想或感情)”的义项时,其搭配词的语义倾向进行分析:结果显示:词项harbor在表示“持有特殊思想或感情”时,虽然我们在LOB当代英国英语语料库没有检索出合有此义项的检索项,但在BROWN和JDEST中,其搭配词偶尔有积极语义倾向,但绝大多数情况下具有明显的消极语义倾向。由此我们推断.对英关本族语者来说.harbor在表示上述义项时.是一个具有混合语义韵的词项.但绝大多数情况显示是带有明显消极语义特征的。  相似文献   

7.
为了体现词条之间的关系,更好地为用户提供个性化服务,提出了在语义网络下对用户兴趣建模的思想. 根据用户的访问历史,利用知网建立基于概念关系的用户兴趣森林模型. 通过计算机链接描述文字的平均带权语义距离,预取用户将来可能访问的Web页. 基于带权语义距离的网页预取方法对用户兴趣进行归纳,用带权语义距离反映词与词之间的概念关系. 实验结果表明,此方法的命中率较高,漏取率较低,平均命中率可以达到61%左右.  相似文献   

8.
事件触发词识别是事件抽取技术中核心任务之一,在面向微博的突发事件触发词识别中,提出一种基于扩展触发词表和多值分类模型(P-Multi模型)相融合的触发词识别方法,进行事件触发词识别。以多值分类模型以扩展触发词为基础,结合基于模式规则匹配,对文本进行潜在语义分析,进一步挖掘触发词语义信息,将模式匹配和语义分析融合在微博突发事件触发词识别之中。实验结果在触发词识别准确率、召回率上均有所提升,证明了该方法的有效性。  相似文献   

9.
针对网页信息内容丰富且结构复杂,难以准确挖掘的问题,采用中心聚类和语义特征相互融合的方法.利用中心聚类算法确定样本最终的聚类中心,根据每个词在网页中出现的频率和词的上下文语义,构造一个网页-词语的权重映射矩阵,并将语义特征作为中心聚类相似性的判断依据,完成网页文本信息的挖掘.实验结果表明:利用该方法对网页文本进行挖掘,在时间增加不多的情况下,可以获得更高的召回率和准确率.  相似文献   

10.
本文提出了一种利用知网的实例库与知网关系进行词义消歧算法.该方法首先利用知网提供的实例库进行初步的匹配;若在实例库中没有完全匹配,则利用上下文搭配关键词与知网中的实例搭配词进行相似度计算,若相似度大于给定阈值,则消歧结束.否则,我们再判断歧义词的义原与关键词的义原是否具有某种关系,根据义原权值调节算法调整义原权值.调整后的义原权值大小不一,按照事先的约定,我们选取综合权值最大的义项.我们发现,该方法能够弥补仅依靠实例库的覆盖率低的问题,又能减少仅依靠统计方法产生的噪音,从而提高词义消歧的正确率.  相似文献   

11.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

12.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

13.
知网、HNC和框架网的语义知识表示异同   总被引:1,自引:1,他引:0  
语义知识的表示和使用是自然语言处理的重要方面.知网从描述词语之间的关系以及属性之间的关系入手建立了中文词语语义知识的表示方法.HNC设计了语义概念基元和语句基元,形成了自然语言的概念空间,用基元描述语句理解处理中知识.不同于以上两种方法.框架网则是根据单词的不同的义项对应不同的语义框架,用不同的语义唤醒激活不同的框架,从而理解词语的语义.在此比较了三者在语义知识表示方面的异同.  相似文献   

14.
基于《现代汉语语义词典》,首先建立不同语义层次的词典,根据词典分别构建模型并进行语义预测,然后将各个模型进行集成,通过集成模型再对未登录词进行语义预测,得到较好的预测性能。利用预测模型对2000年《人民日报》语料进行未登录词语义预测和标注,最终得到带有未登录词语义义项标注的语料资源。  相似文献   

15.
基于知网语义相似度计算的特征降维方法研究   总被引:9,自引:1,他引:8  
针对文本分类处理中的高维度问题,结合知网语义词典,提出了一种新的特征降维处理方法.通过计算特征词汇之间的语义相似度,将原有特征集分成若干特征词集;同一词集内的特征词语义彼此间相似;而不同词集的特征词彼此间相似度比较小.将同一特征词集内的词汇权重相加,从而突出同义词以及近义词对文本分类的贡献,并可以大大降低文本比较的特征维数.实验结果表明,利用该方法在文本分类中得到了较好的分类准确率和分类性能.  相似文献   

16.
李艳 《长沙大学学报》2010,24(6):110-111
一词多义是人类语言学的一种普遍现象,而传统的语义理论并没有把握多义现象的全部和本质。认知语言学范畴化理论认为一个词的多个义项是从一个原型义项演变过来的,而各个义项是在认知的基础上通过隐喻、转喻而生成的。现以"break"为例,对英语多义现象产生的的原因和机制进行分析。  相似文献   

17.
将文本语义分析领域中的概率潜语义分析(PLSA)模型和语义树模型进行融合, 设计一种新模型, 并将其应用在文本病历语义分析上, 较好地解决了文本病历语义分析过程中存在的“多词一义”情况, 降低了语义维度, 简化了窗口语义树的结构. 通过语义分解和语义检索实验证明了该模型在文本病历语义分析上的优势.  相似文献   

18.
基于知网的关系网络的构建   总被引:1,自引:0,他引:1  
为了更好地利用知网中的语义关系,提出了一种将知网中的各种隐含关系形式化表示的方法.该方法通过仔细分析知网中关系标知符、动态角色以及例句所描述的各种语义关系,以概念、特征、关系为基础,构建了一基于知网的关系网络.利用该关系网络,既可以高效地查找到词语的概念与概念之间的语义关系,也可以查找到概念的属性之间的语义关系.给出了该方法的实现算法,并用实例说明了该方法的优点.  相似文献   

19.
基于知网的语义相关度计算   总被引:24,自引:0,他引:24  
为解决句法分析中的结构性歧义,引入了语义相关度计算.基于语义相似度计算及知网的语义信息,提出了语义相关度计算方法;利用知网的义原纵向与横向关系及实例信息计算不同词性的相关度.在计算义原距离时,考虑了义原之间的解释关系,对义原的距离进行修正.根据相似度的对称性,计算实例的影响因素提高了相关度的准确率.实验结果表明,使用该计算方法得出的语义相关度结果更加合理.  相似文献   

20.
文章用GOOGLE开源的Word2Vec工具把藏文文本《贤者喜宴》经过分词后的语料作为输入,将文本中的词映射到一个K维空间,利用词汇的上下文信息将词转变为词向量.Word2Vec工具再通过学习得到一个向量模型,每一个词都用一个独特的词向量来表示.训练文本数据构造一个词表,然后学习词的向量表示.词向量能够捕获许多语言的规律,从而得出词与词之间的距离即相似度.进一步通过高频词汇作为输入,通过训练即可输出与高频词汇距离最近的词汇,以高频词和与其相近的词汇作为重要信息去预测文本的大致语义.实验结果表明基于Word2Vec训练模型的准确率和召回率都很高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号