首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
针对文本分类和信息检索中的信息冗余和计算复杂等问题,在概念层次网络的基础上,提出了反义词、同义词、近义词的聚类算法.算法的基本思想是将词语的语义映射到HNC概念符号体系上,将所有的词语都变成一系列符号串,并在计算语义相似度和语义距离的基础上,在词语的HNC符号语料库上实现同义、近义、反义的聚类.  相似文献   

2.
针对汉语语句分析不能提供深层语义信息的问题,提出一个基于HNC和描述逻辑的问句语义块分析模型,利用HNC概念符号知识深入到词语的语义层面,从概念类别的内涵出发,对问句的逻辑结构进行了初步分析。采用描述逻辑推理机制得到了问句的语义视图,并实际验证了语义视图的有效性。  相似文献   

3.
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Movers Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。  相似文献   

4.
由于词语的多语义问题和传统的文本表示与聚类过程相互独立的问题,导致文本聚类准确率较低。针对上述问题提出一种基于多语义文本表示的自适应模糊C-均值(Multi-semanticSrepresentationSbasedSadaptiveSfuzzySC-means, MSR-AFCM)聚类算法。通过将词语软聚类划分成多个词簇构建多个语义空间,将语义空间个数作为文本初始聚类数目,利用词语的语义隶属度计算每个文本属于文本空间的语义隶属度,并以此为对隶属度进行初始化。在算法运行过程中,根据更新的文本语义隶属度和文本分布状况,逐步剔除冗余的文本空间,以达到优化聚类数目的目标。实验结果表明,MSR-AFCM算法相较于传统的聚类算法有更高的准确率和兰德系数,验证了算法的有效性。  相似文献   

5.
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用 Skip-gram模型(ContinuousSkip-gramModel)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入 EMD(EarthMoversDistance)来计算短文本间的相似度;最后将其应用到 Kmeans聚类算法中实现短文本聚类。在 3个数据集上进行的评测结果表明,效果优于传统的聚类算法。  相似文献   

6.
针对文本聚类计算量大的特点,提出了一种将概念格和Newman快速算法两种理论相结合的聚类方法。首先将文本表示为特征词语集,用统计方法抽取特征向量,同时,用IDF权重计算公式来计算词语的权重并将词语权值离散化;然后,用形式背景表达关键词,通过相似度公式,计算出形式概念相似度大小;最后,构造Newman网络,根据Newman网络算法规则对待聚类文本进行聚类。实例表明,该算法不仅得到了正确的分类结果,而且大大降低了算法的复杂度,Newman快速算法仅为 。  相似文献   

7.
一种基于本体的文本聚类方法   总被引:2,自引:0,他引:2  
基于本体的文本聚类方法,在文本表示上引入WordNet,并定义了关键概念集,使用WordNet中的概念节点及概念间的语义关系减少文本特征向量维数,提高聚类效果.聚类过程中,算法使用文本的关键概念集和概念特征向量计算文本相似度,利用文本的关键概念集标注聚簇为聚类结果中的各个簇提供解释.实验结果表明,该方法有效地减少了文本特征向量的维数,提高了文本聚类效果以及聚类结果的可解释性.  相似文献   

8.
知网、HNC和框架网的语义知识表示异同   总被引:1,自引:1,他引:0  
语义知识的表示和使用是自然语言处理的重要方面.知网从描述词语之间的关系以及属性之间的关系入手建立了中文词语语义知识的表示方法.HNC设计了语义概念基元和语句基元,形成了自然语言的概念空间,用基元描述语句理解处理中知识.不同于以上两种方法.框架网则是根据单词的不同的义项对应不同的语义框架,用不同的语义唤醒激活不同的框架,从而理解词语的语义.在此比较了三者在语义知识表示方面的异同.  相似文献   

9.
提出一种基于预聚类的潜在语义文献检索算法.首先,对待检索文档集进行预聚类,在潜在语义分析方法的基础上采用k-means聚类算法,寻找出各聚类簇的中心点;其次,在检索时,通过计算查询向量与各聚类簇中心点的相似度来进行检索.此方法有效解决了现有潜在语义文献检索算法在检索时需耗费大量时间计算查询向量与各文本向量之间的相似度的不足.另外还针对文献检索的特点,重新给出特征权重计算方法.实验结果表明,该方法缩短了检索的时间,提高了检索的效率.  相似文献   

10.
目前,在基于HowNet进行语句语义相似度计算的算法中,没有考虑语句中的不同词语对语句之间相似度值的不同贡献程度,以致计算结果不理想.为了更好地解决上述缺陷,提出了一种频率增强语句语义相似度算法.该算法利用HowNet作为词典库,在同时考虑义原距离和义原深度的条件下,进行词语相似度计算;在此基础上算法进一步将词语在语料库中的频率函数作为权重值,引入至语句的语义相似度计算中,以降低高频率词语在语句相似度值中的比重.实验表明,改进的算法在语句相似度计算结果上与人们的主观判断更接近,结果更合理.  相似文献   

11.
浅析英语语篇的词汇衔接   总被引:1,自引:0,他引:1  
衔接和连贯是语篇语言学的焦点问题,而词汇衔接是实现语义连贯的重要手段。在简要评述了韩礼德,哈桑,侯易和胡壮麟的相关理论的基础上,本文重点讨论了重复、同义词(近义词)、反义词、泛指词、上下义关系和搭配这六种词汇衔接手段。  相似文献   

12.
在编纂英汉词典时,应从以下几个方面增强英语释义的语义特色:释义时应阐明最常用的同义词及反义词的用法;释义时应注意英美用法的差别;释义时应结合词语搭配的方法;释义时应采用联想法。  相似文献   

13.
为了提高专业搜索引擎的查询精度,提出了一种基于PageRank算法的改进搜索结果融合算法.首先,通过对元搜索引擎技术的分析,将rtf算法和PageRank算法进行融合,提出了基于PageRank算法的改进算法.该算法可以实现基于同义词、近义词的查询,将这种改进的算法在煤地质学专业搜索引擎上进行使用,实验结果表明,采用该...  相似文献   

14.
对西周金文形容词的词义系统进行研究,发现西周金文形容词不是孤立存在的,而是相互联系的。词义上的相互联系使西周金文形容词形成一个系统,其系统性主要体现在同义词、反义词和类义词的聚合关系上。从甲骨文到西周金文同义词和反义词的聚合关系是不完全相同的,这说明词语的变化不仅是单个的词的变化,也是词语聚合关系的变化,从一个共时的词汇系统到另一个共时的词汇系统,词语的聚合关系进行了相应的调整。西周金文形容词中同义词、反义词和类义词的聚合关系有的一直在语言系统中传承,直到现代汉语词汇系统中仍然存在。  相似文献   

15.
一种提高文本聚类算法质量的方法   总被引:1,自引:0,他引:1  
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题.  相似文献   

16.
一种基于语义距离的高效文本聚类算法   总被引:6,自引:0,他引:6  
摘 要:提出了一种基于语义进行文本聚类的新方法。该方法从语义上具体分析文档,利用文档具体语义计算文档间的相似度,使得文档聚类结果更合理。文本聚类主要采用最近邻聚类算法,并提出第二次聚类算法改进最近邻算法对输入次序敏感的问题。类特征词的选择上根据相似度权重优胜略汰类特征词,使得最后类特征词越来越逼近类的主题。实验结果表明本文所提出的算法在聚类精度和召回率上均优于基于VSM的K-Means聚类算法。  相似文献   

17.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

18.
为了提高基于标签的个性化推荐技术的准确率,提出了一种基于共同属性和标签共现的标签消歧模型,对已有的基于聚类的标签消歧算法进行改进,针对不同的标签语义问题分别采用不同的方法,缓解了原算法不能识别不同语义的问题。对于多义词语义问题,使用同义词模型进行消歧;对于近义词、同义词语义问题,使用近、同义词模型进行消歧,并将该模型应用于个性化推荐算法。利用公共数据集MovieLens Latest Datasets进行了个性化推荐实验。实验表明,当用户推荐项目数量递增时,推荐算法的准确率和召回率都有提高,能有效消除标签中存在的歧义。  相似文献   

19.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

20.
反义词是语言学研究的一个焦点问题,但对由两个意义相对或相反的词或语素构成的成对反义词的研究却不多。运用认知语言学中的概念整合理论,对成对反义词整体意义构建过程中的认知机制进行尝试性的研究可以得出,构成词的原型语义是成对反义词意义构建的基础,而转喻和隐喻是成对反义词意义构建的两种机制。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号