首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
针对文本分类和信息检索中的信息冗余和计算复杂等问题,在概念层次网络的基础上,提出了反义词、同义词、近义词的聚类算法.算法的基本思想是将词语的语义映射到HNC概念符号体系上,将所有的词语都变成一系列符号串,并在计算语义相似度和语义距离的基础上,在词语的HNC符号语料库上实现同义、近义、反义的聚类.  相似文献   

2.
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Movers Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。  相似文献   

3.
针对汉语语句分析不能提供深层语义信息的问题,提出一个基于HNC和描述逻辑的问句语义块分析模型,利用HNC概念符号知识深入到词语的语义层面,从概念类别的内涵出发,对问句的逻辑结构进行了初步分析。采用描述逻辑推理机制得到了问句的语义视图,并实际验证了语义视图的有效性。  相似文献   

4.
由于词语的多语义问题和传统的文本表示与聚类过程相互独立的问题,导致文本聚类准确率较低。针对上述问题提出一种基于多语义文本表示的自适应模糊C-均值(Multi-semanticSrepresentationSbasedSadaptiveSfuzzySC-means, MSR-AFCM)聚类算法。通过将词语软聚类划分成多个词簇构建多个语义空间,将语义空间个数作为文本初始聚类数目,利用词语的语义隶属度计算每个文本属于文本空间的语义隶属度,并以此为对隶属度进行初始化。在算法运行过程中,根据更新的文本语义隶属度和文本分布状况,逐步剔除冗余的文本空间,以达到优化聚类数目的目标。实验结果表明,MSR-AFCM算法相较于传统的聚类算法有更高的准确率和兰德系数,验证了算法的有效性。  相似文献   

5.
短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用 Skip-gram模型(ContinuousSkip-gramModel)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入 EMD(EarthMoversDistance)来计算短文本间的相似度;最后将其应用到 Kmeans聚类算法中实现短文本聚类。在 3个数据集上进行的评测结果表明,效果优于传统的聚类算法。  相似文献   

6.
针对文本聚类计算量大的特点,提出了一种将概念格和Newman快速算法两种理论相结合的聚类方法。首先将文本表示为特征词语集,用统计方法抽取特征向量,同时,用IDF权重计算公式来计算词语的权重并将词语权值离散化;然后,用形式背景表达关键词,通过相似度公式,计算出形式概念相似度大小;最后,构造Newman网络,根据Newman网络算法规则对待聚类文本进行聚类。实例表明,该算法不仅得到了正确的分类结果,而且大大降低了算法的复杂度,Newman快速算法仅为 。  相似文献   

7.
一种基于本体的文本聚类方法   总被引:2,自引:0,他引:2  
基于本体的文本聚类方法,在文本表示上引入WordNet,并定义了关键概念集,使用WordNet中的概念节点及概念间的语义关系减少文本特征向量维数,提高聚类效果.聚类过程中,算法使用文本的关键概念集和概念特征向量计算文本相似度,利用文本的关键概念集标注聚簇为聚类结果中的各个簇提供解释.实验结果表明,该方法有效地减少了文本特征向量的维数,提高了文本聚类效果以及聚类结果的可解释性.  相似文献   

8.
知网、HNC和框架网的语义知识表示异同   总被引:1,自引:1,他引:0  
语义知识的表示和使用是自然语言处理的重要方面.知网从描述词语之间的关系以及属性之间的关系入手建立了中文词语语义知识的表示方法.HNC设计了语义概念基元和语句基元,形成了自然语言的概念空间,用基元描述语句理解处理中知识.不同于以上两种方法.框架网则是根据单词的不同的义项对应不同的语义框架,用不同的语义唤醒激活不同的框架,从而理解词语的语义.在此比较了三者在语义知识表示方面的异同.  相似文献   

9.
提出一种基于预聚类的潜在语义文献检索算法.首先,对待检索文档集进行预聚类,在潜在语义分析方法的基础上采用k-means聚类算法,寻找出各聚类簇的中心点;其次,在检索时,通过计算查询向量与各聚类簇中心点的相似度来进行检索.此方法有效解决了现有潜在语义文献检索算法在检索时需耗费大量时间计算查询向量与各文本向量之间的相似度的不足.另外还针对文献检索的特点,重新给出特征权重计算方法.实验结果表明,该方法缩短了检索的时间,提高了检索的效率.  相似文献   

10.
目前,在基于HowNet进行语句语义相似度计算的算法中,没有考虑语句中的不同词语对语句之间相似度值的不同贡献程度,以致计算结果不理想.为了更好地解决上述缺陷,提出了一种频率增强语句语义相似度算法.该算法利用HowNet作为词典库,在同时考虑义原距离和义原深度的条件下,进行词语相似度计算;在此基础上算法进一步将词语在语料库中的频率函数作为权重值,引入至语句的语义相似度计算中,以降低高频率词语在语句相似度值中的比重.实验表明,改进的算法在语句相似度计算结果上与人们的主观判断更接近,结果更合理.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号