首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 689 毫秒
1.
一种基于知网的词汇语义相似度改进计算方法   总被引:4,自引:0,他引:4  
汉语词语语义相似度计算是中文信息处理中的一个关键问题.在知网(HowNet)环境下,通过分析影响词汇相似度计算结果的概念层次树结构,提出了一种同时考虑层次树深度、密度及语义路径等多因素的义元相似度计算方法,并应用于词汇相似度计算过程.实验结果表明,该方法使词汇相似度计算结果更趋于合理,绝大部分结果更符合人们的日常体验,有效提高了词汇相似度计算结果的精确度和准确性.  相似文献   

2.
汉语词语语义相似度计算是中文信息处理中的一个关键问题。在知网(HowNet)环境下,通过分析影响词汇相似度计算结果的概念层次树结构,提出了一种同时考虑层次树深度、密度及语义路径等多因素的义元相似度计算方法,并应用于词汇相似度计算过程。实验结果表明,该方法使词汇相似度计算结果更趋于合理,绝大部分结果更符合人们的日常体验,有效提高了词汇相似度计算结果的精确度和准确性。  相似文献   

3.
目前,在基于HowNet进行语句语义相似度计算的算法中,没有考虑语句中的不同词语对语句之间相似度值的不同贡献程度,以致计算结果不理想.为了更好地解决上述缺陷,提出了一种频率增强语句语义相似度算法.该算法利用HowNet作为词典库,在同时考虑义原距离和义原深度的条件下,进行词语相似度计算;在此基础上算法进一步将词语在语料库中的频率函数作为权重值,引入至语句的语义相似度计算中,以降低高频率词语在语句相似度值中的比重.实验表明,改进的算法在语句相似度计算结果上与人们的主观判断更接近,结果更合理.  相似文献   

4.
为了有效地获取可比语料,选取汉柬双语新闻文档作为可比语料库的候选语料,提出一种融合发布时间要素、实体要素和主题分布的可比语料获取方法.该方法首先计算文本的主题概率分布的JS距离,并融合各主题和要素特征,计算文本相似度;然后利用改进型的层次聚类算法对双语文本进行聚类,最后从聚簇类结果中获取可比语料.与基于词典的文本相似度计算方法进行聚类相比,该文方法有更高的Purity和F值并且获得的高质量的可比语料更多,说明了本文方法的有效性.  相似文献   

5.
针对分布式建立与存储的领域本体主题图在融合过程中的语义与结构重复问题以及冗余信息的判断与消除问题,提出了基于语义词典与语料库相结合的主题图融合算法(TMMC),给出了概念相似度计算以及同义关系、整体部分关系等的处理方法.对本体中概念进行基于HowNet语义词典及其他语义词典的多层次相似度计算,定义概念间不同语义关系的融合规则,针对专业领域本体中大量术语词典未收录的问题,提出基于语料库的概念相似度算法,并对计算机教育专业领域扩展主题图进行了融合实验.实验结果表明,TMMC提高了融合的准确率与查全率.  相似文献   

6.
当前许多领域信息都采用表格形式展现,因此,如何从表格中抽取本体逐渐引起了人们的关注.为了提高从Web表格中抽取本体实例的准确性,提出了基于语义相似度的词汇语义类的获取方法.该方法采用了基于SVM的语义相似度计算方法,提高了判断语义相似度的准确性,克服了以前依靠句法相似度分析表格结构存在的局限性.最后,根据实验结果,对该方法的性能进行评估.实验结果显示,该方法可以有效地从Web表格中抽取本体实例.  相似文献   

7.
基于LDA的文本聚类在网络舆情分析中的应用研究   总被引:1,自引:0,他引:1  
针对传统的基于词语的文本聚类算法忽略了文本中可能具有的隐含信息的问题,提出了一种基于LDA(latent dirichlet allocation)主题模型的文本聚类算法。该方法利用TF-IDF算法和LDA主题模型分别计算文本的相似度,通过耗费函数确定文本相似度的融合系数并进行线性结合来获取文本之间的相似度,同时使用F-measure值来对聚类结果进行评估。在构建LDA主题模型时,采用Gibbs抽样来进行参数估计,通过贝叶斯统计的标准方法进行最优主题数的确定。从仿真实验的聚类结果的准确性和稳定性来看,该方法相比传统的文本聚类算法具有更良好的效果。  相似文献   

8.
提出一种结合LDA及语义相似度的商品评论情感分类方法。该方法首先使用LDA对商品语料库建模,获取文档-主题矩阵;人工选择k对褒义词、贬义词,基于HowNet语义相似度计算主题(评价对象+观点内容)与各个褒义词和贬义词的相似度,达到对观点词极性判断,计算文本观点词情感极性的加权和作为文本的情感极性。实验表明,与基于向量空间的SVM分类方法相比,该情感分类方法在分类指标上表现更好。  相似文献   

9.
为改进已有中文文本聚类中数据非结构化导致的算法准确度不高及特征向量高维稀疏导致算法复杂度过高的现状,提出一种基于深度词汇网络学习的中文文本聚类算法,解决了优化数据非结构化带来的聚类结果准确性低及特征向量高维度带来的高复杂度问题。首先建立词汇网络用以抽取关键义原,以词语义原代替单词作为网络节点,不仅避免了语义消歧,同时考虑到词语间语义相似性与词汇相关性,使所提取的特征向量更能表现出文章的主旨,提高聚类效果;另一方面,训练深度学习网络对特征向量降维处理,在降维的同时保留尽可能多的信息,大大减低算法的执行时间。聚类质量检测方法(F-measure)的结果表明,本文算法比k-means算法在中文文本聚类中有更好的表现。  相似文献   

10.
搜索引擎的聚类浏览技术可以帮助用户更好地在搜索引擎返回的结果中定位自己感兴趣的信息.TS-FIC算法通过加工关联规则挖掘出来的频繁项集作为类标签,形成初始聚类,利用频繁项集之间的语义关系,把初始聚类组织成树结构.在形成最终聚类时,引入语义相似度作为计算类相似度的一个考量方面,最后利用一种新的排序方案把最终结果排序显示给...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号