首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
基于词间语义相关度的搜索结果聚类算法   总被引:1,自引:1,他引:0  
将查询结果根据内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词间语义相关度的搜索结果聚类算法,该算法以词为聚类的核心,词所出现的文档为词的属性,根据词在搜索结果文档中共现的情况来划分类别.该方法可以充分利用词间的语义相关性,类别划分后即可确定类名.实验结果表明,对搜索结果聚类时与K-Means和STC算法相比,质量上有所提高.  相似文献   

2.
基于结构特征聚类的相似代码检索方法   总被引:1,自引:1,他引:0  
针对基于图的相似代码检测方法复杂度高、对代码多样化识别能力有限等问题,提出基于结构特征聚类的方法。首先将代码表示为控制依赖树,在此基础上执行代码标准化,消除代码表达方式的多样化,以便识别语法表示不同,而语义相似的代码;然后采用特征向量描述程序的结构信息,将复杂的图的相似度求解问题转换为简单的相似向量的聚类问题,快速提取可能相似的候选代码。实验结果表明,方法与Gabel等人提出的方法相比,可以识别更多的代码多样化。  相似文献   

3.
直接依靠人的理解判断对内容进行分类,需花费大量的时间与精力,为了解决文本内容的自动聚类问题,该文在信息系统理论与自组织神经网络理论的指导下,利用智能技术得出了内容的分类结构。提出了基于智能聚类的内容分类方法,利用自组织神经网络的学习算法进行内容的聚类,并根据所提出的方法设计了基于智能聚类的内容分类示范系统,进行了应用研究,验证了该方法的有效性。  相似文献   

4.
根据多维数据间相似度的定义,阐述了数据相似度与向量范数之间的关系,提出了一种基于范数的多维数据模糊聚类方法·该方法把每一个多维数据看做一个多维向量,利用与向量有关的范数对其中的数据进行排序,得到一个近似聚类族解·同理,对每一个近似聚类使用另一个范数做进一步分解,求解多维数据模糊聚类的近似解·最后,对得到的每一个近似聚类使用传统方法求出准确聚类·使用该方法不需建立模糊相似关系即可进行多维数据的近似聚类,总共所需访问数据库的次数也较小,因此具有较好的性能,特别适合于针对大型数据库的聚类·  相似文献   

5.
考虑到传统信息检索算法在检索数字文献推广信息时存在安全性差、检索效率低的问题,提出了基于语义相似度的数字文献推广信息智能检索算法.基于数字文献检索信息文档,计算了数字文献推广信息中检索词的相关度,根据语义相似度,计算数字文献推广信息的权重值,利用数字文献推广信息数据库的查询结果,结合李雅普诺夫定理,提取数字文献推广信息关键特征,根据采集原始数据集的时间,计算数字文献推广信息的平均检索概率,利用过滤器清理数字文献数据库的局部推广信息,采用全局过滤器,清洗数字文献数据库的推广信息,通过定义数字文献推广信息检索元素值,计算了关键词之间的语义相似度,结合数字文献推广信息检索算法设计,实现了数字文献推广信息的检索.实验结果表明,基于语义相似度的数字文献推广信息智能检索算法不仅可以提高数字文献推广信息的检索效率,还具有很高的安全性.  相似文献   

6.
针对现有事务聚类算法复杂度高、精确性不够的问题,提出了基于用户访问兴趣度的事务聚类算法。首先,在Web日志预处理阶段,通过用户兴趣度生成算法得到用户兴趣度事务,减少了聚类操作的数量,提高了聚类结果的准确性;其次,给出了事务相似度的度量方法,并得到事务相似度矩阵以实现事务聚类。该算法减轻了数据挖掘的任务,提高聚类结果的准确性,能广泛地应用于电子商务领域。  相似文献   

7.
结合Web用户浏览行为的特点,提出了一种基于路径的Web页面相似度聚类算法,使用用户的浏览行为描述和用户对页面的访问次数建立Web站点的访问矩阵,并在此基础上对站点进行URL用户聚类。最后,使用标准数据集进行了试验,证明基于此种相似度计算方法的URL聚类算法对Web用户聚类是有效的。  相似文献   

8.
一种基于用户浏览路径的Web用户聚类方法   总被引:1,自引:0,他引:1  
在Web用户聚类中,针对具有相似浏览路径和兴趣的用户聚类问题,提出一种新的相似度计算方法.该方法将事务路径看作有序时间序列,以代替用户的兴趣路径;同时结合用户事务路径的停留时间来计算相似度.通过这种方法计算出的用户相似度更接近真实,达到提高web用户聚类的效果,为用户提供更优质的个性化服务.对比实验证明该方法的有效性.  相似文献   

9.
引入Vague集(值)的距离概念及Vague集(值)的贴近度概念,并证明了这一新的贴近度的性质.利用此贴近度概念给出了基于Vague集的模糊聚类方法,这一方法对于数据挖掘研究有很好的参考价值.  相似文献   

10.
文根据图像的全局色彩和区域纹理信息,使用自组织映射神经网络的方法对图像内容进行聚类和检索。全局色彩在HSI空间使用区域累加的方法,避免了维数过大的问题。用区域纹理描述的方法解决了使用单一色彩带来的不准确性;自组织映射网络所特有的特征选择和无监督学习等特性,实现了对视觉相似图像的聚类。  相似文献   

11.
针对传统信息量计算方法中仅考虑WordNet内的上下位关系,而未考虑部分整体关系问题,提出一种基于扩展关系的信息量计算方法,并验证了该方法的优越性.应用该方法能改进词语或概念的语义相似度计算结果.  相似文献   

12.
一种基于概念相似度的文本模糊聚类方法   总被引:4,自引:0,他引:4  
文本挖掘是数据挖掘的一个重要研究领域。基于形式概念分析和概念相似度,给出了一种新的文本模糊聚类方法。该方法不仅考虑了关键词之间的语义关系,而且通过非距离计算得到模糊相似矩阵。可根据不同要求,得到不同的聚类结果,具有较好的灵活性。最后通过实例,说明了给出算法的可行性。  相似文献   

13.
一种提高文本聚类算法质量的方法   总被引:1,自引:0,他引:1  
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题.  相似文献   

14.
一种基于语义距离的高效文本聚类算法   总被引:6,自引:0,他引:6  
摘 要:提出了一种基于语义进行文本聚类的新方法。该方法从语义上具体分析文档,利用文档具体语义计算文档间的相似度,使得文档聚类结果更合理。文本聚类主要采用最近邻聚类算法,并提出第二次聚类算法改进最近邻算法对输入次序敏感的问题。类特征词的选择上根据相似度权重优胜略汰类特征词,使得最后类特征词越来越逼近类的主题。实验结果表明本文所提出的算法在聚类精度和召回率上均优于基于VSM的K-Means聚类算法。  相似文献   

15.
通过分析现有音频检索中存在的问题,提出了一种对语音数据进行语义自动标注的方法,建立了一种新的音频本体库的检索模型,并对今后的研究方向进行了展望。  相似文献   

16.
基于互信息的Web文档聚类方法   总被引:2,自引:2,他引:0  
由于网络信息的激增,如何充分利用大量的信息,并有效地为Web用户服务成为一个急需解决的问题。相关研究表明利用Web文档聚类的方法可以缩小信息检索的范围,提高查询准确率。通过分析Web文档的特征以及常用Web文档聚类方法的优缺点,提出了一种基于互信息理论的Web文档聚类的方法。在聚类的过程中,计算特征词之间的互信息值,根据阈值判断特征词是否属于同一类别。实验结果表明,该方法与K-Means聚类算法相比较,在准确率和召回率方面均有提高。  相似文献   

17.
搜索引擎是目前最主要的WWW信息检索的工具 ,然而 ,用户对当前搜索引擎的检索效果并不满意。论文给出了基于文档文本内容和文档间超链信息的混合相似度计算方法,并给出了基于混合相似度的模糊(软 )聚类算法HTSC。对HTSC算法进行了理论分析 ,并对其中的核心算法进行了初步的实验验证。该算法可对搜索引擎返回的结果进行模糊聚类 ,以方便用户从中找到真正需要的信息。  相似文献   

18.
基于内容的视频多模式检索方法   总被引:1,自引:0,他引:1  
在视频数据的检索方法方面,采用单一媒体的处理技术比较多,基于视频数据所表现的内容语义进行检索的提案很少,而且能够将视频数据与其相关的其他形式的数据整合并高效利用,保障视频数据在安全、高效的网络下进行多模式检索的研究也不多见。在检索方法上从解决这个问题入手,提出了多模式的视频特征提取与检索方法。该方法从视频语义特征的角度构建视频数据的语义特征库,将与视频语义相关的声音、字幕、音乐、剧情脚本、新闻文稿等信息特征进行整合,以人像、字幕、语音、视频镜头识别和剧情脚本分析的组合技术,利用语音相关性测定、选择字幕帧,边缘提取、字幕区域二值化和小波包分解、核函数技术等方法从语音、视频中提取语义特征,建立视频数据语义特征的多模式提取和检索模型。  相似文献   

19.
针对传统的向量空间模型在文本聚类中的局限性,提出了基于潜在语义分析模型的中文文本聚类系统,并引入WinSTAR作为聚类分析工具,用一个中文文本集作为实例进行验证。实验证明,该方法切实有效,可以提高文本聚类的准确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号