首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
文章提出基于语义相似度的Web文档聚类算法--WDCSS算法,依据文档关键词之间的相似度生成最小树,通过概率统计来确定最小树中相似度阚值,并对最小树中进行切割,同时对较小的子类进行划分合并.实验表明,WECSS不仅能为具有各种不同聚类形状的数据集准确地分析出数据中存在的合理聚类和例外样本,而且避免了用户参数选择所造成聚类质最降低问题.  相似文献   

2.
基于递归聚类索引树的剪枝相似检索算法   总被引:2,自引:0,他引:2  
文章提出了一种新的适用于高维特征矢量相似检索动态聚类索引树结构。针对由于类区域相互重叠而导致相似检索费用增加的问题 ,提出了基于该索引树的“剪枝”相似检索算法 ,应用该算法进行相似检索 ,其检索效益比耗尽搜索法和基于 SS树的相似检索法都要高。  相似文献   

3.
基于智能聚类的相关度内容检索方法   总被引:3,自引:0,他引:3  
为了提高内容检索的相关度与检索效率,基于信息系统理论与自组织神经网络理论,提出基于智能聚类的相关度检索方法,并设计了检索算法.经过训练的自组织神经网络通过对查询需求进行聚类,使得内容的检索只在与查询需求同类的文本内容中进行,提高了检索效率,并通过在同一个向量空间对查询向量与文本内容的语义向量进行相似度衡量,为用户选择更相关的内容提供依据.设计开发了基于智能聚类的内容检索试验平台,验证了该方法的有效性.  相似文献   

4.
5.
首先分析了源代码相似度检测系统研究现状与存在问题。然后介绍了源代码相似度识别方法,给出了检测系统设计与实现,主要是系统框架设计、检测模块设计和检测结果输出等,最后对检测系统做了测试和效果分析。  相似文献   

6.
根据多维数据间相似度的定义,阐述了数据相似度与向量范数之间的关系,提出了一种基于范数的多维数据模糊聚类方法·该方法把每一个多维数据看做一个多维向量,利用与向量有关的范数对其中的数据进行排序,得到一个近似聚类族解·同理,对每一个近似聚类使用另一个范数做进一步分解,求解多维数据模糊聚类的近似解·最后,对得到的每一个近似聚类使用传统方法求出准确聚类·使用该方法不需建立模糊相似关系即可进行多维数据的近似聚类,总共所需访问数据库的次数也较小,因此具有较好的性能,特别适合于针对大型数据库的聚类·  相似文献   

7.
一种基于概念相似度的文本模糊聚类方法   总被引:4,自引:0,他引:4  
文本挖掘是数据挖掘的一个重要研究领域。基于形式概念分析和概念相似度,给出了一种新的文本模糊聚类方法。该方法不仅考虑了关键词之间的语义关系,而且通过非距离计算得到模糊相似矩阵。可根据不同要求,得到不同的聚类结果,具有较好的灵活性。最后通过实例,说明了给出算法的可行性。  相似文献   

8.
将三支聚类思想和聚类集成思想相结合,提出一种基于样本相似度的三支聚类算法.首先,通过随机选择样本部分特征的方法生成一组基聚类成员,以此构造样本相似度,并在此基础上定义划分有效性指标,用以自动计算最优阈值;其次,使用投票法对基聚类成员集成得到初步的聚类结果;最后,利用最优阈值对聚类结果划分,得到每个类的核心域集合和边界域集合.UCI(University of California Irvine)数据集上的实验结果证明了所提出方法的有效性.  相似文献   

9.
一种提高文本聚类算法质量的方法   总被引:1,自引:0,他引:1  
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题.  相似文献   

10.
为了分析交叉口车辆运行轨迹的规律性, 提高环形交叉口交织段的通行能力, 提出基于时空相似系数的环形交叉口车辆轨迹聚类方法。 针对规定区域车辆轨迹, 分析车辆轨迹时空信息并计算得到时空相似系数, 同时采用谱聚类进行聚类, 将交叉口区域内一段时间内的轨迹聚类情况进行可视化展示。 经过实例验证, 所提出的方法能够有效地约简数据, 并可提取出轨迹信息中的潜在规律, 为进一步的决策工作提供一定的参考价值。  相似文献   

11.
基于空间短文本对象的检索策略   总被引:1,自引:0,他引:1  
针对传统空间文本检索策略中的效率和有效性问题, 对如何从给定的空间文本对象集合中快速有效地检索出top-k个近似结果进行研究。基于一个空间检索的通用框架, 提出一种基于空间文本对象的快速策略, 用于满足用户对效率与有效性的要求。实验结果证明该策略优于现有方法。  相似文献   

12.
直接依靠人的理解判断对内容进行分类,需花费大量的时间与精力,为了解决文本内容的自动聚类问题,该文在信息系统理论与自组织神经网络理论的指导下,利用智能技术得出了内容的分类结构。提出了基于智能聚类的内容分类方法,利用自组织神经网络的学习算法进行内容的聚类,并根据所提出的方法设计了基于智能聚类的内容分类示范系统,进行了应用研究,验证了该方法的有效性。  相似文献   

13.
在比较恶意代码的分析技术的基础上,将自相似特性技术引入恶意代码的动态分析中。跟踪同类型的恶意程序,采集API函数的调用序列,提取关键特征信息,得到时间调用序列,并进行归一化处理。通过重新标度权差分析算法、回归方差算法和Higuchi算法,分别计算程序的Hurst指数,匹配同种恶意程序的自相似性。将恶意程序与正常程序的API调用序列和Hurst指数进行对比实验表明,恶意程序调用API函数与正常程序存在差异,并且同一类型的恶意程序确实具有自相似性,从而能够动态检测出恶意程序。  相似文献   

14.
提出一种用拉普拉斯图的谱系数夹角谱特征来描述图像几何结构的方法,同时研究了基于图的谱聚类系统.首先将序列图像以角点的形式构成拉普拉斯矩阵;然后分解该矩阵,结合特征值和其特征向量计算图中各点的谱系数夹角谱特征;再以局部保持投影方法将这些向量内嵌到模式空间,并在其特征空间用模糊c-均值算法进行聚类分析.结果表明,以拉普拉斯图的谱系数夹角谱特征解决了图中各点在向量空间的分布及其对应关系,在模式空间进行的聚类分析是有效的.  相似文献   

15.
0 IntroductionText clusteringis the process of grouping the documentsinto the classes or clusters so that documents within acluster have high si milarityin comparisonto one another ,butare very dissi milar to documents in other clusters .In applica-tions ,the document is always represented by vector spacemodel(VSM) in which each document is represented as a vec-tor and each unique termis of one di mension of this vector .Then,documents are clustered bycalculating distance or si mi-larity[1], …  相似文献   

16.
相似词分析是自然语言处理领域的研究热点之一,在文本分类、机器翻译和信息推荐等领域中具有重要的研究价值和应用意义。针对新浪微博短文本的特点,给出一种带词性的连续词袋模型(POS-CBOW)。该模型在连续词袋模型的基础上加入过滤层和词性标注层,对空间词向量进行优化和词性标注,通过空间词向量的余弦相似度和词性相似度来判别词向量的相似性,并利用统计分析模型筛选出最优相似词集合。实验表明,基于POS-CBOW语言模型的相似词分析算法优于传统CBOW语言模型。  相似文献   

17.
提出了一种基于聚类的支持向量机增量学习算法.先用最近邻聚类算法将训练集分成具有若干个聚类子集,每一子集用支持向量机进行训练得出支持向量集;对于新增数据首先聚类到相应的子集,然后计算其与聚类集内的支持向量之间的距离,给每个训练样本赋以适当的权重;而后再建立预估模型.此算法通过钢材力学性能预报建模的工业实例研究,结果表明:与标准的支持向量回归算法相比,此算法在建模过程中不仅支持向量个数明显减少,而且模型的精度也有所提高.  相似文献   

18.
改进的模糊聚类分析方法在MATLAB中的实现   总被引:1,自引:0,他引:1  
聚类分析就是用数学的方法来研究和处理给定对象的分类.本文通过具体的实例研究,用Matlab这一数学工具编程实现了模糊聚类分析方法.同时对得到的结果通过隶属度的加权进行了修正,得到了更符合实际的分类.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号