首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 687 毫秒
1.
针对传统聚类分析只采用单一相似测度进行刻画的不足,提出了一种组合相似度的聚类分析思路.同时在实际问题中,由于聚类问题的复杂性、模糊性和不确定性,聚类信息常常是包含精确实数形式、区间数形式、模糊数形式等多种形式的混合型多指标信息,为此利用组合相似度的聚类思想对这种混合多指标信息进行了聚类分析.该聚类分析方法相对于传统单一方法更加全面,并考虑了混合指标信息.最后给出了一个算例,证明了所提方法的有效性.  相似文献   

2.
针对大型事务数据库中频繁集的多属性聚类问题,提出一种高效的频繁集聚类算法.以往聚类算法采用基于距离的计算方法,由于受到属性数据的制约,在频繁集挖掘中具有一定的限制.在属性聚类基础上,基于连接对频繁集进行聚类.在算法中先找出数据点的邻居和计算相似度,构造邻居矩阵;然后计算连接数目,确定邻居数目矩阵;最后通过设置判定函数和阈值确定聚类数.通过实验证明,算法能够不仅能有效地完成频繁集的多属性聚类问题,而且还可以进一步发现频繁集在某一层次的相关性.  相似文献   

3.
针对现有微博社区发现的准确性与效用性问题,提出了一种高效的基于用户内容相似度的微博社区发现算法。首先对微博用户兴趣模型进行分析,进而挖掘微博意见领袖,通过AP算法对意见领袖进行兴趣聚类,以聚类结果为社区中心结合模块度优化算法完成微博社区发现。经实验验证了该方法可以更好地发现微博社区结构。  相似文献   

4.
聚类集成已经成为数据挖掘和机器学习中的热门研究课题,尽管近年来取得了重大进展,但目前聚类集成的研究仍存在两个具有挑战性的问题.首先,大部分集成算法倾向于在对象的层面研究相似度,缺乏发掘簇层面信息的能力;其次,目前许多集成算法仅仅关注簇内对象的直接共现,忽略了簇与簇之间的关系.针对这两个问题,提出一种基于簇间连接的元聚类集成算法,首先根据Jaccard相似度构造一个簇相似度矩阵,然后利用连接三元组细化这个相似度矩阵,最后通过图划分和成员分配得到最后的结果 .理论分析和实验测试表明,提出的算法不仅能产生较好的聚类结果,而且受聚类集成规模的影响较小.  相似文献   

5.
基于数据模式聚类算法的离群点检测   总被引:1,自引:0,他引:1  
针对传统模式挖掘算法在事务包含模式定义上未考虑模式间的包含关系而使聚类结果不够优良的问题, 提出一种新的基于模式聚类的离群点检测算法PCOT, 该算法适合于高维数据空间, 采用一种新的事务包含模式, 通过将模式表示成超图, 用超图分割方法对模式进行聚类. 实验与分析结果表明, 该算法能有效地在高维稀疏空间中发现离群点.  相似文献   

6.
由于人类活动的复杂性和多维性,活动模式的挖掘具有很大的挑战性.本文提出了一个基于时序活动序列计算用户之间的相似度,通过聚类分析来挖掘活动模式和社会人口学模式的方法,对模式进行趋势分析.实验结果表明,提出O(p(m–p))的相似度算法,可以有效地进行聚类.在此基础上,通过时序活动图和概率密度函数(PDF)图的可视化以及统...  相似文献   

7.
现有话题检测的主要方法是利用Single-Pass及其改进算法进行聚类分析,没有考虑文本的结构特点,相似度计算方法单一,从而影响准确度.针对此问题,改进了Single-Pass的相似度计算方法,综合考虑文本的标题、摘要、时间、地名以及来源等要素,采用层次分析法计算并赋以不同权重,提出一种多相似度计算组合策略.考虑到食品安全是一个广受关注的话题,实验通过网络爬虫抓取并筛选了最近3年食品安全方面的媒体信息,以此作为数据进行分析,结果表明,采用本文提出的改进Single-Pass聚类算法,话题检测准确度更高.  相似文献   

8.
针对不确定数据流聚类问题,提出一种基于引力相似度和相对密度的聚类算法.采用在线/离线两阶段处理框架,综合考虑元组之间的相似度与元组自身的不确定性,利用引力相似度为每个不断到达的数据元组寻找可能归属的微簇,以新的离群点处理和在线维护机制来适应数据流的演化情况,并在离线层使用相对密度算法进行聚类,不需要预先指定聚类数且可处理任意形状的微簇.实验结果表明,与现有的聚类方法相比,所提出的算法具有更高的聚类质量和准确度.  相似文献   

9.
K-Modes算法是一种经典的字符型数据聚类算法,在处理对象属性值距离时,采用简单的0-1匹配,不能体现出属性值之间潜在的相似关系.通过图形聚类理论中的连接度来度量字符型属性值之间的相似性,改进了传统的K-Modes算法.实验结果表明该方法较传统的K-Modes算法有一定的改善.  相似文献   

10.
确定“最佳聚类数”一直是聚类算法面临的一个难题。为了确定一族合理的聚类数而不是单个聚类数,提出了一种基于谱分析的算法,并能处理较为复杂的数据集。该算法构建了数据点之间的相似度图,在不同的分析粒度下,用图上的“随机游走”来传播相似度,采用了一个新的评判标准,“广义特征差”来寻找聚类数族。实验结果表明该算法在聚类数不唯一的情况下能够有效地确定聚类数,并且和其他几种算法相比具有较优的计算复杂度。  相似文献   

11.
提出一类基于谱聚类算法的带有节点特征的社区发现算法(SCSA),该算法首先将带有节点特征的网络图转化为加权图,其中边的权重用节点特征相似度度量,然后将谱聚类算法应用到加权图上进行社区检测.SCSA算法将带有节点特征的网络图分成K个社区,每个社区内节点不仅连接良好而且具有相似的特征属性.注意到不是所有节点的特征在社区划分过程中都是有用的,与划分无关的特征信息会降低社区发现算法的准确度.为此,提出了一类节点特征权重自调整机制嵌入到谱聚类中以提高社区检测质量.数值实验的结果验证了所提算法的有效性.  相似文献   

12.
谱聚类划分算法是经典社区发现算法之一,由于目前构造的相似图承载的社区结构信息较少,导致聚类效果与理想效果具有较大差距,因此,提出了基于DCBM的马尔可夫谱聚类社区发现算法MSCD.首先,基于DCBM模型提出了以节点间连接概率为元素的概率矩阵,并建立了概率矩阵与相似矩阵之间的映射关系;其次,利用马尔可夫链重构了谱聚类的相似图;最后,使用重构的相似图对网络进行社区划分.在人工合成网络和真实网络上与SC,MRW-KNN和FluidC三种典型算法进行了对比实验.实验结果表明,MSCD算法具有更加高效的聚类性能,能够揭示更加清晰的社区结构.  相似文献   

13.
文章研究了利用序列模式的挖掘结果对序列数据库进行再发现的问题,提出一种利用已发现序列模式对数据库中的数据序列进行聚类的方法SPSC.该方法利用发现的序列模式定义了数据序列之间相似度函数和数据序列分组的平均值,使得经典聚类方法k-means可以应用于序列型数据,实现了对包含相似模式的数据序列进行聚类;理论分析和实验表明,与已有的序列聚类方法相比,该文所提出的方法不仅可以得到更加优化的聚类,而且效率更高.  相似文献   

14.
针对往往不能提前预知社区个数的情况,提出了基于相似度聚类的二分网络社区发现算法(similarity clustering algorithm,简称SCA).算法通过计算U类节点之间的相似度获得核心节点,同时选取核心节点邻域中的节点扩展得到社区,将未划分到社区中的孤立点和只包含一个节点的社区分别放入与之联系最紧密的社区中,最后V类节点划分到已有的社区中得到完整的社区划分结果.通过在人工数据集与真实网络上的分析,分别利用归一化互信息和模块度作为评价指标,实验结果表明,SCA比BRIM等算法能够更有效挖掘二分网络社区结构,具有比较良好的社区划分效果.  相似文献   

15.
本文针对垃圾邮件包含较多干扰信息,导致文档相似度度量效果较差的问题,将Needleman-Wunsch算法引入到文本相似度计算中,并针对性地提出一种高效的聚类算法,为反垃圾邮件系统提供了一种有效的垃圾邮件鉴别技术.与传统的仅基于知网、基于语义等聚类算法相比,本方法在算法效率和聚类质量上都有很大的改进.  相似文献   

16.
基于兴趣相似性的Web用户聚类   总被引:8,自引:0,他引:8  
按照访问兴趣对用户进行聚类分析是Web挖掘的一项重要内容. 在用户访问兴趣度量中综合考虑网页内容和浏览路径因素;在聚类分析中,依据访问兴趣定义提出新的相似度计算方法. 利用传递闭包法对用户进行聚类. 算法可以提高用户聚类的准确性,试验结果验证此算法是有效的.  相似文献   

17.
为了快速准确地对数控系统中的软件故障实施定位,提高数控系统可靠性,提出将改进的相似路径算法和模糊判断技术应用到数控系统软件故障定位领域。根据监控器记录的信息,生成失效路径;根据改进的相似路径算法,由程序控制流图和失效路径生成相似路径集;通过程序切片算法,将可疑代码的范围减少;同时采用模糊数学来判断可疑代码,进而对控制流类故障进行定位。为了验证该方法的可行性,事先在NURBS插补模块中植入故障,并对该模块进行故障定位实验。实验结果表明,该方法是一种行之有效的数控系统软件故障定位方法。  相似文献   

18.
介绍了数据聚类算法,提出了采用基于相似度的聚类算法进行客户分类的思路,给出了相似度的计算方法及客户分类的算法,并通过试验结果证明了算法对客户分类的有效性.  相似文献   

19.
一种提高文本聚类算法质量的方法   总被引:1,自引:0,他引:1  
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题.  相似文献   

20.
设计了一种新的有效稳定的彩色图像分割算法.该算法首先利用均值漂移(MS)算法预分割图像,产生了许多保留了图像不连续特征的分割区域,然后构建预分割区域的相似度图,并利用谱聚类集成算法对相似度图进行全局最优划分.为了避免在构建相似度图时仅利用像素点的亮度信息而产生一些不合适的划分结果,定义了一个局部占优度的变量,该变量综合考虑了局部区域像素的亮度和细节信息.本文算法在彩色图像上的实验结果验证了其高效的运算速度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号