首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 632 毫秒
1.
针对当前三支聚类方法不能有效处理数值型数据,且三支聚类结果受阈值影响问题,文章基于邻域关系提出了确定合适阈值的三支聚类方法。首先给出了确定最优K值的改进K-means聚类算法。进而基于邻域关系下的下、上近似引入精度,提出了权衡边界域和精度关系的有效性评价指标。应用该指标,给出了确定邻域下、上近似中最佳阈值的构建算法,进而得到三支聚类的核心域和边界域。最后,通过UCI数据集上的实验验证了该方法的可行性,且该方法有效提高了聚类精度。  相似文献   

2.
将三支聚类思想和聚类集成思想相结合,提出一种基于样本相似度的三支聚类算法.首先,通过随机选择样本部分特征的方法生成一组基聚类成员,以此构造样本相似度,并在此基础上定义划分有效性指标,用以自动计算最优阈值;其次,使用投票法对基聚类成员集成得到初步的聚类结果;最后,利用最优阈值对聚类结果划分,得到每个类的核心域集合和边界域集合.UCI(University of California Irvine)数据集上的实验结果证明了所提出方法的有效性.  相似文献   

3.
针对K均值聚类(K-means)算法处理复杂问题时易陷入局部最优值、聚类质量较差等不足,提出一种基于粒子群的三支聚类算法.该算法先以随机产生的聚类中心组合作为初始粒子,构成粒子群;然后,通过调整算法中的速度公式参数,使粒子在迭代过程中能较快速地找出全局最优解,即最优的聚类中心;最后,采用三支决策的方法考察数据与类的关系,把确定归属的数据分配到类的核心域,归属不确定的数据分配到类的边界域.实验结果验证了所提算法的有效性,在寻找全局最优值和聚类结果准确性等方面算法都具有较好的性能.  相似文献   

4.
将三支决策与密度敏感谱聚类结合,提出了一种基于三支决策的密度敏感谱聚类算法。该算法通过在密度敏感谱聚类的聚类过程引入容差参数得到每个类的上界,然后通过扰动分析算法从上界中分离出核心域,上界和核心域的差值被认定为该类的边界域。聚类结果用核心域和边界域来表示每个类簇,可以更全面地展示数据的结构信息。与传统的硬聚类算法在UCI数据集的实验结果相比较,本文使用核心域计算聚类的评价指标DBI、AS和ACC都有所提升,较好地解决了不确定性对象的聚类问题。  相似文献   

5.
针对传统的社区发现算法无法发现社区中的核心成员和边界成员的缺点,提出了基于PCM聚类算法的Blog社区发现算法,用来识别Blog社区的核心和边界.首先,使用随机行走的方法计算可以衡量两个Blog亲密度的对称社会距离;然后,在对称社区距离的基础上使用PCM聚类算法对Blog进行聚类,得到每个社区中的成员属于社区的概率表示.最后,通过确定相应的概率阈值,确定社区的核心和边界.实验结果表明:该算法能够获得社区中的成员属于社区的概率,根据这个概率可以确定社区中的核心成员和边界成员.  相似文献   

6.
硬聚类要求聚类的结果必须具有清晰的边界,即每个对象要么属于一个类,要么不属于一个类.然而,将某些不确定的对象强制分配到某个类中往往容易带来较高的决策风险.三支聚类将确定的元素放入核心域中,将不确定的元素放入边界域中延迟决策,可以有效地降低决策风险.本文将三支决策理论与传统的谱聚类算法相结合给出了三支谱聚类的聚类算法.该方法通过修改谱聚类算法的聚类过程并获得任一类簇的上界.然后通过扰动分析从该类簇的上界分离出该类簇的核心域,同时上界与核心域的差值认为是该类簇的边界域.在UCI数据集上的实验结果显示,该方法能有效提高聚类结果的ACC、AS、ARI值,并且降低DBI值.  相似文献   

7.
二支聚类要求聚类结果必须具有清晰的边界,即每个对象要么属于一个类,要么不属于一个类.然而在许多实际问题中,一个对象和类别可能会有三种关系:即确定属于、确定不属于和无法确定.为了克服二支聚类的这一问题,三支聚类使用核心域,边界域和琐碎域来表示每个类别,较好地处理了具有不确定性对象的聚类问题.给出一种基于样本稳定性的三支聚类算法.首先使用聚类集成的结果计算出每个数据的稳定性,然后基于阈值将这些数据元素分为两部分:核与环.对核中的数据采用硬聚类进行聚类,对环中的数据通过比较环中数据到聚类中心的距离将它们分到相应类的边界域中.通过以上策略,可以得到三支聚类的核心域和边界域.在UCI数据集上的实验结果显示,该方法能更好地显示出聚类的结构.  相似文献   

8.
针对隶属关系不明确的情况,即样本点属于多个类别的概率接近,高斯混合模型聚类存在较大的误判风险的问题,将三支决策思想融入高斯混合模型中,提出一种基于三支决策的高斯混合聚类算法.新算法计算出数据对象属于各个类簇的后验概率作为决策评价函数,用于确定聚类结果的正域和边界域.由于新算法对边界对象采取了比一般高斯混合聚类算法更加谨慎的操作,避免了直接做出对象属于某一类或不属于某一类的决策所需承担的风险,从而有效减小了误判代价.实验进一步表明,所提出的算法不仅继承了高斯混合聚算法的特点,具有良好的聚类性能,而且还对于非球形数据簇表现出优良的聚类效果.  相似文献   

9.
已有的大多数聚类算法都假设数据集保持不变,然而,很多应用中数据集是会随时间变化的。为此,提出了一种新的三支决策软增量聚类算法。采用区间集的形式表示类簇,区间集的上界、边界与下界就对应着三支决策产生的正域、边界域和负域,并提出了一种基于代表点的初始聚类算法。采用同样的方式对新增数据集进行一次预聚类,以消除数据处理顺序对最终聚类结果产生的影响。为了快速查找新增数据的相似区域,建立了代表点搜索树,并且给出了查找和更新搜索树的策略。运用三支决策策略完成增量聚类。实验结果表明提出的增量聚类算法是有效的。  相似文献   

10.
将数字图像处理中模糊锐化算子与三支聚类进行结合,提出了一种基于图像处理的三支聚类算法。该算法通过逆多元二次核函数将数据集的密度量化为灰度值,对数据总体采用模糊与锐化操作,提取锐化后灰度值较高的数据区域,将低密度区域从原始数据中删除。对灰度值较高的数据采用传统的聚类算法得到不同的类簇,然后对每个类簇利用图像模糊算子得到类簇的核心域,锐化算子得到类簇数据边界域,从而获得每个类簇的三支表示。试验采用不同的UCI数据集,通过比较聚类指标Adjusted Rand Index(ARI),Normalized Mutual Information(NMI)和Adjusted Mutual Information(AMI),验证了该聚类算法的有效性。  相似文献   

11.
通过聚类可以缩小用户近邻空间,从而一定程度缓解传统协同过滤推荐算法存在的可扩展性问题,但因部分用户丢失了有效邻居而使得推荐精度不高。为解决该问题,结合三支聚类提出了一种新的协同过滤方法。该方法分为线下聚类和线上推荐两个步骤。对用户先进行聚类,进而将用户划为核心用户和边界用户,并对这两类用户分别应用不同的聚类规则进行聚类;然后在目标用户所属的簇中产生一个预测评分,对属于多个簇的用户,则聚合每个簇的评分得到其预测结果。实验结果表明,该方法与现有基于聚类的协同过滤算法相比,能有效地提高推荐精度。  相似文献   

12.
在聚类算法和特征向量维数确定的模式样本集中,各样本的每一维表示一个对应特征;鉴于此在基于层次算法的基础上,提出了一种基于概率的快速聚类算法;该算法先对各个特征进行分类,然后按照概率准则,每个向量先自成一类,将其对应概率最大的特征向量合并,减少类别数,直至达到要求为止;用UCI中的Iris和Wine数据集对该算法进行仿真实验,实验数据表明:用该算法进行聚类,能获得较好的聚类结果,说明算法具有一定的有效性.  相似文献   

13.
通过将粗糙集和模糊聚类算法相结合, 利用粗糙集中上近似集和下近似集的概念改进模糊聚类算法, 解决了模糊聚类边界不确定的问题, 得到了上近似集和下近似集的聚类结果, 从而实现更好的聚类, 改进算法可以处理边界问题和复杂数据问题. 将改进的粗糙集模糊聚类算法用于研究环糊精聚类, 并将聚类结果与K均值聚类分析算法、 模糊C均值聚类算法相比, 实验结果表明, 改进算法有较好的聚类效果.  相似文献   

14.
在相似数据聚类过程中,由于数据相似性过高,造成特征冗余干扰,使数据中心很难确定.该文提出了一种基于倾斜概率的有效聚类数学模型,在计算聚类中心的过程中引入倾斜概率计算数据均值.在数据特征存在较大一致性冗余干扰时,计算分配到同一类簇的概率并建立约束,把这种概率约束运用到数据的类间相似性特征聚类中,可以有效地确定相似特征的初始聚类中心.实验证明该文模型能合理地选择出初始聚类中心,改进分类数学模型的分类效果,与k均值聚类模型相比,聚类结果更加紧致,鲁棒性更强.  相似文献   

15.
多源局部放电检测中,不同类型的局放信号同时存在且不断变化使得信号的分离更具挑战,而这种情况同样存在于许多数据流的聚类分析场景中。为了能够适应类簇内的不均匀密度和类簇间的重叠边界问题,同时对数据流的漂移和演化进行及时跟踪,提出了一种结合软约束的实时数据流模糊聚类算法。算法引入2种模糊性软约束来描述微簇距离和密度上的不确定度,通过阈值划分出核心微簇、边界微簇和离群微簇;在类簇边缘使用模糊隶属度,给予微簇分属不同类簇的可能性,保证类簇的完整性并提高聚类效果;使用两阶段的流程结构和2种时间窗口模型,赋予算法具有对可变化数据流的适应能力和更低的时间空间占用率。在多种数据集上的实验表明,该算法相比同类型算法在聚类效果上提升了1%~3%,且平均运行时间缩短5%~20%,在实际硬件平台的测试中也验证了算法的聚类分离性能。  相似文献   

16.
基于山峰聚类的聚类上限确定方法   总被引:1,自引:0,他引:1  
文章提出了一种基于山峰聚类的聚类上限检测方法,依靠山峰聚类确定聚类数目的上限,仿真试验表明,这种方法能将聚类上限确定在一个合理的范围之内,从而加快聚类的效率.  相似文献   

17.
为了解决密度峰值聚类算法选择密度峰值点困难以及误分配的问题,基于流形的连通性,提出了一种改进的密度峰值聚类算法。通过使用三支密度峰值聚类算法,得到初始聚类结果与簇的边界点,根据这些边界点之间的连通性判断初始聚类之间的连接情况,并利用这些信息进行聚类结果融合。重复上述过程,每次迭代中在剩余数据里寻找密度峰值候选点,并将其纳入聚类过程,得到一种对流形数据友好的聚类算法。结果表明,所提算法在人工数据集和真实数据集上均有较好的表现,聚类准确度相较现有算法更高。基于连通性的三支密度峰值聚类算法可以在不计算路径距离的前提下,有效识别流形数据,大大降低了计算成本。  相似文献   

18.
确定“最佳聚类数”一直是聚类算法面临的一个难题。为了确定一族合理的聚类数而不是单个聚类数,提出了一种基于谱分析的算法,并能处理较为复杂的数据集。该算法构建了数据点之间的相似度图,在不同的分析粒度下,用图上的“随机游走”来传播相似度,采用了一个新的评判标准,“广义特征差”来寻找聚类数族。实验结果表明该算法在聚类数不唯一的情况下能够有效地确定聚类数,并且和其他几种算法相比具有较优的计算复杂度。  相似文献   

19.
序贯三支决策模型作为一种能够有效处理不确定性信息的数据挖掘方法,采用了渐进的思维进行决策。然而,边界域可能存在部分不确定性较大的等价类,即便添加属性也无法准确划分,导致决策的分类精度降低,同时延迟代价较高。因此,通过条件概率来刻画等价类的不确定性,基于阴影集理论筛选不确定性较大的等价类,并对其采取跳阶延迟处理的方法,提出了基于不确定性的跳阶序贯三支决策模型。实验结果表明,所提模型与经典序贯三支决策模型相比,在分类性能上具有更好的有效性。  相似文献   

20.
利用标签的层次化搜索结果聚类方法   总被引:2,自引:0,他引:2  
为了提高搜索引擎返回结果的可浏览性,满足用户对查询质量的要求,提出了一种层次化搜索结果聚类方法.首先,从搜索引擎的返回结果提取出文档集,并对每一个文档进行词干化、去除停用词等操作.然后,根据词共现信息来发现文档集中的频繁2元组,再将2元组扩展为n元组,对所有元组进行去冗余、重要性排序,从而获得候选聚类标签.最后,基于该标签对返回结果中的文档进行分配与聚集,形成层次化聚类结果.实验结果表明,所提方法可以通过获得的准确、可读性较好的聚类标签,帮助用户有效地浏览搜索引擎返回的结果.与Vivisimo、STC、Lingo算法比较,以及在多个评价指标上的综合实验结果也表明,该方法是有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号