首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
硬聚类要求聚类的结果必须具有清晰的边界,即每个对象要么属于一个类,要么不属于一个类.然而,将某些不确定的对象强制分配到某个类中往往容易带来较高的决策风险.三支聚类将确定的元素放入核心域中,将不确定的元素放入边界域中延迟决策,可以有效地降低决策风险.本文将三支决策理论与传统的谱聚类算法相结合给出了三支谱聚类的聚类算法.该方法通过修改谱聚类算法的聚类过程并获得任一类簇的上界.然后通过扰动分析从该类簇的上界分离出该类簇的核心域,同时上界与核心域的差值认为是该类簇的边界域.在UCI数据集上的实验结果显示,该方法能有效提高聚类结果的ACC、AS、ARI值,并且降低DBI值.  相似文献   

2.
针对隶属关系不明确的情况,即样本点属于多个类别的概率接近,高斯混合模型聚类存在较大的误判风险的问题,将三支决策思想融入高斯混合模型中,提出一种基于三支决策的高斯混合聚类算法.新算法计算出数据对象属于各个类簇的后验概率作为决策评价函数,用于确定聚类结果的正域和边界域.由于新算法对边界对象采取了比一般高斯混合聚类算法更加谨慎的操作,避免了直接做出对象属于某一类或不属于某一类的决策所需承担的风险,从而有效减小了误判代价.实验进一步表明,所提出的算法不仅继承了高斯混合聚算法的特点,具有良好的聚类性能,而且还对于非球形数据簇表现出优良的聚类效果.  相似文献   

3.
三支聚类对不确定对象引入了边界域,可以有效解决传统二支聚类方法中由于信息不完整而导致划分不准确的问题。如何获得三支聚类的核心域和边界域是目前研究三支聚类的重点之一。该文将共现概率与三支聚类相结合,提出了基于共现概率的三支聚类模型。首先,基于朴素贝叶斯确定两样本的共现概率;其次,给出了基于共现概率的相似关系及其粗糙集的下、上近似,获得三支聚类的核心域和边界域;最后,在UCI数据集上的实验结果显示,该方法提高了聚类精度,验证了其可行性。  相似文献   

4.
将三支决策与密度敏感谱聚类结合,提出了一种基于三支决策的密度敏感谱聚类算法。该算法通过在密度敏感谱聚类的聚类过程引入容差参数得到每个类的上界,然后通过扰动分析算法从上界中分离出核心域,上界和核心域的差值被认定为该类的边界域。聚类结果用核心域和边界域来表示每个类簇,可以更全面地展示数据的结构信息。与传统的硬聚类算法在UCI数据集的实验结果相比较,本文使用核心域计算聚类的评价指标DBI、AS和ACC都有所提升,较好地解决了不确定性对象的聚类问题。  相似文献   

5.
将数字图像处理中模糊锐化算子与三支聚类进行结合,提出了一种基于图像处理的三支聚类算法。该算法通过逆多元二次核函数将数据集的密度量化为灰度值,对数据总体采用模糊与锐化操作,提取锐化后灰度值较高的数据区域,将低密度区域从原始数据中删除。对灰度值较高的数据采用传统的聚类算法得到不同的类簇,然后对每个类簇利用图像模糊算子得到类簇的核心域,锐化算子得到类簇数据边界域,从而获得每个类簇的三支表示。试验采用不同的UCI数据集,通过比较聚类指标Adjusted Rand Index(ARI),Normalized Mutual Information(NMI)和Adjusted Mutual Information(AMI),验证了该聚类算法的有效性。  相似文献   

6.
针对当前三支聚类方法不能有效处理数值型数据,且三支聚类结果受阈值影响问题,文章基于邻域关系提出了确定合适阈值的三支聚类方法。首先给出了确定最优K值的改进K-means聚类算法。进而基于邻域关系下的下、上近似引入精度,提出了权衡边界域和精度关系的有效性评价指标。应用该指标,给出了确定邻域下、上近似中最佳阈值的构建算法,进而得到三支聚类的核心域和边界域。最后,通过UCI数据集上的实验验证了该方法的可行性,且该方法有效提高了聚类精度。  相似文献   

7.
针对K均值聚类(K-means)算法处理复杂问题时易陷入局部最优值、聚类质量较差等不足,提出一种基于粒子群的三支聚类算法.该算法先以随机产生的聚类中心组合作为初始粒子,构成粒子群;然后,通过调整算法中的速度公式参数,使粒子在迭代过程中能较快速地找出全局最优解,即最优的聚类中心;最后,采用三支决策的方法考察数据与类的关系,把确定归属的数据分配到类的核心域,归属不确定的数据分配到类的边界域.实验结果验证了所提算法的有效性,在寻找全局最优值和聚类结果准确性等方面算法都具有较好的性能.  相似文献   

8.
张选平  祝兴昌  马琮 《西安交通大学学报》2007,41(12):1387-1390,1395
针对基于密度的聚类算法由高密度区到低密度区的处理顺序所带来的不能识别低密度对象类别的缺陷,通过对聚类过程中可能存在的边界识别进行讨论,提出了一种基于边界识别的聚类算法.该算法的思想是:同簇优先权高于密度优先权,即在选择下一个对象进行聚类时,在已聚类的对象中优先选择同一簇的对象,当对象沿某一方向扩展到达簇边界时停止扩展,转而向其他方向扩展,这种处理顺序能使得类别最大化.通过分析簇边界的密度变化特征,建立了边界识别准则,并根据该准则对数据进行聚类.通过在合成数据和美国加州大学提供的知识挖掘数据库数据集上的实验结果表明,所提算法能有效地处理低密度区域的数据,与识别聚类结构的对象排序算法相比,聚类效果可提高4%左右,而时间性能相当.  相似文献   

9.
针对传统的社区发现算法无法发现社区中的核心成员和边界成员的缺点,提出了基于PCM聚类算法的Blog社区发现算法,用来识别Blog社区的核心和边界.首先,使用随机行走的方法计算可以衡量两个Blog亲密度的对称社会距离;然后,在对称社区距离的基础上使用PCM聚类算法对Blog进行聚类,得到每个社区中的成员属于社区的概率表示.最后,通过确定相应的概率阈值,确定社区的核心和边界.实验结果表明:该算法能够获得社区中的成员属于社区的概率,根据这个概率可以确定社区中的核心成员和边界成员.  相似文献   

10.
已有的大多数聚类算法都假设数据集保持不变,然而,很多应用中数据集是会随时间变化的。为此,提出了一种新的三支决策软增量聚类算法。采用区间集的形式表示类簇,区间集的上界、边界与下界就对应着三支决策产生的正域、边界域和负域,并提出了一种基于代表点的初始聚类算法。采用同样的方式对新增数据集进行一次预聚类,以消除数据处理顺序对最终聚类结果产生的影响。为了快速查找新增数据的相似区域,建立了代表点搜索树,并且给出了查找和更新搜索树的策略。运用三支决策策略完成增量聚类。实验结果表明提出的增量聚类算法是有效的。  相似文献   

11.
提出一种基于C-均值聚类的二层次人像聚类算法,解决了传统硬聚类中由于每个数据只能属于某一类而使得处于类边界的数据在检索时结果准确度不高, 以及对高维大数据量数据分类时存在的模糊聚类时间和空间复杂性过大等问题. 该算法为大规模人像数据库检索提供了一种可行的分类方法, 使得分类后的人像数据在有效提高检索速度的同时保证了检索的准确度.  相似文献   

12.
提出了基于惩罚约束问题的群体智能聚类算法PCSI,不必穷尽搜索样本集,利用粒子群算法的优化搜索机制在数据集中有指导地随机搜索聚类中心向量,能够以较小的计算代价确定样本集的类别数.有约束优化过程的罚函数为两部分之和:①目标函数,各样本与其类别中心的均方误差;②自适应惩罚项,即数据集的边界作为粒子群移动的约束条件,对约束违反程度进行惩罚.为降低不平衡数据集的影响,按照数据集的方差和模糊高斯函数,将样本到其类别中心的距离进行模糊映射,归一化到[0,1]区间.粒子群优化方法免去了传统方法的求导计算.聚类IRIS数据集和Reuters-21578文档集以验证算法的有效性,对大规模数据聚类有明显优势.  相似文献   

13.
当对三支决策边界域进一步划分时,边界域知识存在划分信息不足,从而导致分类精度不高,针对上述问题提出一种新的基于三支决策的二阶段分类模型(TWD-TP).第一阶段根据贝叶斯规则构建三支决策中样本的条件概率,通过求解最优化损失函数得到所需阈值,然后按照三支决策规则对数据集进行划分.三支决策是基于最小风险贝叶斯决策理论的划分,在其正域、负域中包含一定的误分类样本;在第二阶段通过类标签索引分别将正域、负域中误分样本作为增量信息引入延迟决策域,形成重构边界域,最后对重构边界域进行划分.实验结果表明:所提出的TWD-TP模型不仅能在三支决策划分中筛选出高误分类特征的样本,同时其重构边界域中不能被划分的样本得到正确划分,分类精度进一步提高.  相似文献   

14.
Pawlak 粗糙集模型认为一个元素要么属于一个集合,要么不属于该集合,要么可能属于该集合,把可能属于该集合的元素的全体称为边界.Pawlak 粗糙集模型对边界的研究较少.文章认为对边界的隶属度差别较小的元素以同一个量级属于边界,从而可按一个对象对边界的隶属量级对边界进行划分.基于这一思想提出了分级粗糙集模型和分级最大分布约简、分级分布约简的概念.给出了这两种约简的判定定理及辨识矩阵以及相应的核属性的等价条件.分级粗糙集模型推广了Pawlak粗糙集及变精度粗糙集模型.  相似文献   

15.
目前多数多视角聚类算法属于"刚性"划分算法,不适用于处理具有聚簇重叠结构的数据集,为此,提出一种基于模糊C-means的多视角聚类算法(简称FCM-MVC),该算法利用隶属度描述对象与类别的关系,能够更真实地描述具有聚簇重叠结构数据集的聚类结果。FCM-MVC算法同时利用多个视角信息,自动计算每个视角的权重。研究结果表明:FCM-MVC算法能够有效处理具有聚簇重叠结构的数据集;与已有的3种经典的多视角聚类算法相比,该算法获得的聚类精度更高。  相似文献   

16.
许多聚类算法有两个缺点:1)采用某种距离作为相似性测度。类别接受域为球形,不能与复杂模式分布匹配;2)对确定合理类别数不能提供任何帮助。采用最大似然准则的聚类算法其类别接受域为球形或椭球形,可以与模式的分布匹配更好。在计算似然值时使用先验概率,能为确定合理的类别数提供依据。本文的贡献是把遗传算法结合到基于最大似然准则的神经网络聚类算法中,解决聚类中心的初值选择问题并获得最优聚类。  相似文献   

17.
数据聚类标签技术是在小规模样本上进行聚类,然后利用聚类结果对其余样本标注类别的方法是提高大规模数据聚类效率的一种有效途径.混合数据是现实应用中最广泛的数据类型,文章将用户兴趣数据作为小规模数据,利用K-prototypes算法对其聚类,在此基础上构建用户兴趣域.利用拟标签数据的各属性值与用户兴趣域分量的关系定义了数据关于用户兴趣域隶属度.基于用户兴趣域和"数据-用户兴趣域"隶属度的概念,提出了一种基于用户兴趣混合数据聚类标签算法UIMCL(User’s Interest Mixed Data Clustering Label).该算法克服了以往数据标签算法只能为拟标记数据指派一个类标签的局限性,可以应用于电子商务的推荐服务和用户行为分析.实验结果表明,该算法对混合数据聚类标签处理有较好的效果.  相似文献   

18.
利用粗糙集中的三支决策思想,将类用正域、负域和边界域刻画,得到初始聚类结果。然后通过定义重叠度和类与类的合并策略,将初始聚类结果进行合并,得到最终聚类结果。之后应用2个关系网络数据展示了具体的聚类步骤,并通过比较2个例子的聚类结果,分析了影响聚类结果的一个主要因素:阈值的选取。实验表明:阈值的选取对简单的网络结构数据集的聚类结果的影响并不明显,然而对复杂的网络结构数据集的聚类结果的影响则较为显著。  相似文献   

19.
面对大量繁杂的新闻数据,为了让人们从大量的数据中了解主要类别信息,将采集到的11456条校园综合新闻作为研究对象,采用了基于词云和top3文章主题的k-means聚类方法.通过词频-反文档频率技术将采集到的11456条校园综合新闻进行主题提取,并用词云结果来估计k值,结果可将采集到的校园综合新闻数据聚为7个类别,与不基于文章主题的k-means聚类方法对比.评估结果表明,当将数据聚为2到10不同的类别数时,基于top3文章主题聚类的戴维森堡丁指数值整体小于不基于文章主题的聚类方法.因此,基于词云和top3文章主题的聚类方法比不基于文章主题的聚类方法稍好.聚类结果能为用户了解或查找想要的类别信息提供一定参考.  相似文献   

20.
对不平衡数据进行聚类分析时,K-means聚类方法可能会错误地将分布在较小区域类别中的样本划分到大区域类别中;谱聚类算法,虽然可以有效优化数据结构,并很好地识别不同形状的样本,但却难以处理大规模数据.针对这些问题,提出一种改进地标点采样的不平衡数据聚类算法.该算法首先对不平衡数据进行预聚类以获得初始类标签,然后基于数据密度对数据进行采样.在此基础上,通过对采样数据执行K-means聚类,并将聚类中心作为地标点,对数据进行谱聚类分析.实验结果显示,该方法在处理不平衡数据时,不仅能够有效提高样本的聚类准确率,而且能够保证聚类结果的稳定性和精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号