期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

杜淑颖丁世飞邵长龙《南京大学学报(自然科学版)》2023,(6):961-969

聚类集成已经成为数据挖掘和机器学习中的热门研究课题,尽管近年来取得了重大进展,但目前聚类集成的研究仍存在两个具有挑战性的问题.首先,大部分集成算法倾向于在对象的层面研究相似度,缺乏发掘簇层面信息的能力;其次,目前许多集成算法仅仅关注簇内对象的直接共现,忽略了簇与簇之间的关系.针对这两个问题,提出一种基于簇间连接的元聚类集成算法,首先根据Jaccard相似度构造一个簇相似度矩阵,然后利用连接三元组细化这个相似度矩阵,最后通过图划分和成员分配得到最后的结果 .理论分析和实验测试表明,提出的算法不仅能产生较好的聚类结果,而且受聚类集成规模的影响较小. 相似文献

2.

基本web数据挖掘中的聚类算法研究

罗泽碧《当代地方科技》2011,(10):100-101

本文主要研究介绍了聚类算法：聚类算法是根据样本空间的相似性来度量的,簇内具有较高的相似度。相似度的计算根据一个簇中对象的平均值来计算。此类算法也有一定的局限性,争对此局限性,提出了改进的聚类算法。相似文献

3.

一种改进的蚁群聚类算法在客户细分中的应用

宋中山周腾周晶平《中南民族大学学报(自然科学版)》2013,32(3):77-81

分析了输入参数对算法聚类效果的影响,针对传统的蚁群聚类算法中参数设置依赖于经验的指导以及蚂蚁移动随机性大等问题,提出了一种改进的自适应蚁群聚类算法,算法中引入了自适应策略函数,通过设置相似度阈值,动态调整蚂蚁的运动状态,降低蚂蚁移动的随机性.将改进算法应用于客户细分,并将结果与K均值聚类算法进行了比较,实验结果表明:改进后的算法在迭代次数上更少,算法的收敛速度更快,识别客户的正确率更高. 相似文献

4.

基于样本相似度的三支聚类算法

李刘万朱金王平心《扬州大学学报(自然科学版)》2022,(6):40-44

将三支聚类思想和聚类集成思想相结合,提出一种基于样本相似度的三支聚类算法.首先,通过随机选择样本部分特征的方法生成一组基聚类成员,以此构造样本相似度,并在此基础上定义划分有效性指标,用以自动计算最优阈值;其次,使用投票法对基聚类成员集成得到初步的聚类结果;最后,利用最优阈值对聚类结果划分,得到每个类的核心域集合和边界域集合.UCI(University of California Irvine)数据集上的实验结果证明了所提出方法的有效性. 相似文献

5.

一种高效的用于话题检测的关键词元聚类方法

杨攀桂小林田丰王刚《西安交通大学学报》2012,46(10):24-28

针对基于关键词元的话题内事件检测算法运行效率不高、不适合进行大规模文本话题检测的问题,提出了一种高效的关键词元聚类算法.该算法在进行词元簇选择时,为簇间相似度分配权值,并借鉴正态分布函数评估词元簇的个数,提高词元簇的选择精度,从而减少所需的词元聚类次数.实验结果表明,将改进的方法应用到舆情监控的话题检测中,能在不影响检测精度的前提下有效地提高算法的运行效率. 相似文献

6.

一种基于改进相似度计算的文本聚类方法

李征李斌《河南大学学报(自然科学版)》2018,(4)

针对文本在聚类或分类时,由于数据高维稀疏导致相似度值低的问题,提出一种基于改进文本相似度计算的聚类方法.首先,利用向量空间模型VSM表示文本,采用余弦函数计算文本之间的相似度;然后,基于网络中节点的相似性传播原理,通过设置阈值找到与各个文本相似度较大的文本集合,进而使用Jaccard系数将两个文本之间相似度计算转化为两个文本集合之间的相似度计算;最后根据得到的文本相似度矩阵,利用谱聚类算法对文本进行聚类.在WebKB上的实验结果表明,与传统的K-means、谱聚类方法相比,该方法提高了聚类的准确度,召回率与F值. 相似文献

7.

一种高维分类型数据的子空间聚类算法

孙浩军李惊涛张磊张崇锐肖婷《汕头大学学报(自然科学版)》2014,(3):51-59

子空间聚类是一种将搜索局部化在相关维上进行的聚类算法,它能有效地克服数据因维度过高引起的在全空间上聚类的困难.针对高维分类型数据,本文提出了一种自底向上的子空间层次聚类算法,该算法在全局范围内建立一个最相似线性表用来记录每个簇类与其最相似的簇类的相似度,在聚类过程中,选取最相似的簇类合并,并通过维护此线性表产生最相似的簇类.此算法在基于信息熵的意义上能够较准确地搜索簇类的子空间.通过Zoo和Soybean两个典型的分类型数据实验发现,相对于其它相关聚类算法,该算法在聚类的准确率和稳定性方面表现出较高的优越性. 相似文献

8.

一种面向医学短文本的自适应聚类方法

栗伟许洪涛赵大哲刘积仁《东北大学学报(自然科学版)》2015,36(1):19-23

针对电子病历中疾病诊断文本同义词识别和命名标准化问题,提出了一种自适应的文本聚类方法.首先提出了一种新的基于集合的文本相似性度量算法;然后采用基于相似度分布的文本聚类算法实现同义文本识别,该算法能够自动确定类簇个数;最后采用基于序列模式的中心概念提取算法实现了疾病命名的标准化,同时对聚类簇进行合并和优化,进一步提升了聚类的准确性.测试结果表明,所述方法具有较高的准确率和聚类效率,在病历文本的预处理、分类和分析中具有广泛意义. 相似文献

9.

基于密度的KNN分类器样本裁剪算法

苟和平景永霞冯百明李勇《佳木斯大学学报》2013,(2):242-244,248

KNN算法在分类准确率和召回率方面具有较好的性能,但由于样本相似度计算开销大,导致分类效率低.针对此问题,本文提出一种基于密度的训练样本裁剪算法,对训练样本的各个样本类进行聚类,根据密度不同聚集成不同的簇,删除噪声数据并计算每个样本类的相似度阈值,然后将样本类内大于类相似度阈值的样本进行合并,以减少训练样本总数.实验表明,此样本裁剪算法能够在保持KNN算法分类性能基本稳定的前提下,实现各个样本类内高相似度样本的合并,减少分类计算开销. 相似文献

10.

模糊C-均值聚类算法的研究与实现

刘颖《当代地方科技》2012,(14):90-90

模糊C-均值聚类算法（F（M）是很早的目标函数聚类算法,也是目标函数聚类算法中研究的比较充分的算法之一,FCM算法是一种基于划分的聚类算法,它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。此算法的缺点是当数据量非常庞大时,算法的运算过程就会非常耗时,甚至是无法完成运算。相似文献