首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 781 毫秒
1.
经典的聚类分析方法在统计时需要事先设置参数,而在没有先验知识情况下,确定这些参数比较困难。为此,提出一种全新的灰聚类分析方法并完整地定义了其数学模型。该方法不再受样本输入次序的限制,不再需要事先确定参数。通过仿真实验,证明了该方法具有较好的抗噪音的能力,能有效地避免人为因素对聚类结果的影响,能使聚类的结果更客观、准确。将该方法运用于股票数据分析中,实验结果表明,该分析结果能为投资者提供一定价值的决策意见,具有一定的实用价值。  相似文献   

2.
K均值聚类算法初始质心选择的改进   总被引:3,自引:0,他引:3  
聚类分析在信息检索和数据挖掘等领域都有很广泛的应用,K均值聚类算法是一个比较简洁和快速的聚类算法,但是它存在着初始聚类个数必须事先设定以及初始质心的选择也具有随机性等缺陷,造成聚类的结果不是最优的。针对K均值聚类算法中的随机指定初始质心的缺点,提出了基于密度和最近邻相似度的初始质心选择算法,实验显示该算法可以生成质量较高而且较稳定的聚类结果,但是改进的算法需要事先设定最近邻相似度的阈值计算量较大等缺点,还有待改进。  相似文献   

3.
模糊超球质心聚类神经网络   总被引:1,自引:0,他引:1  
基于人的大脑进行聚类分析所遵循的基本原则,提出了一种模糊超球质心聚类神经网络学习算法,该方法无需用户事先给定聚类个数K,通过神经网络自组织学习,可以正确识别聚类个数与聚类中心。实验结果表明,该算法是一种全新的聚类方法,具有学习时间短,稳定性强且不依赖于聚类样本的输入顺序等优点。  相似文献   

4.
目前谱聚类在文本分类、图像分割和信息检索等领域的应用越来越引起研究者的重视,并取得了一定的成果、但是,大多数已有的谱聚类算法需要事先给定聚类数.在k-means算法、EM等聚类方法中也存在相似的问题、在此介绍了一种简单的容易实现的谱聚类算法,可以自动确定合适的聚类数.实验表明本算法结果很好、  相似文献   

5.
研究了基于可能性熵理论的聚类问题.首先定义并讨论了可能性熵,继而将可能性熵引入聚类分析,提出了可能性熵聚类算法.它考虑到熵聚类的全局和局部效应,具有清晰的物理意义和数学特征.该算法还能在聚类过程中自动地确定分辨率参数,克服了对于噪声和外围点的敏感性.仿真实验证明,即使各类大小不一,数据集被强噪声所污染时,该算法仍能有效地估计各类中心.  相似文献   

6.
一种新的基于蚁群原理的聚类算法   总被引:1,自引:1,他引:0  
为了改善聚类分析的质量,提出一种与蚁群原理相结合的聚类方法. 首先对传统的聚类算法k-means进行改进,克服传统的k-means算法必须事先确定分类的个数k和选择聚类点的缺陷,然后将蚁群算法的转移概率引入k-means算法,对上述聚类结果进行二次优化.实验结果表明,改进的k-means与蚁群算法相结合的聚类方法比单一聚类算法更有效.  相似文献   

7.
DBSCAN算法中参数自适应确定方法的研究   总被引:2,自引:0,他引:2  
在DBSCAN算法中需要人工输入Eps和MinPts两个参数,因而聚类过程需要用户的干预才能进行,导致聚类结果的准确度直接取决于用户对参数的选择。鉴于此,本研究提出了一种新的Eps和MinPts参数的确定方法,避免了聚类过程中的人工干预,实现了聚类过程的全自动化。理论分析和实验结果表明,该方法能够选择合理的Eps和MinPts参数并得到较高准确度的聚类结果。  相似文献   

8.
K -均值聚类算法在当前提取数据挖掘的聚类分析方法中已经取得了一定的成就,为了进一步改进其在数据预处理及神经网络结构中的应用,文中对算法进行了缺陷研究,主要做了以下几个方面的工作:对K-means算法进行了思路及算法主要流程分析;得出K-均值聚类算法存在简单、迅速、结果簇密集、簇与簇之间区别较为明显等优点;分析得出算法存在与处理符号属性的数据不太适应、必须事先给出k值(想要生成的簇的个数)、对“噪声数据”以及孤立的点数据有较大影响、需要不断计算更新调整后的新聚类中心等缺点。在实验验证中结果得出:聚类结果可知,选取不同的值初始值对聚类结果的影响很小;如果聚类数据集迭代次数较多时,可以尝试着改变其数据的输入顺序;变动数据集的输入顺序,会直接影响聚类结果。实验结果对于K-均值算法的工作效率提高了具有明显的参考价值,这一研究对于数据挖掘技术的改进具有一定的意义。  相似文献   

9.
针对高维数据的聚类过程不够直观、聚类结果也不易解释的问题,本文提出了一种基于改进雷达图的交互式可视化聚类方法。首先对传统雷达图进行了改进,采用熵权法确定数据的主要特征和属性排列,在去掉非主要特征基础上采用以极径表示属性值,以属性权重确定极角的改进雷达图进行数据可视化来突出数据的主要特征;然后采用改进的k-means算法对平面上的点集进行聚类,该改进算法不需事先给定簇的个数,能够依据密度和距离对初始中心进行优化,且在聚类过程中可交互调整参数,并使用不同颜色来区分不同类别,方便观察聚类过程和结果;最后通过仿真实验表明改进的雷达图更能反应数据的分布情况,改进的聚类算法具有更高的效率和聚类准确度。  相似文献   

10.
一种基于遗传算法的混合聚类技术   总被引:1,自引:1,他引:0  
模糊C- 均值算法是一种比较有的数据聚类方法,然而在聚类数不能事先确定,或样本空间太大时,聚类非常困难。遗传算法是一种借鉴生物界自然选择和自然遗传机制的高度并行、随行、自适应的搜索算法。将遗传算法与模糊聚类技术结合起来,提出一种混合聚类的方案。该方案能够快速正确的实现聚类,且不需事先认定聚类数。实验结果令人满意。  相似文献   

11.
针对动态选择集成算法存在当局部分类器无法对待测样本正确分类时避免错分的问题,提出基于差异聚类的动态SVM选择集成算法。算法首先对训练样本实施聚类,对于每个聚类,算法根据精度及差异度选择合适的分类器进行集成,并根据这些分类器集成结果为每个聚类标定错分样本区,同时额外为之设计一组分类器集合。在测试过程中,根据待测样本所属子聚类及在子聚类中离错分样本区的远近,选择合适的分类器集合为之分类,尽最大可能的减少由上一问题所带来的盲区。在UCI数据集上与Bagging-SVM算法及文献[10]所提算法比较,使用该算法在保证测试速度的同时,能有效提高分类精度。  相似文献   

12.
数据聚类是一个功能强大的技术,它能够把数据特征相似的对象划分为一类,但是并不是所有的聚类算法的实现都能产生相同的聚类结果;并且K均值算法的结果很大程度上依赖它的初始中心的选择;提出了一种新颖的关于K均值初始中心选择的策略;该算法是基于反向最近邻(RNN)搜索,检索一个给定的数据集,其最近的邻居是一个给定的查询点中的所有点;使用这种方法计算初始聚类中心结果发现是非常接近聚类算法所需的迭代聚类中心;对提出的算法应用到K均值聚类中给予了证明;用几种流行的数据集的实验结果表明了该算法的优点。  相似文献   

13.
在数据挖掘领域,聚类用于发现数据的分布模式和数据间的相互关系.作者提出一种分层聚类算法,可识大规模、高维数据.该算法首先从不同的角度对电信客户进行聚类或分类,然后以这些聚类为基础,实行自底向上的层次聚类得到最终的聚类结果.算法执行效率高,适合大规模数据的聚类问题.该方法在某电信企业的客户分析中取得了较好的结果.  相似文献   

14.
针对海量数据聚类过程中,经典的K-均值聚类算法对其K个初始聚类中心点的选择以及数据集噪声十分敏感的问题,提出了一种针对海量数据考虑初始聚类中心点选择的聚类算法.该算法首先采用冒泡排序法对数据集进行排序,获取数据集的各维中心值组成第一个初始聚类中心点.其次,通过计算与第一个初始聚类中心点的欧式距离,对剩余候选初始聚类中心点进行优化选择,保证所有的聚类中心点均匀地分布在数据集密度较大的空间上,以此减少聚类过程中的迭代次数和提高聚类算法效率.最后,基于UCI(University of California,Irvine)中多个数据集,进行聚类算法对比实验.结果表明,在不降低聚类效果的前提下,该聚类算法的迭代次数平均降低到50%,所需的时间降低平均达10%,由实验结果还能推出,当点集的数目越多时,该算法就能表现出越明显的聚类优势效果.  相似文献   

15.
文档聚类和词聚类都是重要且被充分研究的问题.大多数现有的聚类算法针对文档和词是分别聚类,不是同时的.本文提出文档集作为文档和词间的一个二部图的模型思想,使用这个思想,联合聚类问题可以被看成二部图的分割问题.为了解决图的分割问题,使用一个新的联合谱聚类算法,即使用适度规模的词-文档矩阵的奇异向量产生好的分割结果.谱算法得到一些最佳的性能,表明奇异向量通过连续放松解决图划分的NP难问题.最后通过实验结果验证联合聚类算法在实践中非常有效.  相似文献   

16.
DBSCAN方法是一种典型的基于密度的聚类算法,因此该方法具有可以发现任意形状的类的特点,但其聚类的效率并不是很高.如果考虑将传统的网格技术引入到DBSCAN聚类算法中,虽然一定程度上会提高聚类的效率,但其聚类的质量显得较为粗糙.文章通过引入自适应网格技术,使得DBSCAN聚类算法的效率和质量都有所提高.对比数值实验表明,基于自适应网格的DBSCAN聚类算法的聚类效果是良好的.  相似文献   

17.
彩色图像量化是数字图像处理的重要技术之一,支持视觉特性的彩色图像量化方法首先根据图像空间信息找出部分初始聚类中心,然后根据图像颜色信息找出其余的聚类中心,在聚类剩余的色彩过程中根据带权值的相似度动态地调整聚类中心。实践证明该算法既能最大程度保证图像的主导风格,又能突出细节,重建图像符合人的主观视觉感觉,是一种较好的色彩量化方法,具有一定的实用价值。  相似文献   

18.
传统K-means 算法对于聚类初始点的选取和距离度量的计算异常敏感,因而很可能导致K-means 算法只能收敛得到局部最优解。为此,提出一种改进的K-means 算法,即K-means 聚类算法最优匹配算法,并进行了相关的算法实验分析。该改进算法首先对传统的K-means 聚类算法进行初始点的选取,并分析聚类结果。然后,分别从初始聚类中心的选择和距离算法的确定进行实验测试,引入轮廓系数评价聚类效果,分析实验结果可知,K-means 聚类算法最优匹配算法具有较好的稳定性和较高的聚类准确率。  相似文献   

19.
一种增量式文本软聚类算法   总被引:1,自引:0,他引:1  
针对传统文本聚类算法时间复杂度较高,而与距离无关的算法又不适用于动态、变化的文本集等问题,提出了一种基于语义序列的增量式文本软聚类算法.该算法考虑了长文本的多主题特性,并利用语义序列相似关系计算相似语义序列集合的覆盖度,同时将每次选择的具有最小熵重叠值的候选类作为一个结果聚类,这样在整个聚类的过程中大大减小了文本向量空间的维数,缩短了计算时间.由于所提算法的语义序列只与文本自身相关,所以它适用于增量式聚类.实验结果表明,算法的聚类精度高于同条件下的其他聚类算法,尤其适合于长文本集的软聚类.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号