首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基因聚类结果的内部确认技术研究   总被引:3,自引:0,他引:3  
聚类分析是后基因组时代基因表达数据处理的主要技术之一.聚类确认是聚类分析过程中的必要环节,其目的是对聚类结果的质量和聚类算法的性能进行评估,有助于聚类结果的注释.选择有效的确认函数是正确评价聚类结果的前提.文中采用分层聚类、K-均值聚类和SOMs算法对标准基因表达数据集进行聚类分析,研究了Silhouette指数、Dunn's指数、Davies-Bouldin指数及FOM(Figure of merit)测量等内部确认函数在基因聚类分析中评价聚类结果质量的有效性.结果表明:Silhouette指数和FOM测量能较好地反映聚类算法的性能和聚类结果的质量,Dunn's指数因其对噪声的高度敏感性不能直接用于基因聚类结果的确认,Davies-Bouldin指数确认算法的能力好于Dunn's指数,但偏爱单连接聚类.上述研究结论将为基因聚类分析中聚类算法的评估与聚类结果的确认提供有价值的参考依据.  相似文献   

2.
聚类分析是一种数据缩减技术,即基于数据特征的相似性将数据聚集成不同的类,是数据挖掘中一种非常有效的工具,得到了人们广泛的关注。从聚类算法中的相似性度量问题入手,采用基于流形距离的相似性度量替代传统的基于欧氏距离的相似性度量,通过二阶段聚类解决引入流形距离带来的计算量增大问题,并将这种聚类算法应用到聚类分析当中。  相似文献   

3.
针对待聚类的数据对象的对称性,提出了一种基于对称点距离的蚂蚁聚类算法.该算法不再采用Euclidean距离来计算类内对象的相似性,而是使用新的对称点距离来计算相似性.实验结果表明:与标准的蚂蚁聚类算法相比,该算法在处理带有对称性质的数据集时,可以更好的识别数据集的聚类数目和划分.  相似文献   

4.
针对传统的基于距离/相关系数的相似性度量方法无法有效度量基因间的时延表达特性,为了更加准确地刻画基因间的共调控关系,提出一种基于动态时间弯曲距离(DTW)的相似性度量方法,并结合可指定类数的仿射传播聚类算法进行聚类.将该算法用于人工合成数据和真实的酵母基因数据集,实验结果表明,相对于其它经典聚类算法,本文所提算法能得到更好的聚类结果.  相似文献   

5.
传统的基于模糊C均值聚类的图像分割算法分割结果中类内数据空间分布离散,无法准确分割出目标物体.针对这一问题,提出一种基于相似类合并模糊C均值聚类算法,并将其应用到图像分割中.首先,提出一种全局空间相似性度量标准和全局灰度相似性度量标准,并将其引入到一种新颖的节点间距离度量公式中来计算图像中任意一点与聚类中心点的差异.其次,算法选取彩色直方图作为区域描述算子,采用巴氏距离计算聚类过程中得到的任意两类间的相似性.最后,应用最大相似类合并策略得到最终的分割结果.实验结果表明,与传统模糊C均值聚类算法和空间约束核模糊C均值聚类算法相比,该算法获得更加精确的图像分割结果.  相似文献   

6.
基因表达模式分析及软件系统   总被引:2,自引:0,他引:2  
研究和实现了4种基因表达模式的聚类方法,开发了基因表达模式分析软件系统.该软件包含了两两平均连锁聚类法、系统聚类法、自组织特征映射法和模糊聚类等聚类算法,其中模糊聚类算法是首次用于基因表达模式分析.该软件同时具有数据过滤、多种相似性度量选择、聚类方法选择和结果可视化等功能.对于同一组基因表达数据,可通过不同的聚类算法的组合,提供更多的基因分类信息,为生物体复杂的基因表达模式研究提供了一个重要的综合分析平台.  相似文献   

7.
聚类是识别基因表达数据蕴含的关键基因调控模块的一种有效方法,基因表达谱的相似性度量是聚类的关键问题.然而,一般的相似性度量方法不能刻画时间序列基因表达谱数据所蕴含的时间延迟、反向相关和局部相关等复杂的基因调控关系.针对时间序列基因表达谱数据,提出一种基于近邻传播和动态规划的相似性度量方法和聚类算法.在大鼠再生肝细胞基因表达谱数据集上的聚类结果与基因功能富集分析结果高度一致,证明算法在时间序列基因表达谱数据聚类上的有效性.  相似文献   

8.
聚类是数据挖掘中重要的功能算法,其主要的功能是发现数据中潜在的知识.目前文献发表的聚类算法多数仅限于处理单一数值型数据或者分类型数据,其主要原因是含有多种类型的混合型数据间的相似性很难度量.本文提出了一种混合数据相似性度量方法:对于分类型属性,利用互信息构建贝叶斯信念网络,利用贝叶斯信念网络构建关系层次,继而为层次附上距离,形成关系层次距离,而对于数值型属性则利用标准化的曼哈顿距离来度量其相似性,最后结合分类型属性与数值型属性来对整个数据集进行相似性的度量.在此基础上,设计实现了用于混合型数据聚类算法CRHD,并通过UCI中的多个数据集和已有算法进行仿真实验对比,证明了CRHD算法的有效性.  相似文献   

9.
基于全局空间相似性的模糊聚类算法   总被引:1,自引:0,他引:1  
用传统模糊C均值聚类算法分割图像时,类内数据空间分布离散.针对这一问题,提出一种基于全局空间相似性模糊聚类算法.算法建立全局空间相似性度量标准和全局灰度相似性度量标准,分别计算图像中任意一点与聚类中心点的空间相似性和灰度相似性;通过调整参数来控制两种特征在节点间差异计算中所占的比重,增强了分割结果中类内数据样本空间分布...  相似文献   

10.
Isomap在基因表达谱数据聚类分析中的应用   总被引:8,自引:0,他引:8  
基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。基于非线性降维算法等容特征映射 ,提出了一种新的大规模基因表达谱数据聚类算法 ,该方法改进了样本向量之间的距离度量 ,用测地距离代替传统的欧式距离 ,有助于挖掘高维数据内在的几何结构。将该算法应用于两个公开的基因表达数据集 ,并用一种新的评价方法Normalized Cut将聚类结果与其他聚类方法的结果进行了比较。结果表明 ,该文的聚类算法优于其他聚类算法 ,聚类结果具有明显的生物学意义 ,并能对数据的类别数作出较好的预测和评估  相似文献   

11.
针对传统K均值算法中采取的欧氏距离计算相似性的不足,提出一种新的相似性计算方法,并将这种方法与欧氏距离的度量方法进行了比较。在UC I基准数据集上的实验表明,该方法有更稳定的聚类结果,是一种比较有效的聚类度量方法。  相似文献   

12.
基于传统吸引子传播算法, 通过样本特征赋权, 克服冗余信息的影响及给出新的相似性度量方法等策略, 提出一种基于变异系数赋权的吸引子传播算法. 实验结果表明, 该算法在处理属性较多、 信息重叠的样本时, 不仅具有吸引子传播算法的快速、 高效聚类特征, 且聚类性能明显优于传统吸引子传播算法和K-均值等经典聚类算法.  相似文献   

13.
针对K-均值聚类算法存在的不足,提出了一种新的整合粒子群优化算法(PSO)和K-均值算法的聚类算法.在新算法中,首先结合使用粒子群优化算法和K-均值算法搜索全局最优解的位置,然后再用K-均值算法在全局最优解附近的局部空间内快速寻找最优聚类中心.通过对4个数据集的实验测试,将此算法与K-均值算法、基于粒子群的K-均值算法进行了比较.实验结果表明,新算法的聚类质量比后两个算法更优.  相似文献   

14.
K-均值算法是一种传统的聚类分析方法,具有思想与算法简单的特点,因此成为聚类分析的常用方法之一。但K-均值算法的分类结果过分依赖于初始聚类中心的选择,对于某些初始值,该算法有可能收敛于一般次优解,在分析K-均值算法和粒子群算法的基础上,提出了一种基于邻域影响的改进的粒子群算法的聚类算法,通过对粒子群算法的改进来优化与K-均值结合的聚类算法。该算法将局部搜索能力强的K-均值算法和全局搜索能力强的粒子群算法结合,提高了K-均值算法的局部搜索能力、加快收敛速度,有效阻止了早熟现象的发生,达到那些离群的孤立点。实验表明该聚类算法有更好的收敛效果,一方面聚类所用的时间更短,另一方面聚类的准确率更高。  相似文献   

15.
对未知协议消息序列进行聚类处理是分析协议格式的基础。从字符串匹配的角度出发,利用协议格式字段的连续性,在传统K-均值算法基础上提出一种基于连续特征的未知协议消息聚类算法。首先基于协议格式字段连续性对待测数据集进行粗聚类,提取出K-均值算法的初始聚类中心,再使用消息距离及收敛函数改进的迭代算法对数据进行迭代处理实现消息的进一步聚类。实验表明,提出的新方法与传统K-均值算法相比,在聚类准确度上提升了17.58%,迭代次数上减少了约58.27%,与EM算法、DBSCAN算法相比在聚类准确率与时间上均有明显提升。  相似文献   

16.
针对传统K-均值方法不能有效处理动态变化的数据聚类的问题,本文提出了一种改进的数据流聚类技术——流式K-均值聚类(Streaming K-means Clustering,SKC).该方法首先对数据流中已经产生的初始数据块进行K-均值聚类,当数据流的新数据块到来时,通过衡量已经得到的聚类结果与新进入样本块的距离,对样本进行初步简单归类,并计算聚类结果的性能,若聚类结果性能在可接受范围内,则该数据块聚类结束,否则采用K-均值方法对新类进行深层次聚类.采用SKC的流式数据聚类方法处理数据流的聚类问题,对于整个数据流中的多数数据块都进行简单归类,只有少数数据块进行K-均值聚类,有效提高了数据流聚类的效率.实验结果表明,流式K-均值聚类方法能够有效处理数据流的聚类问题.  相似文献   

17.
一种改进的全局K-均值聚类算法   总被引:3,自引:0,他引:3  
将快速K中心点聚类算法确定初始中心点的思想应用于全局K-均值聚类算法,对其选取下一个簇的最佳初始中心的方法进行改进,提出选取下一个簇的最佳初始中心的一种新方法.该新方法选择一个周围样本分布相对密集,且距离现有簇的中心比较远的样本为下一个簇的最佳初始中心,得到一种改进的全局K-均值聚类算法.改进后的算法不仅可以避免将噪音点作为下一个簇的最佳初始中心点,而且在不影响聚类效果的基础上缩短了聚类时间.通过UCI机器学习数据库数据以及随机生成的人工模拟数据实验测试,证明改进的全局K-均值聚类算法与全局K-均值聚类算法及快速全局K-均值聚类算法相比在聚类时间上更优越.  相似文献   

18.
文章针对聚类分析中部分数据缺失问题,提出了一种改进的K均值聚类算法,即改变原算法中计算每个数据到各簇距离的度量方法和新中心点生成方法,从而屏蔽空值数据的影响;通过选择UCI中Iris数据集,随机抽空部分数据进行测试表明,该算法可直接对存在数据空缺的数据集合进行聚类分析,并能有效屏蔽数据空缺对聚类结果的影响.  相似文献   

19.
为了能够在不需要事先知道地物类别数目的情况下进行光谱的有效聚类,采用均值漂移算法完成聚类这一步骤。根据同一种地物光谱存在变异性的情况,使用了光谱角距离作为均值漂移聚类算法的相似性准则。用模拟高光谱数据和真实高光谱数据进行实验,结果表明基于改进后的均值漂移聚类的端元束提取方法较传统的K均值算法更能有效地形成代表每种地物类别的端元束。  相似文献   

20.
软件成本数据常常表现为高维混合属性数据,传统的相似性度量已不再适用.文中通过建立软件成本数据的高维模糊C均值(FCM)聚类算法对数据相似性进行度量.首先,定义由序数属性到数值属性的初始映射;然后,通过建立改进的迭代高维FCM聚类算法对序数 数值映射进行修正,优化聚类效果;最后,利用得到的模糊划分矩阵对软件成本数据的相似性进行度量.实验结果表明,通过对聚类效果进行优化,文中定义的相似性度量能够提高软件成本估算精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号