首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
一种有效的基因投影聚类算法   总被引:1,自引:0,他引:1  
针对现有基因投影聚类算法的不足,提出一种有效的基因投影聚类算法.该算法基于样本构建穷举树,根据基因间的相互作用关系,采用深度优先遍历的思想进行投影聚类,为观察疾病的成因提供了一个很好的视角.通过真实微阵列数据实验,证明了提出的算法具有较高的正确率.  相似文献   

2.
针对海量数据聚类过程中,经典的K-均值聚类算法对其K个初始聚类中心点的选择以及数据集噪声十分敏感的问题,提出了一种针对海量数据考虑初始聚类中心点选择的聚类算法.该算法首先采用冒泡排序法对数据集进行排序,获取数据集的各维中心值组成第一个初始聚类中心点.其次,通过计算与第一个初始聚类中心点的欧式距离,对剩余候选初始聚类中心点进行优化选择,保证所有的聚类中心点均匀地分布在数据集密度较大的空间上,以此减少聚类过程中的迭代次数和提高聚类算法效率.最后,基于UCI(University of California,Irvine)中多个数据集,进行聚类算法对比实验.结果表明,在不降低聚类效果的前提下,该聚类算法的迭代次数平均降低到50%,所需的时间降低平均达10%,由实验结果还能推出,当点集的数目越多时,该算法就能表现出越明显的聚类优势效果.  相似文献   

3.
针对不完整基因表达数据的聚类问题,提出了一种多目标NSGA-Ⅱ框架下缺失值填补与聚类协同优化的算法.算法根据欧式距离确定不完整基因的近邻基因,以缺失值的最近邻区间为约束,采用混合编码将缺失值填补与聚类中心优化融入NSGA-Ⅱ进化过程,通过将数据集的统计信息与聚类结果共同作为缺失值填补因素,提升不完整基因表达数据的填补准...  相似文献   

4.
针对传统聚类算法无法解决区间型数据聚类的问题,文章提出一种基于区间核的聚类算法(Clustering method based on interval kernel,IK-clustering,IK-C)。该方法首先求解区间型数据的区间中值和区间宽度,结合区间宽度和区间中值构造区间核,并采用平衡因子调节二者所占的比重,以有效衡量两个区间型样本的相似性,从而构造区间数据聚类算法。实验结果表明,文章提出的基于区间核的聚类算法在聚类均方差测度上比传统其他区间型数据聚类算法减小了0.019-0.132,说明本文提出的方法能够对区间型数据进行更为有效的聚类,得到了较好的聚类结果。  相似文献   

5.
基于动态隧道系统的K-means聚类算法研究   总被引:1,自引:0,他引:1  
针对K-means聚类算法易陷入局部极小的问题,利用动态隧道算法在解决全局最优化问题中的有效性,将算法中的动态隧道过程引入到K-means聚类算法中,提出了一种基于动态隧道算法的K-means聚类算法.该算法在K-means聚类算法寻优得到的局部极小值基础上,利用动态隧道过程寻找更小的能量盆地,再将其值提交给K-means聚类算法进行迭代寻优,重复该过程,直到找到全局最小值.理论分析和仿真实验证明,该算法的聚类效果要优于K-means聚类算法.  相似文献   

6.
随着生物信息技术的快速发展,基因表达数据的规模急剧增长,这给传统的基因表达数据聚类算法带来了严峻的挑战.基于密度的层次聚类(DHC)能够较好地解决基因表达数据嵌套类问题且鲁棒性较好,但处理海量数据的效率不高.为此,提出了基于MapReduce的密度层次聚类算法——DisDHC.该算法首先进行数据分割,在每个子集上利用DHC进行聚类获得稀疏化的数据;在此基础上再次进行DHC聚类;最终产生整体数据的密度中心点.在酵母数据集、酵母细胞周期数据集、人血清数据集上进行实验,结果表明,DisDHC算法在保持DHC聚类效果的同时,极大地缩短了聚类时间.  相似文献   

7.
基于无监督学习的数据清洗算法   总被引:2,自引:0,他引:2  
为了解决数据仓库中相似重复记录的数据问题,提出了基于无监督学习的数据清洗算法.该算法采用基于Hebbian假设的自适应学习方法,并通过相似度确定奖励和惩罚等级.在学习过程中根据需要增加新的聚类,在学习结束后,通过分析聚类情况删除错误的聚类,从而避免了死神经元问题并使聚类更加准确.实验表明,该算法能准确地完成实体识别.  相似文献   

8.
微阵列技术使快速大量检测基因成为可能,人们迫切需要利用该技术提高疾病诊断水平.因此,对微阵列数据的分析研究迅速发展,其中以数据多类分类研究尤为突出.但由于微阵列数据具有特征多、样本少的特点,使得传统统计学习方法分类效果欠佳.为了针对微阵列数据特点解决多类分类问题,提出了一种迭代延长纠错输出编码(iterative extension error correct output coding,IE-ECOC)的算法.在几个特征子集上,配合与特征相关的数据复杂度,利用一种基于二叉树的编码方法生成一个列池,并提出一种择列策略构造编码矩阵;然后,依据迭代验证结果延长矩阵.对癌症基因微阵列进行分类实验,结果显示,IE-ECOC对特征多、样本少的数据具有针对性,且与一些经典的ECOC算法相比,可以产生较好的结果,IE-ECOE算法效果也在实验中得到了验证.  相似文献   

9.
Kohonen聚类神经网络(KCN)在处理数据集的聚类问题时具有良好的准确性.但KCN算法在随机选取初始权值时存在不足,而且在处理存在孤立点和“噪声”时算法鲁棒性和可靠性较差.使用数据场的概念对KCN聚类算法进行了有益的改进.实验表明,改进后的算法相对于随机选取初始权值具有较高的准确率。摘要:Kohonen聚类神经网络(KCN)在处理数据集的聚类问题时具有良好的准确性.但KCN算法在随机选取初始权值时存在不足,而且在处理存在孤立点和“噪声”时算法鲁棒性和可靠性较差.使用数据场的概念对KCN聚类算法进行了有益的改进.实验表明.改进后的算法相对于随机选取初始权值具有较高的准确率.  相似文献   

10.
已有的大多数聚类算法都假设数据集保持不变,然而,很多应用中数据集是会随时间变化的。为此,提出了一种新的三支决策软增量聚类算法。采用区间集的形式表示类簇,区间集的上界、边界与下界就对应着三支决策产生的正域、边界域和负域,并提出了一种基于代表点的初始聚类算法。采用同样的方式对新增数据集进行一次预聚类,以消除数据处理顺序对最终聚类结果产生的影响。为了快速查找新增数据的相似区域,建立了代表点搜索树,并且给出了查找和更新搜索树的策略。运用三支决策策略完成增量聚类。实验结果表明提出的增量聚类算法是有效的。  相似文献   

11.
针对分类数据,基于属性分组技术和多目标聚类质量函数,提出一种子空间聚类算法.该算法采用属性分组技术,将高相关属性划分到同属性组中,利用同组属性相关性度量属性权重值,构建属性软子空间;采用基于多目标的聚类质量函数,判断整体聚类效果,通过迭代优化簇集结构,达到最佳的数据划分状态.在人工合成数据集和UCI数据集上,实验验证了该算法的正确性、高效性和可靠性.  相似文献   

12.
在基于解决单类问题的支持向量数据描述算法基础上提出了基于聚类分布信息的c-SVDD算法.该算法对带野值的SVDD算法中的C值重新定义.通过增加核空间下测试样本的聚类分布信息。为每个样本定义一个特定的c值.c-SVDD算法适应于解决类别不平衡学习问题.该算法在保证少类样本高分类精度前提下,还有效提高了全样本的分类精度,更符合现实不平衡问题中对少类样本的处理要求.对UCI数据集和人工样本集进行实验.改进后的c-SVDD算法比带野值的SVDD算法AUC值平均提高0.14以上;比AdaBoost算法在正类查全率上平均提高40%,精确度也提高了至少5%.  相似文献   

13.
图像分割的谱聚类集成算法   总被引:2,自引:2,他引:0  
针对谱聚类算法对尺度参数敏感的问题,利用集成学习算法良好的鲁棒性和泛化能力,提出了一种无监督集成学习算法——谱聚类集成算法.该算法先利用谱聚类的内在特性产生集成学习所需的多个聚类个体,再采用Hungarian算法对生成的聚类个体进行重新标记,计算每个样本点关于每一个类别所占的比例,得到一个成分向量,然后运用对数比变换将所得的成分向量映射到另一个空间,去除成分数据的不适定性,最后对映射后的数据进行聚类,从而得到最终的集成结果.通过对UCI数据集和纹理图像的仿真实验表明,所提算法的聚类准确率与常用的共识函数具有一定的可比性,且运算代价较小,所需时间大约为MCLA算法的一半,同时避免了精确选择谱聚类算法的尺度参数.  相似文献   

14.
利用少量的标记数据和约束辅助聚类过程,提出一种基于半监督聚类的入侵检测模型.实验结果表明,与基于监督和非监督学习的入侵检测算法相比,基于半监督聚类的入侵检测算法可以更加有效地检测出未知攻击.  相似文献   

15.
K -均值聚类算法在当前提取数据挖掘的聚类分析方法中已经取得了一定的成就,为了进一步改进其在数据预处理及神经网络结构中的应用,文中对算法进行了缺陷研究,主要做了以下几个方面的工作:对K-means算法进行了思路及算法主要流程分析;得出K-均值聚类算法存在简单、迅速、结果簇密集、簇与簇之间区别较为明显等优点;分析得出算法存在与处理符号属性的数据不太适应、必须事先给出k值(想要生成的簇的个数)、对“噪声数据”以及孤立的点数据有较大影响、需要不断计算更新调整后的新聚类中心等缺点。在实验验证中结果得出:聚类结果可知,选取不同的值初始值对聚类结果的影响很小;如果聚类数据集迭代次数较多时,可以尝试着改变其数据的输入顺序;变动数据集的输入顺序,会直接影响聚类结果。实验结果对于K-均值算法的工作效率提高了具有明显的参考价值,这一研究对于数据挖掘技术的改进具有一定的意义。  相似文献   

16.
现有的优秀的聚类算法大多是处理低维数据的,但是对于高维数据,由于其分布特性与低维情形有很大的差异,这些算法失效.为解决高维分类型数据聚类问题,提出了一种基于粗糙集的高维分类型数据子空间聚类算法,基于粗糙集的上、下近似集的类边界描述,确定了类边界范围,然后采用相容度来调整类边界,聚类的过程采用增长子空间的思想,从低维到高维迭代地搜子空间类簇.最后通过在soybean、zoo数据集上的对比实验,实验结果表明了算法不仅可行,而且精度高.  相似文献   

17.
定义了一种基于滑动匹配的相似度, 并在此基础上提出一种能够自适应确定聚类数目的全局K-均值算法, 解决了现有共调控基因聚类方法无法考虑到基因的正反、 延时、 部分时间和差异表达全部4种共调控关系的问题. 将提出的算法应用于微阵列数据中, 并将实验结果与CLUSTER 3.0算法进行了比较, 验证了算法的可行性和有效性.  相似文献   

18.
针对校园网络异常用户行为,研究了基于数据流的网络数据采集以及预处理技术,采用一种随机可变时长的数据采集策略采集数据网络,利用K-means聚类算法处理数据缺失值,混合直方图生成概要数据结构,提高了网络数据的聚类质量。  相似文献   

19.
针对K均值聚类(K-means)算法处理复杂问题时易陷入局部最优值、聚类质量较差等不足,提出一种基于粒子群的三支聚类算法.该算法先以随机产生的聚类中心组合作为初始粒子,构成粒子群;然后,通过调整算法中的速度公式参数,使粒子在迭代过程中能较快速地找出全局最优解,即最优的聚类中心;最后,采用三支决策的方法考察数据与类的关系,把确定归属的数据分配到类的核心域,归属不确定的数据分配到类的边界域.实验结果验证了所提算法的有效性,在寻找全局最优值和聚类结果准确性等方面算法都具有较好的性能.  相似文献   

20.
为了解决传统算法检测准确性低,复杂性高不适于电力大数据异常值检测的问题,通过密度峰值聚类算法研究了电力大数据异常值检测问题。分析了密度峰值聚类算法的聚类过程。按照聚类中心选择原则,通过相邻距离和密度的归一化乘积对聚类点的差异度进行衡量,按照差异度的统计特性与改变趋势选择最大的一组点当成聚类中心。按照z空间填充曲线与高维数据点z携带位置信息特性提出基于z的分布式密度峰值聚类算法,降低异常检测复杂性,以达到电力大数据异常值检测要求。采用优化后的密度峰值聚类算法对电力大数据异常值进行检测,在局部密度超过阈值,同时距离超过阈值的情况下,认为相应电力数据点为异常值。将基于距离的检测算法和基于密度的检测算法作为对比进行测试,结果表明:所提算法得到的异常电力数据点,和实际情况相符,和其他两种算法相比没有出现错检测和漏检测的情况。可见所提算法适于电力大数据异常值检测,且检测结果准确性高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号