首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
针对不完整基因表达数据的聚类问题,提出了一种多目标NSGA-Ⅱ框架下缺失值填补与聚类协同优化的算法.算法根据欧式距离确定不完整基因的近邻基因,以缺失值的最近邻区间为约束,采用混合编码将缺失值填补与聚类中心优化融入NSGA-Ⅱ进化过程,通过将数据集的统计信息与聚类结果共同作为缺失值填补因素,提升不完整基因表达数据的填补准确度及聚类性能.在多个基因表达数据集上的实验结果表明,所提算法得到了更接近真实表达值的填补结果及更紧凑的聚类效果,且聚类结果具有统计显著性.  相似文献   

2.
OPSM作为一种基于模式的双聚类方法,被广泛应用于基因数据矩阵的分析上.在一个OPSM聚类中,形成聚类的若干基因在特定的条件子集下具有一致的表达模式,其中隐含着基因的关联调控信息,对基因数据矩阵进行双聚类分析具有生物学意义.其中,Deep OPSM是OPSM聚类中行数少列数多的特殊聚类.根据OPSM模型,该文提出了一种快速有效的精确性算法,用于挖掘分散在基因数据矩阵中的OPSM聚类.首先寻找基因数据矩阵中任意两行的公共子序列,然后利用STL map对找到的公共子序列进行支持度统计,并将符合支持度阈值的OPSM聚类输出,且通过阈值的设置即可输出Deep OPSMs.结果证明该算法能够快速地找到符合条件的Deep OPSMs.通过P-value值分析,验证了找到的Deep OPSM具有明显的生物学意义.  相似文献   

3.
聚类是识别基因表达数据蕴含的关键基因调控模块的一种有效方法,基因表达谱的相似性度量是聚类的关键问题.然而,一般的相似性度量方法不能刻画时间序列基因表达谱数据所蕴含的时间延迟、反向相关和局部相关等复杂的基因调控关系.针对时间序列基因表达谱数据,提出一种基于近邻传播和动态规划的相似性度量方法和聚类算法.在大鼠再生肝细胞基因表达谱数据集上的聚类结果与基因功能富集分析结果高度一致,证明算法在时间序列基因表达谱数据聚类上的有效性.  相似文献   

4.
研究表明阿尔茨海默病(AD)的致病机理可能与基因有关.利用计算方法对AD基因表达数据进行挖掘,以获得AD候选致病基因,寻找治愈AD方法.结合生物信息理论应用基于主成分分析(PCA)方法的模糊C均值算法处理基因表达数据:观察到AD基因表达数据具有线性相关性后,先用PCA对数据降维,再利用一维分类方法对降维后的数据聚类,然后将结果提供给模糊C均值算法作为其初始聚类数目和聚类中心.通过算法,最终识别出9个AD候选致病基因.  相似文献   

5.
针对异常模式挖掘中的情境离群点检测问题,提出一种基于图的检测方法.首先对数据实例构建一个实例图,然后采用一个滑动窗口穿越数据实例,对处于滑动窗口内的数据实例,计算结点之间的闵可夫斯基距离作为边权值,然后采用最小生成树聚类算法对实例图进行聚类,再采用第二个滑动窗口穿越数据实例,根据窗口内的数据实例是否属于主趋势聚类赋予不同的离群值评分,不属于主趋势聚类的数据实例被认为是潜在的离群点.仿真实验和实际数据分析表明该方法在一元序列数据检测中是切实可行的,该方法具有较好的适用性和扩展性.  相似文献   

6.
Web文本聚类是一种典型的无指导机器学习技术,目标是将站点上采集到的Web文本分成若干簇,使同一簇内的文本相似性最大,不同簇间的文本相似性最小.为了对原始粗糙的Web文本数据进行降维处理,在知识属性值的基础上,计算单个属性相对于属性集的重要性量化值,并根据属性重要性量化值对特征向量降维,并采用K-means算法对降维后的数据聚类,实验证明该方法缩短了聚类时间.  相似文献   

7.
Web文本聚类是一种典型的无指导机器学习技术,目标是将站点上采集到的Web文本分成若干簇,使同一簇内的文本相似性最大,不同簇间的文本相似性最小.为了对原始粗糙的Web文本数据进行降维处理,在知识属性值的基础上,计算单个属性相对于属性集的重要性量化值,并根据属性重要性量化值对特征向量降维,并采用K-means算法对降维后的数据聚类,实验证明该方法缩短了聚类时间.  相似文献   

8.
Isomap在基因表达谱数据聚类分析中的应用   总被引:8,自引:0,他引:8  
基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。基于非线性降维算法等容特征映射 ,提出了一种新的大规模基因表达谱数据聚类算法 ,该方法改进了样本向量之间的距离度量 ,用测地距离代替传统的欧式距离 ,有助于挖掘高维数据内在的几何结构。将该算法应用于两个公开的基因表达数据集 ,并用一种新的评价方法Normalized Cut将聚类结果与其他聚类方法的结果进行了比较。结果表明 ,该文的聚类算法优于其他聚类算法 ,聚类结果具有明显的生物学意义 ,并能对数据的类别数作出较好的预测和评估  相似文献   

9.
基于数据模式聚类算法的离群点检测   总被引:1,自引:0,他引:1  
针对传统模式挖掘算法在事务包含模式定义上未考虑模式间的包含关系而使聚类结果不够优良的问题, 提出一种新的基于模式聚类的离群点检测算法PCOT, 该算法适合于高维数据空间, 采用一种新的事务包含模式, 通过将模式表示成超图, 用超图分割方法对模式进行聚类. 实验与分析结果表明, 该算法能有效地在高维稀疏空间中发现离群点.  相似文献   

10.
双聚类作为一种无监督的学习方法,其作用是对基因表达数据进行分析.为了获取较大容量的双聚类簇,弥补传统的双聚类方法在基因表达数据一致波动性方面的不足,引入粗糙集的上、下近似集概念,将粗糙集理论运用到模糊双聚类算法中,将粗糙上、下近似集与加权均方残差相结合,得到新的粗糙均方残基,进而提出一种基于粗糙均方残基的模糊双聚类算法.针对基因表达数据集,首先进行缺失值填补;其次,用非负矩阵分解算法对基因数据集进行降维;最后,计算数据矩阵的粗糙均方残基,结合综合评判度量函数与贴近度原则对矩阵的行列进行删除和添加,得到容量更大的双聚类结果.实验结果表明,该模糊双聚类算法是有效的.  相似文献   

11.
现有的优秀的聚类算法大多是处理低维数据的,但是对于高维数据,由于其分布特性与低维情形有很大的差异,这些算法失效.为解决高维分类型数据聚类问题,提出了一种基于粗糙集的高维分类型数据子空间聚类算法,基于粗糙集的上、下近似集的类边界描述,确定了类边界范围,然后采用相容度来调整类边界,聚类的过程采用增长子空间的思想,从低维到高维迭代地搜子空间类簇.最后通过在soybean、zoo数据集上的对比实验,实验结果表明了算法不仅可行,而且精度高.  相似文献   

12.
目前的高属性维稀疏数据算法大多面向二态数据,而且没有聚类结果的评价方法,给应用带来很大局限。针对这些问题,给出一种基于信息粒度的高属性维聚类算法。首先通过设计面向数据稀疏特征的半模糊聚类算法对数据进行离散化,并基于此给出稀疏相似度和初始等价关系的定义,然后设计可变精度的二次聚类模型对初始聚类结果进行修正,使算法具有较强抗噪声能力,最后结合应用领域定义一种新的聚类质量的评价模型。实验证明,算法具有更广应用性,可提供多粒度分析结果,准确度更高,得到的聚类结果能真实反映数据的特征。  相似文献   

13.
应用映射簇的概念来明确多维数据中簇与维度的关系,将聚类问题转化为映射簇问题;将采样技术与PAM相结合,根据曼哈坦距离计算数据对象之间和簇之间的距离实现聚类分析.此外,给出了相应的具体算法,并将该算法与k-中心点算法进行了试验比较.试验结果证明了该算法的有效性.  相似文献   

14.
针对现有的不完全数模糊聚类算法未考虑样本各维属性对聚类贡献不同的问题,提出了基于属性加权的不完全数模糊c均值聚类算法.利用ReliefF算法评价各维属性的重要程度,通过加权欧式距离将属性权重结合入聚类,并能实现在聚类迭代过程中的缺失属性、隶属度及聚类中心的一体化求解.实验结果表明,该算法强调了重要属性在不完全数模糊聚类中的作用,能够得到更为准确的聚类结果.  相似文献   

15.
针对海量数据聚类过程中,经典的K-均值聚类算法对其K个初始聚类中心点的选择以及数据集噪声十分敏感的问题,提出了一种针对海量数据考虑初始聚类中心点选择的聚类算法.该算法首先采用冒泡排序法对数据集进行排序,获取数据集的各维中心值组成第一个初始聚类中心点.其次,通过计算与第一个初始聚类中心点的欧式距离,对剩余候选初始聚类中心点进行优化选择,保证所有的聚类中心点均匀地分布在数据集密度较大的空间上,以此减少聚类过程中的迭代次数和提高聚类算法效率.最后,基于UCI(University of California,Irvine)中多个数据集,进行聚类算法对比实验.结果表明,在不降低聚类效果的前提下,该聚类算法的迭代次数平均降低到50%,所需的时间降低平均达10%,由实验结果还能推出,当点集的数目越多时,该算法就能表现出越明显的聚类优势效果.  相似文献   

16.
 为了解决申贷信用等级评价问题,介绍了解决银行申请贷款信用等级评价中聚类分析采用的基本概念及术语,提出了2种聚类算法包括基于信贷数据的聚类算法δ-kmeans;基于高维信贷数据的聚类算法ASC,并通过实验对其性能进行比较分析,实验表明:①δ-kmeans算法在信贷风险的控制上取得较好效果;②相比传统k-means和Coweb算法,ASC算法在聚类高维信贷数据上更加有效.利用k-means算法对银行信贷数据的聚类动力学关系进行分析.最后,给出了聚类分析算法在银行信贷领域应用的的难点.  相似文献   

17.
FCM算法在基因表达数据分析中存在噪声点,影响聚类结果,为此提出了一种改进的模糊核聚类算法,通过使用Mercer核把原始数据映射到高雏特征空间,并为特征空间的每个向量分配一个动态权值,分析权值的大小来识别噪声点,得到一个较为理想的聚类结果:实验结果表明,该方法比FCM聚类算法具有更好的聚类效果.  相似文献   

18.
在数据挖掘领域,聚类用于发现数据的分布模式和数据间的相互关系.作者提出一种分层聚类算法,可识大规模、高维数据.该算法首先从不同的角度对电信客户进行聚类或分类,然后以这些聚类为基础,实行自底向上的层次聚类得到最终的聚类结果.算法执行效率高,适合大规模数据的聚类问题.该方法在某电信企业的客户分析中取得了较好的结果.  相似文献   

19.
双聚类(Biclustering)算法是一种横向纵向同时进行的数据挖掘的聚类算法,主要用于生物信息学上对高维复杂的数据进行聚类,以平均平方残基作为筛选标准,贪婪迭代的方法来选取数据.传统双聚类算法聚出来的簇通常不是预想的结果,迭代次数越多偏差就越大,对于庞大的数据精确度会更小,而模糊集理论可以改进这种迭代产生偏差与得不蓟预想结果的不足.为了获得更加好的实验结果,用模糊数学中的隶属矩阵和综合评判等方法改进双聚类的算法,使得聚类结果更精确更具有一致性,便于发现数据的关联性.  相似文献   

20.
时空聚类(spatial-temporal density based spatial clustering of applications with noise,ST-DBSCAN)算法只能处理固定属性的时空数据,且其人为设定阈值的方法具有较大随机性会导致聚类结果不理想.基于ST-DBSCAN算法存在的不足,提出了一种改进的多属性时空聚类算法.改进后的新算法采用绘制时空对象距离频数柱状图来设定自适应阈值,通过引入Gower相似系数、Dice相似系数与欧几里德距离来构建多属性相似度模型,计算多个事务对象之间属性特征的相似度大小,从而将ST-DBSCAN时空聚类算法扩展到更多属性的时空数据聚类分析中.以北京市计算机行业职位招聘信息数据进行实验仿真,实验结果表明,新提出的阈值设定方法可以有效识别部分低密度簇,提高聚类的准确性和有效性;改进后的算法具有较好的普适性与包容性,能对多属性的时空数据进行很好的聚类分析.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号