首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
鉴于DNA微阵列数据中无关基因和冗余基因对分类精度和效率的影响,提出一种基于全局和声搜索的特征基因选择方法,首先采用ReliefF算法对微阵列基因数据集排序,取排序靠前的N个基因构成初选基因子集,然后利用全局和声搜索算法选择特征基因.两个公共微阵列数据集上的仿真实验表明,该算法全局搜索能力强,分类精度高,能够有效地剔除噪声和冗余基因,是一种有效的特征基因选择算法.  相似文献   

2.
双聚类作为一种无监督的学习方法,其作用是对基因表达数据进行分析.为了获取较大容量的双聚类簇,弥补传统的双聚类方法在基因表达数据一致波动性方面的不足,引入粗糙集的上、下近似集概念,将粗糙集理论运用到模糊双聚类算法中,将粗糙上、下近似集与加权均方残差相结合,得到新的粗糙均方残基,进而提出一种基于粗糙均方残基的模糊双聚类算法.针对基因表达数据集,首先进行缺失值填补;其次,用非负矩阵分解算法对基因数据集进行降维;最后,计算数据矩阵的粗糙均方残基,结合综合评判度量函数与贴近度原则对矩阵的行列进行删除和添加,得到容量更大的双聚类结果.实验结果表明,该模糊双聚类算法是有效的.  相似文献   

3.
对基因表达数据进行双聚类分析是生物信息学领域的一种重要技术方法,但双聚类问题已被证明属于NP难问题.目前针对基因表达数据的双聚类算法都存在时间效率较低的问题.为此,采用遗传算法与粒子群优化算法相结合的混合进化算法来求解基因表达数据的双聚类问题.实验结果表明,所提算法在明显减少运行时间的同时,仍能保证良好的聚类效果.  相似文献   

4.
魏峻 《河南科学》2015,(1):58-64
DNA微阵列数据通常含有成千上万个基因,其中含有大量与分类无关的基因和冗余基因,这些基因的存在会严重影响分类精度和效率.针对这一问题,提出一种基于改进的和声搜索算法的特征基因选择方法,首先采用Relief F算法对微阵列基因数据集排序,取排序靠前的N个基因构成初选基因子集,然后再利用改进的和声搜索算法选择特征基因.通过在3个公共微阵列数据集上的仿真实验,结果表明,该算法能够在更少的特征基因情况下达到很高的精度,是一种有效的特征基因选择算法.  相似文献   

5.
提出了差异共表达框架和一个差异共表达评分函数,以观察到的一个双聚类基因在所属双聚类的条件下共表达和在其他条件下非共表达为基础,客观量化基因双聚类的质量.此外,还提出了一个评分函数把双聚类分层为三种类型的共表达.在实现双聚类输出统一排名中,使用提出的评分函数对这4个公认的双聚类算法在不同区域的6个实际数据集上的性能和行为进行测试.实验结果表明,在鉴别共表达双聚类方面,差异共表达框架能有效提高共表达基因双聚类质量和双聚类算法的性能.  相似文献   

6.
基于多目标优化的双聚类算法能够同时优化均方残差和尺寸等多个相互冲突的目标,更好地挖掘出均方残差较小、尺寸较大的双聚类,提出了一个多目标人工蜂群双聚类算法.该方法首先采用组信息对蜜源进行编码,然后使用2种交叉和1种变异操作分别实现算法的局部搜索和全局搜索,最后根据非劣排序和拥挤距离对外部档案进行修剪.在2套真实的基因表达数据集上进行实验,结果表明:与其他公开算法相比,多目标人工蜂群双聚类算法具有较好的收敛性和种群多样性,同时挖掘出具有显著生物意义的双聚类.  相似文献   

7.
针对基因表达谱微阵列的数据多分类问题,给出一种在多病类情况下的基于信噪比和相关性的特征基因选择方法.该方法一次性考虑基因区分所有病类的能力,尽量避免基因的冗余性;其次利用支持向量机,构建了基因表达谱微阵列数据的多分类器;最后通过实验表明了本方法的有效性.  相似文献   

8.
聚类是识别基因表达数据蕴含的关键基因调控模块的一种有效方法,基因表达谱的相似性度量是聚类的关键问题.然而,一般的相似性度量方法不能刻画时间序列基因表达谱数据所蕴含的时间延迟、反向相关和局部相关等复杂的基因调控关系.针对时间序列基因表达谱数据,提出一种基于近邻传播和动态规划的相似性度量方法和聚类算法.在大鼠再生肝细胞基因表达谱数据集上的聚类结果与基因功能富集分析结果高度一致,证明算法在时间序列基因表达谱数据聚类上的有效性.  相似文献   

9.
随着生物信息技术的快速发展,基因表达数据的规模急剧增长,这给传统的基因表达数据聚类算法带来了严峻的挑战.基于密度的层次聚类(DHC)能够较好地解决基因表达数据嵌套类问题且鲁棒性较好,但处理海量数据的效率不高.为此,提出了基于MapReduce的密度层次聚类算法——DisDHC.该算法首先进行数据分割,在每个子集上利用DHC进行聚类获得稀疏化的数据;在此基础上再次进行DHC聚类;最终产生整体数据的密度中心点.在酵母数据集、酵母细胞周期数据集、人血清数据集上进行实验,结果表明,DisDHC算法在保持DHC聚类效果的同时,极大地缩短了聚类时间.  相似文献   

10.
微阵列技术使快速大量检测基因成为可能,人们迫切需要利用该技术提高疾病诊断水平.因此,对微阵列数据的分析研究迅速发展,其中以数据多类分类研究尤为突出.但由于微阵列数据具有特征多、样本少的特点,使得传统统计学习方法分类效果欠佳.为了针对微阵列数据特点解决多类分类问题,提出了一种迭代延长纠错输出编码(iterative extension error correct output coding,IE-ECOC)的算法.在几个特征子集上,配合与特征相关的数据复杂度,利用一种基于二叉树的编码方法生成一个列池,并提出一种择列策略构造编码矩阵;然后,依据迭代验证结果延长矩阵.对癌症基因微阵列进行分类实验,结果显示,IE-ECOC对特征多、样本少的数据具有针对性,且与一些经典的ECOC算法相比,可以产生较好的结果,IE-ECOE算法效果也在实验中得到了验证.  相似文献   

11.
OPSM作为一种基于模式的双聚类方法,被广泛应用于基因数据矩阵的分析上.在一个OPSM聚类中,形成聚类的若干基因在特定的条件子集下具有一致的表达模式,其中隐含着基因的关联调控信息,对基因数据矩阵进行双聚类分析具有生物学意义.其中,Deep OPSM是OPSM聚类中行数少列数多的特殊聚类.根据OPSM模型,该文提出了一种快速有效的精确性算法,用于挖掘分散在基因数据矩阵中的OPSM聚类.首先寻找基因数据矩阵中任意两行的公共子序列,然后利用STL map对找到的公共子序列进行支持度统计,并将符合支持度阈值的OPSM聚类输出,且通过阈值的设置即可输出Deep OPSMs.结果证明该算法能够快速地找到符合条件的Deep OPSMs.通过P-value值分析,验证了找到的Deep OPSM具有明显的生物学意义.  相似文献   

12.
针对基因表达数据集的基因选择问题,采用邻域熵度量与蚁群优化原理,提出一种基因选择方法.首先,引入邻域粗糙集模型对基因数据进行邻域粒化,定义邻域熵度量用于剔除冗余基因构成预选择基因子集;然后,采用邻域熵构造基因重要度作为启发式信息,发挥蚁群优化算法的分布式、正反馈及全局寻优的优势,运用蚁群优化算法从预选择基因子集中搜索出最小基因子集;最后,在选取的最小基因子集上进行分类测试.实验表明:建立在该最小基因子集上的分类器具有良好的分类性能.  相似文献   

13.
结合了基因表达数据类内和类间表达差异的信息,提出一种新的基因选择算法,利用它选择出来的特征基因表达作为支持向量机的输入特征向量,对四个常用数据集进行分类,结果表明,该方法可以显著提高分类精度,同时通过对选取出来的特征基因在相关信号通路上的分析,表明该方法能够得到更多的肿瘤相关基因,具有很强的鲁棒性和很高的精确度.  相似文献   

14.
癌症通常由基因发生突变引起,因此从大量基因中有效地识别出少量致癌基因具有重要意义.针对基因表达谱数据高维小样本的特点,将支持向量机递归特征消除(SVM-RFE)和特征聚类算法相结合,提出一种新的基因选择方法:K类别SVM-RFE(K-SVM-RFE).该算法通过特征排序算法去除大量无关基因,利用K均值聚类算法将相似基因聚为一类,并通过两次SVM-RFE算法精选致癌基因.随后将K-SVM-RFE算法应用于多个基因表达谱数据集,并对其中的关键参数设置进行了讨论.实验结果表明K-SVM-RFE算法所选基因较已有方法在分类准确率上有显著提高,特别是在选择少量致癌基因上效果提升更为明显.  相似文献   

15.
近邻传播(Affinity Propagation,AP)聚类是基于数据点间消息传递的算法,主要通过数据间的相似度实现聚类.与传统的聚类方法相比,AP聚类无需事先给定聚类数目就可实现聚类,因此具有快速高效的优点,然而在处理高维复杂数据集时存在随着聚类效率提升而准确度不高的问题.为改善AP聚类算法的效率和精度,提出基于类内和类间距离的粗粒度并行AP聚类算法——IOCAP.首先引入粒度思想将初始数据集划分成多个子集;其次对各子集结合类内和类间距离进行相似度矩阵的改进计算,最后基于MapReduce模型实现改进后的并行AP聚类.在真实数据集上的实验表明,IOCAP算法在大数据集上有较好的适应性,能在保持AP聚类效果的同时有效地提升算法精度.  相似文献   

16.
谱聚类是利用样本数据集的相似性矩阵中特征向量的性质对样本数据集进行聚类.而随着数据规模的增加,谱聚类算法所耗时间会因为大规模的特征分解而明显增大.采用抽样方法可以有效降低算法所耗时间,但是简单随机抽样子集之间关联性太弱,通常无法准确反映数据集的分布特征.基于此,设计了一种新的抽样策略,利用该方法进行多次抽样,生成多个既具有关联性又具有差异性的数据子集.在每个数据子集上分别利用NJW算法(由Ng A Y、Jordom M I和Weiss Y提出)进行谱聚类,并根据最近邻原则将聚类结果映射到全体数据集,生成若干基聚类,最后,将聚类结果集成,得到最终的聚类划分.实验证明,该方法与传统NJW算法以及简单抽样集成算法相比,算法的效率及有效性有了一定的提高.  相似文献   

17.
Isomap在基因表达谱数据聚类分析中的应用   总被引:8,自引:0,他引:8  
基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。基于非线性降维算法等容特征映射 ,提出了一种新的大规模基因表达谱数据聚类算法 ,该方法改进了样本向量之间的距离度量 ,用测地距离代替传统的欧式距离 ,有助于挖掘高维数据内在的几何结构。将该算法应用于两个公开的基因表达数据集 ,并用一种新的评价方法Normalized Cut将聚类结果与其他聚类方法的结果进行了比较。结果表明 ,该文的聚类算法优于其他聚类算法 ,聚类结果具有明显的生物学意义 ,并能对数据的类别数作出较好的预测和评估  相似文献   

18.
目的 提出一种利用共有基因模块构建大规模基因调控网络算法(Common Gene Mod-ules Network,CGMN),有效降低传统基因调控网络构建基因节点规模较大的基因调控网络(包含几百个,甚至几千个基因节点)时时间复杂度过大的缺陷.方法 CGMN算法从基因表达数据出发,采用6种常用聚类算法把基因表达模式相似的基因聚类成功能模块,找出6种聚类方法的共有模块,并将其作为功能模块基因节点,采用局部贝叶斯网络(Local Bayesian Network,LBN)算法构建功能模块基因-基因调控网络.结果 与结论 大规模细胞周期基因表达数据集上仿真实验结果表明,搜索共有模块压缩基因节点数目策略,能够有效降低大规模基因调控网络重构时间复杂度,且验证了CGMN算法构建大规模基因调控网络的有效性.  相似文献   

19.
针对现有特征选择算法较少同时考虑样本的空间结构和先验知识的不足,提出一种基于结构和约束保持的半监督特征选择方法。该方法采用成对约束作为先验知识,同时考虑局部和非局结构,定义了一种新的特征评价准则——结构和约束保持分值。利用大量的无标记样本来学习样本空间结构,利用少量的成对约束信息来学习类内和类间边缘,所选择的特征子集能较好地保持空间结构信息和类属信息。在多个数据集上的实验结果表明,和现有的几种特征排序选择算法相比,所提方法有较好表现。  相似文献   

20.
为构建基因调控网络,提出了一个基于时序互信息学习动态贝叶斯网络结构的学习算法.在计算基因间的时序互信息时,该算法考虑了时间序列微阵列数据的时间特性,并利用协方差矩阵计算互信息,没有将基因表达数据离散化,与基因表达数据的连续性相符合.在酵母菌周期细胞的实验数据上测试该算法,灵敏度为66.7%;该算法构建的基因调控网络与KEGG数据库中的网络相比较,发现了Cdc28与Cdc20、Chk1与Rad9的调控关系,这些调控关系在相应的生物学实验中得到验证.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号