首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于随机森林的潜在k近邻算法及其在基因表达数据分类中的应用
引用本文:杨帆,林琛,周绮凤,符长虹,罗林开.基于随机森林的潜在k近邻算法及其在基因表达数据分类中的应用[J].系统工程理论与实践,2012,32(4):815-825.
作者姓名:杨帆  林琛  周绮凤  符长虹  罗林开
作者单位:1. 厦门大学 自动化系, 厦门 361005;2. 厦门大学计算机科学系, 厦门 361005
基金项目:国家自然科学基金(60975052);中央高校基本科研业务费专项资金(2010121065)
摘    要:随机森林被广泛应用于包括癌症诊断在内的生物信息学领域. 从自适应k近邻的角度分析了随机森林的分类机理,分析其存在的信息损失, 据此提出一种新的投票机制,称为基于随机森林的潜在k近邻算法RF-PN,能够充分利用决策树上的OOB样本信息, 显著改善随机森林的分类性能.6个癌症基因表达数据集上的对比实验表明,RF-PN的分类准确率优于原算法.

关 键 词:随机森林  潜在k近邻  基因表达数据  
收稿时间:2010-12-31

Random forest based potential k nearest neighbor classifier and its application in gene expression data
YANG Fan , LIN Chen , ZHOU Qi-feng , FU Chang-hong , LUO Lin-kai.Random forest based potential k nearest neighbor classifier and its application in gene expression data[J].Systems Engineering —Theory & Practice,2012,32(4):815-825.
Authors:YANG Fan  LIN Chen  ZHOU Qi-feng  FU Chang-hong  LUO Lin-kai
Institution:1. Department of Automation, Xiamen University, Xiamen 361005, China;2. Department of Computer Science, Xiamen University, Xiamen 361005, China
Abstract:Random forests(RF) has been widely used in bioinformatics especially in cancer diagnosis. This paper studies the classification scheme of RF from the viewpoint of adaptive k nearest neighbors, analyzes the information loss in RF,and proposes a new voting method called RF-based potential nearest neighbor which can use the information of OOB samples in each tree and show significant improvement. Comparison result on 6 cancer gene expression datasets demonstrated that RF-PN got better predictive accuracy than RF.
Keywords:random forests  potential k nearest neighbors  gene expression data
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《系统工程理论与实践》浏览原始摘要信息
点击此处可从《系统工程理论与实践》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号