首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
赵洁茹 《科技资讯》2011,(33):235-235
肿瘤基因表达数据的模式识别是在已有数据的基础上建立分类器,并利用所建立的分类器对未知样品的状态进行判别。肿瘤基因表达谱数据的特点是矩阵的维数不断增加,而且样本的数目却较少。支持向量机可以处理高维数据,并且支持向量机的分类精度很高,抗噪能力也很强,使得支持向量机在肿瘤分类中有了充分的应用。  相似文献   

2.
聚类是识别基因表达数据蕴含的关键基因调控模块的一种有效方法,基因表达谱的相似性度量是聚类的关键问题.然而,一般的相似性度量方法不能刻画时间序列基因表达谱数据所蕴含的时间延迟、反向相关和局部相关等复杂的基因调控关系.针对时间序列基因表达谱数据,提出一种基于近邻传播和动态规划的相似性度量方法和聚类算法.在大鼠再生肝细胞基因表达谱数据集上的聚类结果与基因功能富集分析结果高度一致,证明算法在时间序列基因表达谱数据聚类上的有效性.  相似文献   

3.
基于非参数方法的肿瘤基因表达数据挖掘   总被引:3,自引:0,他引:3  
该文提出了一种基于非参数统计的模式识别方法,此方法并不对微阵列数据作总体分布假设,从而降低了噪声对预测结果的影响.该方法可适用于两总体及多总体的模式识别问题.通过对两个真实的肿瘤基因表达数据的分析,验证了方法的识别效果.  相似文献   

4.
针对基因表达谱数据,建立机器学习模型,进行数据挖掘,有助于疾病诊断和发展精准医疗.由于基因表达谱的分析结果受到数据处理平台、数据格式、数据批次等因素的影响,因此,研究人员希望有统一的数据处理平台和数据处理方法,以降低这些影响,提升分析结果的准确性.基于R语言设计并实现了基因表达数据处理工具包GEDPT,旨在对数据库GEO和TCGA的基因表达谱进行统一处理,包括预处理、基因注释、表型注释、样本分组、差异分析和分析结果可视化等.利用GEDPT分析了人类直肠癌放疗相关的基因表达谱,得到了与相关文献报道一致的结果;通过对比基因分布发现,GEDPT对多个微阵列原始数据采用相同的预处理可以降低批次效应带来的负面影响.测试结果验证了GEDPT的实用性和有效性.  相似文献   

5.
基于基因表达谱的肿瘤诊断方法有望成为临床医学上一种快速而有效的诊断方法,但由于基因表达谱数据存在高维数、小样本以及噪音大等特点,使得对其分类存在很大困难,所以很有必要寻找更为可行有效的分类方法.用贝叶斯分类器建立预测分类模型作为基因表达谱数据分类的一种新思路,以结肠癌的基因表达谱作为实验数据,利用MATLAB的贝叶斯网...  相似文献   

6.
聚类分析是从基因表达谱数据中提取生物医学信息的主要方法之一.针对传统谱聚类算法无法确定聚类个数的问题,提出一种改进的谱聚类算法并将其应用于基因表达谱聚类分析.首先用基因表达谱数据构造Laplacian矩阵,经特征值分解后得到相应的特征值和特征向量,用谱隙来描述相邻特征值的差值;然后通过寻找谱隙序列的最大值来确定聚类个数;最后从单位化的特征向量着手实现数据类别的划分.通过模拟数据与癌症数据的实验,证明了该文算法的有效性.  相似文献   

7.
基因表达谱数据分析已经逐渐成为疾病诊断和分类的常规步骤.目前人们对NMF(nonnegative matrix factorization)的大多数研究都专注于二因式分解.论文另辟蹊径,对BONMTF(bi-orthogonal nonnegative matrix tri-factorization)算法进行了系统化的分析,利用此算法得到表征样本属性的矩阵,并将其应用于基因表达谱数据分析,提高了样本识别率.实验采用4组具有代表性的肿瘤基因表达谱数据,其结果证明了论文方法针对不同数据集的识别率都比传统方法有所提高,具有一定的可行性及应用前景.  相似文献   

8.
基于谱图理论展开针对基因表达谱数据的分类研究,将反映图结构的特征表示引入到基因表达谱数据分类中,从而高维空间离散点分布问题便可以转化成为具有结构信息的图问题.文中对基因表达谱数据样本点构造高斯权邻接矩阵,SVD分解后,采用特征记分准则进行筛选,找出最大限度区分肿瘤样本与正常样本的主分量作为样本特征,输入KNN分类器进行分类,通过对白血病两个亚型(ALL与AML)与结肠癌表达谱数据进行实验,证明了文中方法的可行性与有效性.  相似文献   

9.
建立一种基因表达谱的聚类分析模型,通过信噪比处理、聚类结果的分析比较、相应标记的寻找,为芯片数据的后续分析以及寻找差异基因提供一种有效的方法.对一种糖尿病动物模型的小鼠基因表达谱进行实际分析,获取了有意义的结果,从而为糖尿病的快速和早期临床医学诊断提供有效的技术支撑.  相似文献   

10.
运用小波的降噪性建立一种基于肿瘤基因表达谱的聚类分析模型,采用小波变换、信息抽取、双向聚类的方法对基因表达谱进行有效的分析.通过这种模型,可以降低基因表达谱的噪音以及样本错聚率.最后,将该方法应用于结肠癌基因表达谱的分析.  相似文献   

11.
基于ITAFSVM的微阵列数据特征选择和分类   总被引:1,自引:0,他引:1  
支持向量机已经被成功应用于基因表达谱数据分析。但是,仍有开放问题需要解决:①支持向量机不能自动进行基因表达谱数据的特征选择;②支持向量机的参数优选没有简单有效的办法。一种新型具有良好特性的支持向量机——全间隔自适应模糊支持向量机(TAFSVM)被提出。并且提出一种新的遗传算法——智能遗传算法(IGA)来设计一个TAFSVM分类器,称为ITAFSVM,同时优化TAFSVM参数集和特征选择,并且结合10-fold交叉验证来确定其泛化能力。最后将ITAFSVM应用于四种基因表达谱数据集。通过与进化支持向量机(ESVM)方法、粗糙集与径向基神经网络组合(RBF-RBFNN)方法进行了比较,实验结果表明运用ITAFSVM不仅可以自动进行基因表达谱数据特征选择,而且分类精度和稳定性都较高,速度更快。  相似文献   

12.
随着DNA微列阵技术的发展,利用基因表达谱数据进行生物信息的有效挖掘已经成为研究热点.因此,该文中提出将点的代数连通强度与非负矩阵分解相结合的方法对基因表达数据进行分类处理.首先利用点的代数连通强度剔除受外界因素影响过大的基因数据并用修正的特征计分准则进行计分排序,选取具有高计分的基因子集;接着利用近来流行的非负矩阵分解将该基因子集映射到极低维的特征空间;最后利用SVM分类器实现分类实验.通过几组公开的基因表达谱数据集的实验结果以及与其他方法的对比分析,验证了该方法是有效的、可行的.  相似文献   

13.
针对基因表达谱微阵列的数据多分类问题,给出一种在多病类情况下的基于信噪比和相关性的特征基因选择方法.该方法一次性考虑基因区分所有病类的能力,尽量避免基因的冗余性;其次利用支持向量机,构建了基因表达谱微阵列数据的多分类器;最后通过实验表明了本方法的有效性.  相似文献   

14.
茎瘤芥是十字花科芸薹属植物的变种.本研究在前期的转录组测序和数字基因表达谱(DGE)测序的基础上进一步对榨菜的根组织进行了测序和分析.通过高通量RNA-Seq测序我们获得了高质量的数字基因表达谱数据超过一千万条,其中有约71%能比对到参考基因序列上.我们将根组织的数字基因表达谱数据与榨菜瘤茎膨大过程中的3个时期的数字基因表达谱数据进行了比较,获得了共有的(3组差异表达基因的交集)差异表达基因共3594个,对这些差异表达基因的表达趋势可以分为8个簇.同时对这些差异基因进行代谢途径的功能注释,发现这些差异表达基因除了在光合作用相关的途径外,主要分布在细胞壁的合成、降解以及二级代谢如类黄酮代谢等途径方面.通过对榨菜根组织的转录组测序,我们筛选得到了部分榨菜根与茎的差异表达基因,这些基因可能与榨菜的瘤茎膨大有关.  相似文献   

15.
伴随着基因芯片的发展,通过研究海量的基因表达谱数据来识别肿瘤已成为生物信息学研究的热点.提出一种基于LoG(Laplace of Gaussian)矩阵分解的肿瘤基因特征提取方法,该方法首先将样本数据映射为高维空间中的点,然后构建点与点之间的LoG矩阵,在保留样本分类信息的情况下,使得无结构信息的基因表达谱数据变成具有结构信息的图,再对LoG权值矩阵进行非负矩阵分解得到能够表征样本特征的特征分量,最后用KNN对样本进行分类.通过对白血病和结肠癌基因表达谱数据的特征提取,验证该文方法的可行性和有效性.  相似文献   

16.
基因表达谱数据一般来源于临床试验,而在临床试验中,试验样本的类分布情况是不确定的,这就使得表达谱数据往往具有比较明显的不平衡性.采用加权极限学习机来对不平衡基因表达谱数据进行分类,为了减少因为不平衡数据引起的分类误差,一个临时的权重被分配给每一个样本以增强少样本类的影响,同时减少多样本类的影响,进而提高肿瘤分类的准确率.实验结果表明,所提方法能够提高少样本类的识别率,从而提高分类器的总体性能.  相似文献   

17.
针对NCA算法对初始值敏感的不足,提出一种改进的NCA算法(INCA).INCA对肿瘤基因表达谱进行奇异值分解,将标准化后的右奇异矩阵作为初始值,提取肿瘤基因表达谱中的分类信息.在4个标准肿瘤基因表达谱数据集上进行实验,以INCA作为特征提取方法,K-近邻、Parzen窗作为分类器进行分类检测.实验结果表明,与NCA及现有的分类模型相比,基于INCA的分类模型能够取得较高的分类准确率.  相似文献   

18.
Isomap在基因表达谱数据聚类分析中的应用   总被引:8,自引:0,他引:8  
基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。基于非线性降维算法等容特征映射 ,提出了一种新的大规模基因表达谱数据聚类算法 ,该方法改进了样本向量之间的距离度量 ,用测地距离代替传统的欧式距离 ,有助于挖掘高维数据内在的几何结构。将该算法应用于两个公开的基因表达数据集 ,并用一种新的评价方法Normalized Cut将聚类结果与其他聚类方法的结果进行了比较。结果表明 ,该文的聚类算法优于其他聚类算法 ,聚类结果具有明显的生物学意义 ,并能对数据的类别数作出较好的预测和评估  相似文献   

19.
应用Geant4软件搭建能量色散X射线照射包裹毒品人体组织的仿真模型,对得到能谱数据进行降维后应用BP神经网络算法进行模式识别,以区分人体组织是否包裹毒品.将未包裹与已包裹海洛因的人体组织X射线散射谱经过截断与光滑,形成一个以元素为粒子数,标号为能量的向量.该向量具有较高的维数,为了提高模式识别的有效性,采用主成分分析进行降维.将仿真得到的数据集分为训练集与测试集,使用训练集训练BP神经网络,使用测试集进行识别测试,测试结果表明,使用BP神经网络识别包裹毒品的人体组织X射线散射谱具有较高的正确率.  相似文献   

20.
文中提出了一种结合非负矩阵分解和Normal_Matrix谱分解技术的肿瘤基因分类方法.其分类过程首先是利用fdr_test记分准则粗略除去噪声基因以实现基因表达谱数据的初步降维,进而运用非负矩阵分解萃取基因间的综合属性,通过综合属性构造样本间的Normal_Matrix并对其进行奇异值分解获取表征样本类别属性的谱分量实现肿瘤类型的分类识别.采用三组具有代表性的肿瘤基因表达谱数据进行实验,通过与其他方法的对比,其结果证明了文中方法的可行性和有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号