首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
伴随着基因芯片的发展,通过研究海量的基因表达谱数据来识别肿瘤已成为生物信息学研究的热点.提出一种基于LoG(Laplace of Gaussian)矩阵分解的肿瘤基因特征提取方法,该方法首先将样本数据映射为高维空间中的点,然后构建点与点之间的LoG矩阵,在保留样本分类信息的情况下,使得无结构信息的基因表达谱数据变成具有结构信息的图,再对LoG权值矩阵进行非负矩阵分解得到能够表征样本特征的特征分量,最后用KNN对样本进行分类.通过对白血病和结肠癌基因表达谱数据的特征提取,验证该文方法的可行性和有效性.  相似文献   

2.
文中提出了一种结合非负矩阵分解和Normal_Matrix谱分解技术的肿瘤基因分类方法.其分类过程首先是利用fdr_test记分准则粗略除去噪声基因以实现基因表达谱数据的初步降维,进而运用非负矩阵分解萃取基因间的综合属性,通过综合属性构造样本间的Normal_Matrix并对其进行奇异值分解获取表征样本类别属性的谱分量实现肿瘤类型的分类识别.采用三组具有代表性的肿瘤基因表达谱数据进行实验,通过与其他方法的对比,其结果证明了文中方法的可行性和有效性.  相似文献   

3.
基于基因表达谱的特征基因提取方法已经成为当今研究肿瘤分子诊断的热点,该文中提出了一种基于邻域不定性信息与记分准则相结合的肿瘤特征基因提取方法,该方法首先通过邻域不定性信息确定每个样本的邻域信息量,然后使用记分准则提取特征基因,最后利用KNN对样本进行分类.通过对白血病和弥漫性大B细胞淋巴瘤基因表达谱数据的特征选择,验证了该文方法的有效性和可靠性.  相似文献   

4.
基因表达谱数据一般来源于临床试验,而在临床试验中,试验样本的类分布情况是不确定的,这就使得表达谱数据往往具有比较明显的不平衡性.采用加权极限学习机来对不平衡基因表达谱数据进行分类,为了减少因为不平衡数据引起的分类误差,一个临时的权重被分配给每一个样本以增强少样本类的影响,同时减少多样本类的影响,进而提高肿瘤分类的准确率.实验结果表明,所提方法能够提高少样本类的识别率,从而提高分类器的总体性能.  相似文献   

5.
在高光谱图像(HSI)分类中,由于标记样本的获取十分耗时耗力,少样本问题一直是该领域的重要研究问题之一.本文先对HSI进行多种空间特征提取,并将这些特征与谱特征融合,以形成多种空-谱特征.然后对多种空-谱特征及其融合进行了实验对比分析.在3个基准HSI数据集上的实验结果表明,在少样本条件下,空-谱特征融合下的HSI分类精度显著高于仅用谱特征的分类精度;多空-谱特征融合方法的分类精度显著优于单一空-谱特征方法的分类精度.  相似文献   

6.
样本分类规则提取是基因表达谱数据挖掘工作中的重要内容,提取肿瘤病理组织与正常组织的样本分类规则具有重要的生物学意义与临床诊断价值.针对该问题,基于机器学习与数据挖掘技术,研究了用于区分肿瘤与正常组织样本的分类规则提取问题.首先,利用改进的Relief算法生成候选特征子集,并以支持向量机作为样本分类模型,利用交叉验证方法在训练集上评估候选特征子集的样本分类能力,确定分类特征基因集合;然后,利用CART(classification and regression trees)学习算法构建决策树获得样本分类规则;最后,对所得规则进行了分析和解释.  相似文献   

7.
随着DNA微列阵技术的发展,利用基因表达谱数据进行生物信息的有效挖掘已经成为研究热点.因此,该文中提出将点的代数连通强度与非负矩阵分解相结合的方法对基因表达数据进行分类处理.首先利用点的代数连通强度剔除受外界因素影响过大的基因数据并用修正的特征计分准则进行计分排序,选取具有高计分的基因子集;接着利用近来流行的非负矩阵分解将该基因子集映射到极低维的特征空间;最后利用SVM分类器实现分类实验.通过几组公开的基因表达谱数据集的实验结果以及与其他方法的对比分析,验证了该方法是有效的、可行的.  相似文献   

8.
按Gone Ontology基因功能分类体系,将基因模块化地组织成具有显著生物意义的低维功能模块单元,并将其作为新的分析指标用于分类微阵列疾病样本,从而提出了基于功能表达谱的聚类分析新途径、采用NCI60数据集,通过功能表达谱对组织样本进行聚类分析.结果显示,新算法不但得到高准确度的样本分型结果,而且能够直接从功能水平上给出相应的生物学解释.同时,用基于功能表达谱对组织样本进行聚类分析可以显著降低特征维数,有效地处理高检测误差与基因表达变异问题.  相似文献   

9.
基因表达谱数据分析已经逐渐成为疾病诊断和分类的常规步骤.目前人们对NMF(nonnegative matrix factorization)的大多数研究都专注于二因式分解.论文另辟蹊径,对BONMTF(bi-orthogonal nonnegative matrix tri-factorization)算法进行了系统化的分析,利用此算法得到表征样本属性的矩阵,并将其应用于基因表达谱数据分析,提高了样本识别率.实验采用4组具有代表性的肿瘤基因表达谱数据,其结果证明了论文方法针对不同数据集的识别率都比传统方法有所提高,具有一定的可行性及应用前景.  相似文献   

10.
基因芯片技术在肿瘤分型分类的研究中得到了广泛的应用.为了处理肿瘤基因表达谱数据,建立肿瘤分类预测模型,文中采用基因表达差异显著性分析方法,支持向量机,遗传算法相结合的多步骤降维分类方法.采用该方法处理大肠癌和白血病数据集,筛选到基因数量较少并且分类准确度较高的特征基因子集.实验结果表明,文中的方法可以快速有效地筛选肿瘤特征基因,获得更好的分类效果.  相似文献   

11.
李梦吉  韩燮 《科学技术与工程》2020,20(13):5235-5239
计算机辅助设计(CAD)模型是一种带有顶点信息和网格信息的三维数据,三维模型数据存储方式常见的有点云、体素、网格模型等是典型的非欧氏空间数据。为了改进现有方法利用深度学习训练CAD模型的分类时,常有丢失局部信息或局部信息提取不足的情况。针对这种非欧氏空间的CAD数据,提出了一个结合CAD数据本身特点的基于图卷积的分类模型。首先通过图卷积网络(GCN)计算顶点的邻接矩阵和顶点的度矩阵。针对CAD模型的特点提出了不同于K近邻(KNN)的方法,直接根据CAD模型面片信息构建计算所需的邻接矩阵。其次,图卷积网络可以聚合邻近顶点的信息,设计通过拼接两层图卷积网络来提取不同尺度的局部特征。结果表明:在ModelNet40 CAD模型数据集上,若采用CAD模型面片信息建图的方法,本文方法为91.2%。而采用KNN建图的方法虽然比PointNet++模型低1%的精确度,比KD-NET模型低0.9%的精确度,但参数量要比PointNet++减少0.54 MB,比KD-NET减少6.54 MB。可见本文模型结合了CAD模型的特点和图卷积聚合邻接顶点提取局部信息的优势,使得分类的精确度相比PointNet++提高0.6%,用更少的模型参数量得到了更高的分类精确度。  相似文献   

12.
图割法对极化SAR图像能达到很好的分类效果,但由于极化SAR数据比较庞大,直接用图割法进行分类,计算量太大,所以本文提出一种改进图割模型的分类方法.首先利用自适应的Meanshift算法结合多个极化特征把图像分成若干个同质区域,以这些同质区域的加权平均值作为超像素构建图模型,最后用图割法修正Meanshift过分割来得到最终的分类.实验证明该算法不仅在分类精度上有所提高,而且在速度上更能达到实时性的要求.  相似文献   

13.
针对高维数据集,提出一种利用预测变量之间的图结构信息来改进稀疏逻辑回归模型的方法。该方法通过利用高维图结构数据或者重叠组结构来进行逻辑回归建模,即使预测变量的图结构未知,该方法仍适用,当图结构为某些特殊形式时,目前流行的方法,如Adaptive Lasso,(Overlapping) Group Lasso和岭回归都可以看作是该模型方法的特例。数值模拟和实例分析应用表明:该方法能有效地利用预测变量图结构信息,提高模型在估计、预测以及变量选择等方面的表现,并且该模型在有限样本情形下是有效的;该模型方法克服了数据集的维数问题,利用高维数据的图结构提高了稀疏逻辑回归模型的性能,可广泛应用于高通量基因数据集的疾病分类研究中。  相似文献   

14.
提出一种基于潜在低秩图判别分析(LatLGDA)算法,利用数据的自表示对数据的列表示系数矩阵和行表示系数矩阵同时施加低秩约束,得到保留数据结构的亲和矩阵,再与图嵌入模型相结合实现高光谱图像的流形降维并进行分类。与其他基于稀疏图或稀疏低秩图的高光谱特征提取算法相比,LatLGDA可利用数据的行信息弥补列信息的不足或缺失,对噪音的抗干扰能力更强;在真实数据集上的实验结果表明,LatLGDA算法具有较高的分类精度和运算效率,应用前景广阔。  相似文献   

15.
针对传统文本分类算法的分类精度低和计算复杂度高的问题,提出一种基于加权频繁子图挖掘的图模型文本分类算法。首先将文档集表示成图集;然后运用加权图挖掘算法提取频繁子图;最后,对特征向量进行分类。提出的算法仅提取最重要的子图,使其整体具有较好的分类效果和较高的计算效率。为评估该算法有效性,将其与多种现有分类算法分别对一个数据集进行分类实验,实验结果表明,提出的算法具有更高的识别精度和更少的运行时间。  相似文献   

16.
文本分类是自然语言处理中一个重要的研究课题。近年来,图神经网络(graph neural network,GNN)在这一典型任务中取得了良好的效果。目前基于图结构的文本分类方法存在边噪声和节点噪声干扰、缺乏文本层次信息和位置信息等问题。为了解决这些问题,提出了一种基于正则约束的分层仿射图神经网络文本分类模型Text-HARC,该模型融合了图注意力网络(graph attention network,GAT)与门控图神经网络(gated graph neural network,GGNN),引入正则约束过滤节点与边噪声,分别使用仿射模块与相对位置编码补充词语表示。通过实验,该方法在TREC、SST1、SST2、R8四个基准数据集上的准确率提升明显,消融实验结果也验证了该方法的有效性。  相似文献   

17.
文档级别情感分类旨在预测用户对评论文本的情感极性标签。最近研究发现,利用用户和产品信息能有效地提升情感分类性能,然而,现有大多数研究只关注用户与评论、产品与评论的信息,忽略了用户与用户、产品与产品之间的内在关联,因此,本文提出一种融合图卷积神经网络的文本情感分类模型。首先,根据数据集构建了用户与用户关系图、用户与产品关系图;然后,融合两种关系图形成异质图,并使用图卷积神经网络学习用户与用户、产品与产品之间的内在联系,获得更好的用户和产品表示;最后,使用融合CNN的用户注意力和产品注意力机制的分层网络进行情感分类。实验结果表明,在公开数据集IMDB、Yelp2013和Yelp2014上,本文提出的模型能取得较好的分类效果。  相似文献   

18.
采用图神经网络模型为整个语料库构建异构图处理文本分类任务时,存在难以泛化到新样本和词序信息缺失的问题。针对上述问题,提出了一种融合双图特征和上下文语义信息的文本分类模型。首先,为每个文本独立构建共现图和句法依存图,从而实现对新样本的归纳式学习,从双图角度捕获文本特征,解决忽略单词间依存关系的问题;其次,利用双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)编码文本,解决忽略词序特征和难以捕捉上下文语义信息的问题;最后,融合双图特征,增强图神经网络模型的分类性能。在MR,Ohsumed,R8,R52数据集上的实验结果表明,相较于经典的文本分类模型,该模型能够提取更丰富的文本特征,在准确率上平均提高了2.17%,5.38%,0.61%,2.48%。  相似文献   

19.
针对肿瘤基因数据因维度高和冗余基因较多而导致分类精度低的问题,提出一种基于PCA和信息增益的肿瘤特征基因选择方法.该方法首先使用PCA算法剔除冗余基因,获得预选特征基因子集;然后利用信息增益算法对预选特征基因子集进行优化选取,得到特征基因子集;最后采用不同分类模型对特征基因子集进行仿真实验.实验结果表明,所提方法提高了基因表达谱的分类精度,从而表明致病基因被有效地选取出来.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号