首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
聚类是识别基因表达数据蕴含的关键基因调控模块的一种有效方法,基因表达谱的相似性度量是聚类的关键问题.然而,一般的相似性度量方法不能刻画时间序列基因表达谱数据所蕴含的时间延迟、反向相关和局部相关等复杂的基因调控关系.针对时间序列基因表达谱数据,提出一种基于近邻传播和动态规划的相似性度量方法和聚类算法.在大鼠再生肝细胞基因表达谱数据集上的聚类结果与基因功能富集分析结果高度一致,证明算法在时间序列基因表达谱数据聚类上的有效性.  相似文献   

2.
聚类分析是从基因表达谱数据中提取生物医学信息的主要方法之一.针对传统谱聚类算法无法确定聚类个数的问题,提出一种改进的谱聚类算法并将其应用于基因表达谱聚类分析.首先用基因表达谱数据构造Laplacian矩阵,经特征值分解后得到相应的特征值和特征向量,用谱隙来描述相邻特征值的差值;然后通过寻找谱隙序列的最大值来确定聚类个数;最后从单位化的特征向量着手实现数据类别的划分.通过模拟数据与癌症数据的实验,证明了该文算法的有效性.  相似文献   

3.
提出一种基于遗传算法的数据挖掘方法——TGASVM,它能够尽可能少地选出分类能力强的信息基因.实验表明与同类的算法相比,TGASVM算法无论是分类准确率,还是挑选信息基因数目都优于同类算法.  相似文献   

4.
肿瘤浸润免疫细胞通过发挥促肿瘤和抗肿瘤的作用,可以深刻地影响肿瘤的进展以及抗癌治疗的成功.因此,对于肿瘤浸润免疫细胞的量化有望揭示免疫系统在人类癌症中的多方面作用及其参与肿瘤逃逸机制和对治疗的反应.解卷积的目的就是试图在复杂组织里存在的免疫细胞中寻找新的免疫疗法,其核心思想是利用算法和免疫细胞的表达特征,从细胞混合物的表达数据中量化免疫细胞比例信息,以准确刻画肿瘤样本测序数据的免疫浸润情况.为此,提出了一个新的基于逐步回归策略的解卷积算法模型,并使用真实的肿瘤样本微阵列数据和RNA-Seq测序数据来测试该算法的准确性.与CIBERSORT和dtangle相比较,具有良好的解卷积性能.  相似文献   

5.
文中介绍了Web挖掘的基本概念,提出了一种基于加权关联矩阵聚类的Web日志挖掘算法——多标记传播聚类算法,设计了一个面向电子商务的Web日志挖掘系统模型。  相似文献   

6.
将组件的颜色信息引入谱方法Matting中,利用组件颜色信息,通过对比各个组件之间的颜色相似性,对组件进行分组,从而提取出前景物体.这样做有两个好处:第一是可以摒弃传统的Matting问题解决方法中利用Trimap图进行半监督学习的过程,而是利用颜色相似性信息作为约束条件或者启发式信息应用到无监督的学习过程中,降低了自动提取前景物体的盲目性.第二是获得颜色相似性信息后只需要再结合很少的前、背景提示信息,就可以使得无法确定为前景还是背景的组件进一步减少,从而完成一个半监督的学习过程,而不用像传统方法那样引入大量的用户操作才能完成半监督的学习过程.  相似文献   

7.
按Gone Ontology基因功能分类体系,将基因模块化地组织成具有显著生物意义的低维功能模块单元,并将其作为新的分析指标用于分类微阵列疾病样本,从而提出了基于功能表达谱的聚类分析新途径、采用NCI60数据集,通过功能表达谱对组织样本进行聚类分析.结果显示,新算法不但得到高准确度的样本分型结果,而且能够直接从功能水平上给出相应的生物学解释.同时,用基于功能表达谱对组织样本进行聚类分析可以显著降低特征维数,有效地处理高检测误差与基因表达变异问题.  相似文献   

8.
基于图的标签传播算法是半监督学习中的研究热点之一,其性能很大程度依赖于图的质量.为了应对这一问题,文章提出了基于聚类的标签集成传播算法.该算法对样本集进行多次聚类,在每次聚类产生的簇中,利用互补熵度量簇内样本标签的混乱程度,并在混乱程度较小的簇中进行标签传播,当一个未标记样本获得某个标签的次数与聚类次数的比值大于50%...  相似文献   

9.
同时利用半监督学习中的标记数据与非标记数据,可以提高机器学习的能力.为了利用非标记数据,我们将非标记数据所在的样本空间映射到标记样本空间.讨论如何利用非标记数据构造学习算法,并证明所构造算法的收敛性.  相似文献   

10.
针对基因表达数据空间分布的特性,提出了一种基于模糊核判别分析的基因表达数据分析方法.方法综合了模糊数学以及核判别分析方法的优点,提高了对基因表达数据分类识别的准确性.以多发性骨髓瘤的基因表达数据为例进行了实验,从实验结果可以看出,采用模糊核判别分析方法可以得到最佳的识别效果.  相似文献   

11.
介绍基于压缩矩阵的Apriori改进算法的基本概念和原理。该算法可以避免多次扫描数据库且无需产生候选项集,提高了算法的效率。实验结果证明其可行性和高效性。  相似文献   

12.
在机器学习中,偏标记学习是一类重要的弱监督学习框架;在该框架中训练示例不再具有单一明确的标记,每个训练示例的真实标记被隐藏在一个候选标记集中并且在学习过程中不可获知。为了解决从训练示例的候选标记集中学习真实标记的问题,基于最大间隔准则提出了一种新的偏标记学习算法;该算法是通过优化模型在候选标记集中最大输出与非候选标记集中最大输出之间的间隔,以及优化模型在候选标记集中最大输出与候选标记集中其他输出之间的间隔进行偏标记学习。采用改进的次梯度Pegasos算法完成模型参数的优化学习。在四组人工改造的UCI数据集中,在平均65%的情况下优于其他对比算法。在四组真实偏标记数据集中,相比其他对比算法,取得了4.4%~10.2%的性能提升。实验证明,具有更好的泛化性能。  相似文献   

13.
在半监督聚类算法中,通常利用有标签样本的指导来提高数据的聚类效果,但不同样本对聚类结果的重要性并未充分考虑。为了解决这一问题,该文提出了一种基于自步学习的自适应半监督聚类算法(ASSCSPL)。首先,在模型中引入自适应损失函数,可以通过调节自适应损失参数提高模型的鲁棒性;其次,在模型中引入自步学习机制,用来刻画不同样本对聚类结果的不同重要程度;最后,在标签传播阶段,所得算法能够很好地利用已有的监督信息,为无标签数据赋予相应的标签权重。数据实验表明,与现有优秀算法比较,所提算法可以达到更好的聚类效果。此外,实验结果也表明,所提算法能够有效地降低噪声对模型聚类性能的影响。  相似文献   

14.
半监督学习是近年来机器学习领域中的一个重要研究方向,其监督信息的质量对半监督聚类的结果影响很大,主动学习高质量的监督信息很有必要.提出一种纠错式主动学习成对约束的方法,算法通过寻找聚类算法本身不能发现的成对约束监督信息,将其引入谱聚类算法,利用该监督信息来调整谱聚类中点与点之间的距离矩阵.采用双向寻找的方法,将点与点间距离进行排序,使得学习器即使在接收到没有标记的数据时也能进行主动学习,实现了在较少的约束下可得到较好的聚类结果.同时,该算法降低了计算复杂度,并解决了聚类过程中成对约束的奇异问题.通过在UCI基准数据集以及人工数据集的实验表明,算法的性能好于相关对比算法,并优于采用随机选取监督信息的谱聚类性能.  相似文献   

15.
针对传统转换多标记学习算法较难确定最低阈值的问题,该文对传统转换策略的多标记学习算法进行改进,提出了一种基于最低阈值的学习算法(TFEL),该方法根据类别标记学习为每个类别得到一个最低阈值.当分类器将一个测试示例预测为某个类别标记的分值大于为该类别标记学得的最低阈值时,则将该类别标记添加到该测试示例的最终分类结果中.实验结果表明, TFEL方法能够得到较好的分类效果,证明了该方法的可行性和有效性.  相似文献   

16.
基因芯片技术在肿瘤分型分类的研究中得到了广泛的应用.为了处理肿瘤基因表达谱数据,建立肿瘤分类预测模型,文中采用基因表达差异显著性分析方法,支持向量机,遗传算法相结合的多步骤降维分类方法.采用该方法处理大肠癌和白血病数据集,筛选到基因数量较少并且分类准确度较高的特征基因子集.实验结果表明,文中的方法可以快速有效地筛选肿瘤特征基因,获得更好的分类效果.  相似文献   

17.
针对NCA算法对初始值敏感的不足,提出一种改进的NCA算法(INCA).INCA对肿瘤基因表达谱进行奇异值分解,将标准化后的右奇异矩阵作为初始值,提取肿瘤基因表达谱中的分类信息.在4个标准肿瘤基因表达谱数据集上进行实验,以INCA作为特征提取方法,K-近邻、Parzen窗作为分类器进行分类检测.实验结果表明,与NCA及现有的分类模型相比,基于INCA的分类模型能够取得较高的分类准确率.  相似文献   

18.
19.
针对基因表达谱的高维、小样本及高噪声等特点,提出一种选择性集成分类方法。首先,采样改进的分类信息指数法进行属性约简,剔除大量无效基因实现降维;然后,基于bootstrap技术的样本扰动和核模糊粗糙集的特征扰动构建多个样本子集,训练多个基分类器;最后,采用教与学优化算法构建选择性集成分类器。仿真实验结果表明,算法在分类精度、集成规模及稳定性等方面具有较强优势。  相似文献   

20.
文中提出一种半监督核信任力传播聚类算法(SSKAPC).SSKAPC在对样本聚类的过程中,引入先验知识提高聚类性能;同时该算法将样本映射到高维空间进行聚类.人工数据和真实世界数据的实验表明,SSKAPC算法能大幅度提高聚类的准确性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号