首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 718 毫秒
1.
【目的】细胞类型鉴定是单细胞RNA测序的关键步骤之一,存在单细胞RNA测序数据分类准确率较低及各细胞类型距离特征度量不足的问题。【方法】提出一种基于多相似性损失函数(Multi Similarity Loss, MSL)的大间隔最近邻(Large Margin Nearest Neighbor, LMNN)单细胞分类方法。多相似性损失从多个角度衡量相似性,解决了LMNN算法的三元组损失函数训练样本较小时样本对之间关系利用率不高的问题,从而提升单细胞分类效果。【结果】在胰腺单细胞数据集baron_human和segerstolpe上的实验表明,基于MSL-LMNN的分类准确率高于主要度量学习方法,而且与随机森林结合的准确率达到0.96,较现有单细胞分类方法有所提升。【结论】提出的MSL-LMNN能够准确有效地识别胰腺单细胞测序数据细胞类型,具有一定的应用价值。  相似文献   

2.
针对单细胞转录组数据上细胞分类准确率较低的问题, 提出一种新的细胞集成分类算法. 该方法能充分利用不同分类模型的优点, 降低单细胞数据的分类误差. 分别在慢性粒细胞白血病单细胞测序数据和三阴性乳腺癌单细胞测序数据两个不同数据集上进行实验验证, 实验结果表明, 由集成算法划分的细胞分类更清晰准确, 验证了该算法的有效性.  相似文献   

3.
采用随机生存森林模型开展交通事件持续时间分析,克服了传统决策树模型易过度拟合和传统生存分析需限制性假定及识别协变量交互作用的缺陷.该研究基于上海城市快速路网交通事件数据,结合道路几何线形、交通运行、天气状况等数据.原始数据库分为训练数据(80%)和测试数据(20%).分析结果表明事件类型、路段长度、发生地点、剩余车道数、交通流量等变量对交通事件持续时间有显著影响;影响时间预测准确率结果表明随机生存森林模型预测精度显著优于随机森林的预测精度.  相似文献   

4.
基于非负矩阵分解模型, 提出一种新的数据补全算法. 该算法通过循环遍历确定最佳构造矩阵和rank值, 解决了单细胞转录组测序(RNA-seq)数据中存在缺失值的问题,  避免了由于单细胞测序深度不足对细胞分型分析的影响. 在慢性粒细胞白血病单细胞测序数据上的实验结果表明, 由补全算法恢复缺失值后的细胞分型更清晰, 验证了该算法的有效性.  相似文献   

5.
基于非负矩阵分解模型, 提出一种新的数据补全算法. 该算法通过循环遍历确定最佳构造矩阵和rank值, 解决了单细胞转录组测序(RNA-seq)数据中存在缺失值的问题,  避免了由于单细胞测序深度不足对细胞分型分析的影响. 在慢性粒细胞白血病单细胞测序数据上的实验结果表明, 由补全算法恢复缺失值后的细胞分型更清晰, 验证了该算法的有效性.  相似文献   

6.
为了实现骨髓血细胞的自动识别, 构建了骨髓红系细胞和粒系细胞数据集, 基于深度学习语义分割技术提出了 CellNet 网络模型。 该模型通过加入残差模块增加了网络的深度, 利用卷积残差块使网络模型更容易训练, 并结合 U鄄Net 的裁剪操作为分割提供更精细的特征。 实验结果表明, 该模型对骨髓红系细胞和粒系细胞识别正确率分别达到 93. 65% 、95. 25% , 为骨髓血细胞自动识别技术提供了一种方法。  相似文献   

7.
为了能够精准可靠地估计太阳能辐照度,本文提出一种基于贝叶斯模型组合的随机森林算法用于太阳能辐照度预测.首先,引入K-means聚类和K折交叉验证将气象数据训练集生成多个训练子集,以增加训练子集的多样性并保证均匀采样.其次,将随机森林作为基学习器建立集成学习预测模型,导入训练子集并训练各个随机森林.之后,依据各个随机森林在验证集上的预测性能,采用贝叶斯模型组合算法制定组合策略.个体随机森林在测试集上的预测值经过模型组合策略得到最终输出.最后,基于气象实测数据建立仿真实验,并引入其他四种预测方法进行对比仿真研究,通过实验结果验证了文中所提出预测方法在太阳能辐照度预测问题中的准确性和可靠性.  相似文献   

8.
基于多波束对长江河道底质分类关键问题进行了研究,对多波束反射强度数据进行改正并对多波束声呐图像进行预处理,采用灰度共生矩阵对底质反向散射强度图像进行纹理特征提取,最后将提取底质图像样本作为自组织特征映射神经网络和随机森林两种分类方法的训练数据,使用训练好的预测分类模型对反向散射强度图像进行全图底质分类.实验结果表明,SOM与随机森林分类方法的总体分类精度分别达到了82.5%与85.4%,对底质声呐图像实现了较好的预测分类效果.  相似文献   

9.
本文采用随机森林分类方法提取MODIS影像中的水体,根据水体和非水体在不同波段的反射率特征差异计算水体指数,选择一年内水体指数总和大于零的点构造分类特征,以全球30 m地表覆盖数据作为真值进行训练和验证.依据在随机森林中分类特征的重要性选出了10个分类特征,并通过一定量的实验统计选出有较好分类结果的随机森林模型参数.采用混淆矩阵及相关精度指标、Kappa系数等进行精度评价,获得较好的水体分类结果.  相似文献   

10.
为了提高冲击地压危害预测的准确性,基于主成分分析法和随机森林算法,构建了由主成分分析方法优化的随机森林模型,分析静态冲击地压数据并处理异常值,通过数据标准化处理、计算相关系数矩阵及累计方差贡献率,提取出5个主要特征.利用优化的随机森林模型训练冲击地压数据集,使模型参数不断得到优化.以混淆矩阵中的准确率作为评估指标,将优化的随机森林模型与单一随机森林模型进行比较分析.实验结果表明,优化的随机森林模型比单一随机森林模型具备更好的效果,其准确率达到了88.9%,高于单一的随机森林模型,进而得出结论,即优化的随机森林模型能有效地对冲击地压危害进行预测,通过随机森林优化模型,一定程度上有效缩减冲击地压危害预测的时间.  相似文献   

11.
根据生产制造企业网络的特点,在智能故障诊断中,提出了一种基于分类采样的随机森林算法(CSRF).该算法结合随机森林算法基本原理,使用分类采样技术生成所需的训练样本,很大程度上解决了数据不均衡带来的问题.该算法为随机森林的每一棵分类回归树(CART)生成相应的训练数据,缓解了采样偏置,提高了算法的性能.实验表明:该算法与随机森林算法相比在准确率上提升了约4%,有效降低了故障诊断的风险.  相似文献   

12.
针对神经网络分类模型对美国联邦运输统计局(Bureau of Transportation Statistics, BTS)航班数据集中的不均衡数据预测误差较大的问题,采用自适应合成采样算法(adaptive synthetic sampling approach, ADASYN)和合成少数类过采样算法(synthetic minority over-sampling technique, SMOTE)对航班延误类别进行平衡处理,并用随机森林(random forest, RF)模型进行训练和贝叶斯调参。结果表明:与不经过平衡采样的方法比较,该方法在权重平均下的精确率、召回率和F1评分分别提高了19%、8%和16%;分类预测准确率提升8.03%,模型拟合指数AUC(area under curve)提升5.4%。同时,采用多特征相融合的图神经网络模型Graph WaveNet对航班平均延误时间进行预测。实验结果表明:与单特征模型比较,该模型平均绝对误差和均方根误差分别降低了16%和12.45%。这些方法和结果对研究航班延误分类和预测算法研究具有参考价值。  相似文献   

13.
基于小波分析的纸浆Kappa值分类模型软测量   总被引:2,自引:0,他引:2  
针对在蒸煮过程纸浆Kappa值软测量中,基于经验的直接模型法在复杂工况情况下预测精度不高的问题,提出了一种分类模型软测量方法.该方法选择Daubechies小波作为分析工具,提取五维特征向量对升温过程曲线进行特征描述,并利用曲线特征对工况进行分类,对不同工况采用不同的软测量模型进行预测.用某造纸厂化浆车间的130组实际生产数据对该方法进行了检验,其中前100组数据用于训练,后30组数据用于测试.检验数据结果显示,分类模型预测标准偏差(3.87)比直接模型预测偏差(4.21)小,取得了更好的效果.  相似文献   

14.
为了给消费者信贷决策提供合理依据,基于真实的客户信贷数据,运用逐步Logistic回归方法依据AIC准则进行变量选择建立经典决策树、条件推断树、随机森林、支持向量机等分类模型,并对4个分类模型的预测结果进行比较.结果表明:基于逐步Logistic回归建立的随机森林分类模型准确率达97%,预测效果最优;随机森林算法具有较...  相似文献   

15.
针对现有预测方法中存在预测精度低、预测时间长及存储空间大等问题,提出一种基于格拉姆矩阵和随机森林的疾病预测方法,该方法首先从数据集中收集大量数据,其次使用格拉姆对称矩阵对采集数据进行存储和归类.然后引入随机森林二元回归和分类技术,通过二元变量相关性来衡量预测结果和数据之间的关系,并根据相关性构造决策树用于结果分类.最后...  相似文献   

16.
随着测序技术的发展,目前单细胞测序已经成为生命科学各研究方向的前沿技术.单细胞测序技术是指在单个细胞的水平上对其携带的遗传信息进行高通量测序分析的技术.在2011年和2013年,单细胞测序技术分别被《Nature Methods》和《Science》列为年度最值得期待和关注的技术之一.随后单细胞测序数据呈现指数级增长,使得在海量的数据中寻找有用信息成为一个难题,整合单细胞测序数据的数据库有效地解决了该问题.概述了近年来有关单细胞数据库的研究进展,结合单细胞测序技术的重要性探讨单细胞数据库的功能特点及适用范围,并提出未来单细胞数据库发展的趋势.  相似文献   

17.
荷电状态(state-of-charge,SOC)是锂离子电池预测和健康管理非常重要的一部分。锂离子电池的SOC无法直接测量,因此本文提出了基于随机森林回归算法的锂离子电池SOC估计的方法。首先构建随机森林回归模型,使用电池电流、电池电压、电池温度作为模型的训练输入,相对应的SOC作为模型的训练输出;然后使用随机森林算法进行模型训练;最后将训练模型应用于电池SOC估计。实验结果表明,随机森林回归算法对锂离子电池荷电状态的预测最大估算误差为0.02,均方根误差为0.003 204,该方法能有效地估算锂离子电池SOC并且有很高的估计精度。该模型研究为未来电池荷电状态估算系统的模型构建提供了参考。  相似文献   

18.
针对大数据由于数据复杂性、异构性、安全性、可伸缩性和大规模数据量而难以预测分析的问题,提出了基于增强可伸缩随机森林(Enhancing Scalable Random Forest,ESRF)的高维大数据预测分析系统.该系统通过在训练数据集上执行超参数优化来提升可伸缩随机森林(Scalable Random Fores...  相似文献   

19.
提出一种蛋白质亚细胞定位预测方法.该方法以位置特异性得分矩阵和基因本体抽取对应特征,结合支持向量机构建多标签分类模型.充分考虑了蛋白质进化信息对其亚细胞定位的影响,并基于文本分类中涉及到的卡方检验的对数变换思想,构建基因本体注释信息的加权系数对其进行加权处理,从而提高预测的准确率.采用支持向量机作为基分类器构建多标签分类模型,进一步提高预测的准确率.通过在目前该领域两个常用的真实数据集上进行的一系列测试结果表明,该方法能有效提高蛋白质亚细胞定位预测的准确率.  相似文献   

20.
为了提高长非编码RNA(long non-coding RNA,lncRNA)预测的准确性,提出一种基于随机森林算法的lncRNA预测方法.在国际通用的基因注释和基因组序列训练数据集中,首先进行特征选取,然后采用随机森林算法对包含特征信息的数据集进行模型训练.选取的特征包含14种三聚核酸序列(ACG、CCG、CGA、CGC、CGG、CGT、CTA、GCG、GGG、GTA、TAA、TAC、TAG、TCG)的占比、终止密码子在3种阅读框中的数量标准差、GC含量、蛋白质编码能力、转录本长度、外显子个数、平均外显子长度和保守性分值.10折交叉验证结果表明,该预测方法在真阳性率、精确率、召回率、F值和AUC值等性能指标方面均优于其他算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号