首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 875 毫秒
1.
基于非负矩阵分解模型, 提出一种新的数据补全算法. 该算法通过循环遍历确定最佳构造矩阵和rank值, 解决了单细胞转录组测序(RNA-seq)数据中存在缺失值的问题,  避免了由于单细胞测序深度不足对细胞分型分析的影响. 在慢性粒细胞白血病单细胞测序数据上的实验结果表明, 由补全算法恢复缺失值后的细胞分型更清晰, 验证了该算法的有效性.  相似文献   

2.
基于非负矩阵分解模型, 提出一种新的数据补全算法. 该算法通过循环遍历确定最佳构造矩阵和rank值, 解决了单细胞转录组测序(RNA-seq)数据中存在缺失值的问题,  避免了由于单细胞测序深度不足对细胞分型分析的影响. 在慢性粒细胞白血病单细胞测序数据上的实验结果表明, 由补全算法恢复缺失值后的细胞分型更清晰, 验证了该算法的有效性.  相似文献   

3.
细胞类型鉴定是单细胞RNA测序的主要任务之一.针对整个问题,提出基于随机森林的细胞类型自动识别(automatic identification of cell type based on random forest, AICTRF)方法来识别单细胞测序数据中的细胞类型,该方法使用随机森林分类模型进行训练,根据训练的模型进而预测未知的细胞类型.在人类外周血单核细胞(PBMC)测序数据集上训练了随机森林分类模型,利用该模型预测了人类PBMC中B细胞的相关亚型细胞类型.实验结果表明,该方法可以帮助相关研究人员快速而有效地自动识别单细胞测序数据中的细胞类型.  相似文献   

4.
综合考虑对海雷达目标识别的高实时性和强泛化能力要求,提出一种利用模拟退火算法(SA)进行集成间隔优化的静态选择集成(SSE)算法.该算法首先利用SA基于集成间隔最大化搜索出不同大小的最优基分类器子集,然后利用集成分类精确度从中筛选出最终的集成分类器系统.进而提出一种分类器权值、样本权值的迭代求解算法,并考虑这两类权值以及基分类器的分类置信度,给出了8种集成间隔定义.在自建全极化高分辨率距离像(HRRP)分类数据集和17个UCI数据集上分析了集成间隔定义对集成算法性能的影响,通过对比实验验证了该算法的有效性.  相似文献   

5.
针对一般的选择性集成学习算法在选择分类器阶段需要独立设置验证集因而损失了一定的训练数据的缺点,提出了一种新的选择性集成分类算法FPSE,该算法采用一种基于排序的策略,这种策略在选择阶段就存在速度上的优势;其优势在于不必独立设置验证集,而采取一种将个体选择评估融入在原始数据本身的方法.实验验证了FPSE算法在个体评估策略的有效性,以及较好的泛化性能;对比试验说明了该算法的分类预测表现要优于Bagging算法和AdaBoost算法.  相似文献   

6.
【目的】细胞类型鉴定是单细胞RNA测序的关键步骤之一,存在单细胞RNA测序数据分类准确率较低及各细胞类型距离特征度量不足的问题。【方法】提出一种基于多相似性损失函数(Multi Similarity Loss, MSL)的大间隔最近邻(Large Margin Nearest Neighbor, LMNN)单细胞分类方法。多相似性损失从多个角度衡量相似性,解决了LMNN算法的三元组损失函数训练样本较小时样本对之间关系利用率不高的问题,从而提升单细胞分类效果。【结果】在胰腺单细胞数据集baron_human和segerstolpe上的实验表明,基于MSL-LMNN的分类准确率高于主要度量学习方法,而且与随机森林结合的准确率达到0.96,较现有单细胞分类方法有所提升。【结论】提出的MSL-LMNN能够准确有效地识别胰腺单细胞测序数据细胞类型,具有一定的应用价值。  相似文献   

7.
本文提出了一种基于混淆熵(confusion entropy,CEN)的分类器集成算法.该算法按照候选分类器的CEN值升序排序,遍历选择使得CEN值减小的分类器,从而使组合不断优化,以获得更好的集成分类结果.使用7个候选分类器在5个UCI数据集上进行实验,结果表明,所提算法整体上优于经典的分类器集成算法AdaBoost和XGBoost以及另外3种近期算法(AdaCost、AdaCost-CNN和CU-AdaCost),验证了算法的可行性.  相似文献   

8.
聚丙烯复合材料老化实验周期长,且单次实验采集的数据样本少,使用传统机器学习方法进行预测的准确度较低.为了解决聚丙烯复合材料老化数据样本少与预测准确性低的问题,提出了一种虚拟样本生成(virtual sample generation,VSG)的集成学习预测方法.首先,对聚丙烯复合材料老化数据使用高斯混合模型(Gaussian mixed model,GMM)虚拟样本生成方法平滑生成验证有效的虚拟样本;然后,使用生成后的数据集建立集成学习预测模型,该模型包含随机森林(random forest,RF)、极端梯度提升(extreme gradient boosting,XGBoost)算法、轻量级梯度提升机(light gradient boosting machine,LightGBM)算法以及分类梯度提升(categorical boosting,CatBoost)算法.实验表明:集成学习模型的LightGBM算法与CatBoost算法性能最优,在测试数据上均方误差为0.001 3与0.0001,比RF算法与XGBoost算法分别高出0.4与0.2.聚丙烯复合材料老化虚拟样本生成与集成...  相似文献   

9.
聚丙烯复合材料老化实验周期长, 且单次实验采集的数据样本少, 使用传统机器学习方法进行预测的准确度较低. 为了解决聚丙烯复合材料老化数据样本少与预测准确性低的问题, 提出了一种虚拟样本生成(virtual sample generation, VSG)的集成学习预测方法. 首先, 对聚丙烯复合材料老化数据使用高斯混合模型(Gaussian mixed model, GMM)虚拟样本生成方法平滑生成验证有效的虚拟样本; 然后, 使用生成后的数据集建立集成学习预测模型, 该模型包含随机森林(random forest, RF)、极端梯度提升(extreme gradient boosting, XGBoost)算法、轻量级梯度提升机(light gradient boosting machine, LightGBM)算法以及分类梯度提升(categorical boosting, CatBoost)算法. 实验表明: 集成学习模型的 LightGBM 算法与 CatBoost 算法性能最优, 在测试数据上均方误差为 0.001 3 与 0.000 1, 比 RF 算法与 XGBoost 算法分别高出 0.4 与 0.2. 聚丙烯复合材料老化虚拟样本生成与集成学习方法可以有效解决实验周期长、单次实验采集的数据样本少的问题, 并可取得比单一机器学习算法更优的性能.  相似文献   

10.
一种基于投票的不平衡数据分类集成算法   总被引:1,自引:1,他引:0  
不平衡数据分类是机器学习的研究热点之一。传统的机器学习分类算法通常假定用于训练的数据集是平衡的,不能直接应用于不平衡数据分类。利用朴素贝叶斯和决策树对数据不平衡的敏感度不同,提出一种基于投票的不平衡数据分类集成算法。基分类器选择NB和C4.5,通过投票平均方法进行分类决策;并选择公开的不平衡数据集进行实验验证。实验结果表明,该算法能有效提高不平衡数据的分类性能,特别是对正类(少数类)的误报率较低,具有良好的鲁棒性。  相似文献   

11.
Nowadays aviation accidents have become one of the major causes of severe injuries and fatalities around the world. This attracts the research community to look into aviation safety by applying data analysis techniques based on an advanced machine learning algorithm. An ensemble classification model based on Aviation Safety Reporting System(ASRS) has been proposed to analyze aviation safety targeting the people injured in the system.The ensemble classification model shall contain two modules: the data-driven module consisting of data cleaning, feature selection,and imbalanced data division and reorganization, and the modeldriven module stacked by Random Forest(RF), XGBoost(XGB),and Light Gradient Boosting Machine(LGBM) separately. The results indicate that the ensemble model could solve the data imbalance while vastly improving accuracy. LGBM illustrates higher accuracy and faster run in the analysis of a single model of the ASRS-based imbalanced data, while the ensemble model has the best performance in classification at the same time. The ensemble model proposed for imbalanced data classification can provide a certain reference for similar data processing while improving the safety of civil aviation.  相似文献   

12.
基于聚类算法的选择性神经网络集成   总被引:11,自引:0,他引:11  
为了提高集成个体的差异度,提出了一种利用聚类算法去除冗余个体的选择性集成方法,该方法通过使用神经网络作为基学习器,并在多值分类数据集上进行实验.结果表明,该技术计算效率高,精度与稳健性也与基于遗传算法的选择性集成方法相当甚至占优.  相似文献   

13.
By combining multiple weak learners with concept drift in the classification of big data stream learning, the ensemble learning can achieve better generalization performance than the single learning approach. In this paper,we present an efficient classifier using the online bagging ensemble method for big data stream learning. In this classifier, we introduce an efficient online resampling mechanism on the training instances, and use a robust coding method based on error-correcting output codes. This is done in order to reduce the effects of correlations between the classifiers and increase the diversity of the ensemble. A dynamic updating model based on classification performance is adopted to reduce the unnecessary updating operations and improve the efficiency of learning.We implement a parallel version of EoBag, which runs faster than the serial version, and results indicate that the classification performance is almost the same as the serial one. Finally, we compare the performance of classification and the usage of resources with other state-of-the-art algorithms using the artificial and the actual data sets, respectively. Results show that the proposed algorithm can obtain better accuracy and more feasible usage of resources for the classification of big data stream.  相似文献   

14.
基于模糊聚类思想,提出了一种神经网络集成方法.由训练数据的模糊聚类结果,把训练数据划分成相交子集,基于各子集生成集成的个体神经网络.由于各子集所包含的数据和数据的类别各不相同,因而个体神经网络性能和结构存在差异.子集个数确定集成中个体神经网络个数.另外,基于隶属度函数计算公式,提出了个体神经网络输出结论结合方法.理论分析和实验结果表明,此方法对模式分类能取得较好的效果.  相似文献   

15.
对用方向向量标识示例的学习问题,以预测方向与实际方向之间的方向误差最小化为目标,提出了一种可用于方向预测的集成学习算法,详细分析了构造多个预测函数以及组合各个预测函数以实现方向的最优化预测方法. 提出的算法具有广泛的应用特性:当用不同的轴向来标识类别时,可简化得到多分类连续AdaBoost算法,其能确保训练错误率随分类器个数增加而降低;用错分代价组成的向量来标识示例时,可简化得到一种平均错分代价最小化的集成学习算法. 理论分析和实验结果均表明了算法的合理性和有效性.  相似文献   

16.
集成学习是分类多变量时间序列的有效方法.然而集成学习对基分类器性能要求较高,基分类器组合算法优劣对分类效果影响较大.为此,提出一种基于Shapelets的多变量D-S(Dempster/Shafer)证据加权集成分类方法.首先,在单变量时间序列上学习得到基分类器Shapelets,基分类器的分类准确率确定为其在多分类器...  相似文献   

17.
Support vector machines (SVMs) have been introduced as effective methods for solving classification problems. However, due to some limitations in practical applications, their generalization performance is sometimes far from the expected level. Therefore, it is meaningful to study SVM ensemble learning. In this paper, a novel genetic algorithm based ensemble learning method, namely Direct Genetic Ensemble (DGE), is proposed. DGE adopts the predictive accuracy of ensemble as the fitness function and searches a good ensemble from the ensemble space. In essence, DGE is also a selective ensemble learning method because the base classifiers of the ensemble are selected according to the solution of genetic algorithm. In comparison with other ensemble learning methods, DGE works on a higher level and is more direct. Different strategies of constructing diverse base classifiers can be utilized in DGE. Experimental results show that SVM ensembles constructed by DGE can achieve better performance than single SVMs, hagged and boosted SVM ensembles. In addition, some valuable conclusions are obtained.  相似文献   

18.
针对动态选择集成算法存在当局部分类器无法对待测样本正确分类时避免错分的问题,提出基于差异聚类的动态SVM选择集成算法。算法首先对训练样本实施聚类,对于每个聚类,算法根据精度及差异度选择合适的分类器进行集成,并根据这些分类器集成结果为每个聚类标定错分样本区,同时额外为之设计一组分类器集合。在测试过程中,根据待测样本所属子聚类及在子聚类中离错分样本区的远近,选择合适的分类器集合为之分类,尽最大可能的减少由上一问题所带来的盲区。在UCI数据集上与Bagging-SVM算法及文献[10]所提算法比较,使用该算法在保证测试速度的同时,能有效提高分类精度。  相似文献   

19.
【目的】为提高决策树集成的泛化能力和效率,解决集成全部决策树的情况下有时并不显著提高精度、反而导致额外存储和计算开销的问题,提出一种基于粗糙集的决策树集成学习算法。【方法】该算法基于粗糙集理论,从训练的全部决策树中选择一部分进行集成。【结果】与目前流行的集成学习算法Bagging和Boosting相比,本文提出的算法有效地减小了集成规模,并获得更好的泛化能力。【结论】该算法提高了决策树集成的泛化能力和效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号