首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 378 毫秒
1.
《河南科学》2016,(9):1423-1427
为了提高大规模数据的分类性能,提出一种基于主动学习的有监督在线多核学习算法SOMK_AL(Supervised online multiple kernel learning algorithm based active learning).首先,采用主动学习的方法缩减数据规模.通过训练生成两个分类器,对读入数据xt进行预测,将两个分类器预测类别不一致的数据作为信息含量高的有标记数据,参与在线学习过程中的核更新;接着,在核集成过程中,通过随机抽样的方法构造核函数集的子集,仅仅在子集中实现核更新,缩减核更新的计算规模.最后,在大规模数据的基准数据集上进行实验,对提出的算法的有效性进行评估,结果表明SOMK_AL能较好地提高数据的分类性能.  相似文献   

2.
提出一种蛋白质二级结构预测的新方法.该方法首先对数据集中的氨基酸序列利用PSI-BLAST程序进行同源序列搜索,得到相应的PSSM矩阵,然后利用滑动窗口方法对矩阵进行编码,得到分类器的输入.采用分类器集成,将所有的样本划分成9个互斥训练集对单个子分类器进行训练.然后,9个单独的0-1子分类器通过最大投票法进行集成,形成识别一种特定的蛋白质二级结构的0-1分类器.这样3个0-1分类器模型通过串行集成,可以对蛋白质的三种二级结构(H/E/C)进行识别.通过对标准数据集RS126,CB396,CB513进行测试发现,对于同一分类器,利用PSSM矩阵作为分类器输入的预测准确率要高于直接将蛋白质序列作为输入的预测率.  相似文献   

3.
为提高少量样本情况下分类器的性能,提出一种基于多分类器协同的半监督样本选择方法,利用未标注样本实现样本增强,提高分类器泛化能力.依靠多分类器的互相监督和多分类器标签一致的原理,将已标记样本作为训练集,利用SVM和RF两个分类器协同训练,多分类器的类别标签和确定度值作为约束条件,从未标记样本集中筛选出最有代表性的样本构成增强样本集,以准确率为评价标准,验证本算法对分类器泛化性能的影响.本算法在手写数字数据集(Mnist字符库)和Landsat土壤数据集上测试,实验结果表明相比少量原始训练样本构建的分类器,增强样本构建分类器预测的全部类别准确率都得到提升.两个数据集的总体准确率分别提升5.97%和7.02%,Mnist数据集中数字5这类准确率提升最高(提升11.9%,从79.3%到91.2%),Landsat土壤数据集中土壤3这一类准确率提升最明显(提升15.8%,从73.5%到89.3%),结果证明了该算法显著提高了分类器的泛化性能.同时与经典的KNN、Co-training和Co-forest算法对比,所提出的算法能够最大限度地利用未标记样本信息,具有最好的精度表现,证明了该研究提出算法的优越性.  相似文献   

4.
针对主动学习算法能主动从大量未标记样本中选择最能提高分类器性能的样本加入训练集,可从小的非最优训练集建立高性能的分类器这一特点,以及传统主动学习算法熵值装袋查询的多值偏置问题,提出了改进的均值熵值装袋查询算法,引入权值函数保证了取样的多样性.通过对高光谱遥感图像分类的实验表明:主动学习只需大约20%的样本即可达到使用全部数据集作为训练集的分类效果,而且均值熵值装袋查询方法具有较高的分类精度,同时拥有较快的收敛速度.  相似文献   

5.
基于机器学习的网络异常检测方法是入侵检测领域的重要研究内容.传统的机器学习方法需要大量的已标记样本对分类器进行训练,然而已标记样本通常较难获取,导致分类器训练困难;此外单分类器训练面临难以消除的分类偏向性和检测孔洞.针对上述问题,本文提出了一种基于多分类器协同训练的异常检测方法MCAD,该方法利用少量的已标记样本和大量的未标记样本对多个分类器进行协同训练,以减少分类的偏向性和检测孔洞.对比实验采用经典的网络异常检测数据集KDD CUP99对MCAD的异常检测性能进行验证。实验结果表明,MCAD有效地降低了检测器训练代价,提高了网络异常检测性能.  相似文献   

6.
识别蛋白质相互作用位点在蛋白质功能研究中发挥着重要作用.文章从蛋白质序列出发,提取相关特征——序列谱、序列谱+信息熵,分别形成多个滑动窗口,以此构造输入特征向量.采用"留一法"生成训练数据集和测试数据集,使用支持向量机构建6种分类器,预测测试集中的表面残基是否是蛋白质相互作用位点,得到了较好的结果,说明了实验方法的有效性和可行性.  相似文献   

7.
利用K均值聚类和增量学习算法扩大训练样本规模,提出一种改进的mRMR SBC.一方面,利用K均值聚类预测测试样本的类标签,将已标记的测试样本添加到训练集中,并在属性选择过程中引入一个调节因子以降低K均值聚类误标记带来的风险.另一方面,从测试样本集中选择有助于提高当前分类器精度的实例,把它加入到训练集中,来增量地修正贝叶斯分类器的参数.实验结果表明,与mRMR SBC相比,所提方法具有较好的分类效果,适于解决高维且含有较少类标签的数据集分类问题.  相似文献   

8.
电力设备的负荷曲线随着时间而变化,其本质上是时间序列数据.为此提出了一种新的通过负荷曲线识别电力设备的方法,该方法在多个粒度划分出的负载曲线上使用卷积神经网络作为基分类器构造出一个集成学习器来提高分类精度.首先我们对原始数据进行不同粒度的划分,得到若干不同的新数据集.其次使用这些新的数据集训练不同的基学习器,并根据验证集上的精度得到不同基学习器的权重.将测试样本按照相同的粒度划分方式得到不同的测试数据集,使用不同的基分类器对这些测试数据集进行测试,得到对应的预测标签.最后对不同基分类器预测的标签进行加权,并选出权重最大的那个标签作为预测标签.在实际的电力负荷数据上将该模型与单个CNN模型进行对比,实验结果表明,该模型具有更高的设备识别精度.  相似文献   

9.
10.
为了提高蛋白质相互作用位点预测的精度,该文基于蛋白质位置特异性得分矩阵(Position specific scoring matrix,PSSM),提出了一种新的加权得分矩阵直方图特征表示方法;针对训练数据的极端不平衡,结合下采样和分类器集成方法,训练随机森林集成分类器。相对于传统的特征,该文所提新特征具有更低的维数,同时拥有更好的鉴别性。分类器集成则缓解了下采样带来的信息丢失,并提高了分类精度。实验结果验证了所述方法是有效的,在标准数据集上的结果优于其他最新的蛋白质相互作用位点预测方法。  相似文献   

11.
提出一种蛋白质亚细胞定位预测方法.该方法以位置特异性得分矩阵和基因本体抽取对应特征,结合支持向量机构建多标签分类模型.充分考虑了蛋白质进化信息对其亚细胞定位的影响,并基于文本分类中涉及到的卡方检验的对数变换思想,构建基因本体注释信息的加权系数对其进行加权处理,从而提高预测的准确率.采用支持向量机作为基分类器构建多标签分类模型,进一步提高预测的准确率.通过在目前该领域两个常用的真实数据集上进行的一系列测试结果表明,该方法能有效提高蛋白质亚细胞定位预测的准确率.  相似文献   

12.
软件缺陷预测是软件开发过程中的一项重要技术,针对软件缺陷数据集的高维、小采样造成预测精度下降的问题,采用线性局部切空间排列算法对数据集降维处理,选用支持向量机作为基础分类器进行二值分类,建立软件缺陷预测模型,采用二维混淆矩阵评价模型的预测精度.实验结果表明,与其他模型相比,该模型可用较少的邻域点约简至更低的维度,不需要重新学习样本空间的流行几何结构,直接映射新的样本点,且预测时间耗费成本由13. 726 9 s降低至6. 217 s,给定参数区间寻优时间耗费由267. 442 1 s降低至165. 98 s,有效提高了软件缺陷预测的效率.  相似文献   

13.
 基于蛋白质的合成及分选机制,提出了一种新的蛋白质亚细胞定位预测方法。先采用遍历搜索技术,找出各种亚细胞蛋白质序列分选信号和成熟蛋白质之间的最佳分割位点,把蛋白质序列分为两条子序列,计算这两条子序列中的氨基酸组份并将它们融合起来作为整条蛋白质序列的特征,然后构造用于识别每类蛋白质的最佳子分类器,再根据最大化原则组建集成分类器。在NNPSL数据集上,采用5重交叉验证方法对本文方法进行测试,原核和真核两个蛋白质序列子集分别取得94.1%和87.5%的总体预测精度。同时,此方法在一些蛋白质序列中找到的分割位点与真实生物现象相吻合,能为预测蛋白质序列的剪切位点提供参考信息。  相似文献   

14.
The Extreme Learning Machine(ELM) is an effective learning algorithm for a Single-Layer Feedforward Network(SLFN). It performs well in managing some problems due to its fast learning speed. However, in practical applications, its performance might be affected by the noise in the training data. To tackle the noise issue, we propose a novel heterogeneous ensemble of ELMs in this article. Specifically, the correntropy is used to achieve insensitive performance to outliers, while implementing Negative Correlation Learning(NCL) to enhance diversity among the ensemble. The proposed Heterogeneous Ensemble of ELMs(HE2 LM) for classification has different ELM algorithms including the Regularized ELM(RELM), the Kernel ELM(KELM), and the L2-norm-optimized ELM(ELML2). The ensemble is constructed by training a randomly selected ELM classifier on a subset of the training data selected through random resampling. Then, the class label of unseen data is predicted using a maximum weighted sum approach. After splitting the training data into subsets, the proposed HE2 LM is tested through classification and regression tasks on real-world benchmark datasets and synthetic datasets. Hence, the simulation results show that compared with other algorithms, our proposed method can achieve higher prediction accuracy, better generalization, and less sensitivity to outliers.  相似文献   

15.
电信客户信用风险等级评估是对电信客户的信用风险进行等级分类. 针对建立客户信用风险等级分类模型时,大量带有类标注数据难以获得的问题,提出了基于主动学习的分类器建模方法,并对基于QBC(委员会投票选择)的主动学习算法进行改进以提高分类器的预测精度. 通过对实际电信客户数据进行信用风险等级建模实验,结果表明:应用新算法,分类器使用了较少的带类标签样本数据,达到了与被动学习相同的精度,大大降低了信用专家评估数据的工作量.  相似文献   

16.
为了挖掘人脸美丽的内在本质,本文提出了基于深度自编码器的人脸美丽吸引力预测模型:首先利用大量无标签人脸图像数据对深度自编码器进行预训练,然后结合Polak-RibierePolyak共轭梯度反向传播算法对深度自编码器的权值进行微调,从而建立深度自编码器的人脸美丽特征提取模型.最后经过支持向量机(SVM)分类器对人脸图像进行美丽预测.实验结果显示SVM分类器预测的平均识别率为77.3%,表明深度自编码器用于人脸美丽吸引力预测是有效的.  相似文献   

17.
为了解决传统方法不能按照训练样本量设计最优网络模型,集成效率低的弊端,通过机器学习方法研究数据库小数据集并行集成方法。机器学习选用朴素贝叶斯算法,依据条件独立性假设,通过计算目标先验概率,采用贝叶斯定理求出其后验概率,对后验概率进行比较,完成决策分类,对基分类器进行训练,把不同朴素贝叶斯基分类器当成集成分类器,在原始数据库上对基分类器进行训练,依据分类结果对数据库中小数据集样本分布进行调整,将其当成新数据集对基分类器进行训练,按照基分类器的表现,通过加权将其组合在一起,产生强分类器,实现对数据库小数据集的集成处理。通过MapReduce并行处理完成并行数据集成,输出并行集成结果。通过仿真实验与实例分析验证所提方法的有效性,结果表明:所提方法在训练样本规模相同的情况下有最高的分类精度和最小的波动,在不同集成规模下的分类精度一直最高,波动最小;所提方法可达到数据的最优集成,数据失效比降低,合成比提高。可见所提方法集成精度高,计算稳定性强,集成效果好,效率优。  相似文献   

18.
Introduction ThecurrentHTML basedWebismainlydesignedfor humanstobrowseanduse.Themajorityofthewebpages areinhumanreadableformatonly,somachinescannot understandandprocessthisinformation,andmuchofthe potentialofthewebhassofarremaineduntapped.The traditionalwebhasreacheditscrucialpoint.TimBerners Lee,inventoroftheweb,hascoinedthetermSemantic Webtodescribetheapproachthataugmentthewebwith languagesthatmakethemeaningofwebpagesexplicit[1].Thevisioninthesemanticwebcanberegardedasdata interoperation…  相似文献   

19.
矿山中的岩土工程灾害预测问题,是采矿工程领域亟需研究解决的重大课题.本文即针对这些问题,采用正交试验设计法和模式搜索算法研究了自适应神经模糊推理系统(ANFIS)的训练参数和模型结构的优化方法,提出和建立了基于模式搜索算法的自适应神经模糊推理方法(PSA-ANFIS).进一步采用一多峰函数进行离散,构建了训练数据对、检测数据对和预测数据对,对PSA-ANFIS的拟合能力和预测能力进行了研究.结果表明,无论是在拟合精度和预测精度上,还是在训练参数的调整、模型结构的建立和训练过程上,PSA-ANFIS均适合于解决矿山岩土工程灾害预测这一高度非线性的映射问题.  相似文献   

20.
提出一种预测蛋白质二级结构的模式识别方法。该法首先对大量已知结构的蛋白质实验数据进行分析,找出鉴别蛋白质不同结构成分的有效信息,即设计分类器,然后实现对未知蛋白质二级结构的预测。用此方法对640个实验样本进行了研究,得到较高的预测精度,表明方法是有效的。还对实验结果进行了分析;讨论了有限样本对分类器性能的影响。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号