首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
为解决数据流分类中概念漂移和噪声问题,提出一种基于互近邻的多源迁移学习方法。该方法存储多源领域上训练得到的分类器,求出目标领域数据块中每个样本的互近邻样本集合,然后计算源领域分类器对目标领域数据块中每个样本的互近邻样本集合的局部分类精度,最后将局部分类精度最高的源领域分类器和目标领域分类器进行加权集成,从而将多个源领域的知识迁移到目标领域。在仿真数据集上的实验结果表明,该方法能够有效避免伪近邻现象,与基于K-近邻的多源在线迁移学习方法相比,具有更好的分类准确率和抗噪稳定性。  相似文献   

2.
针对数据流环境中混合多种类型概念漂移问题,提出了基于图模型的数据流分类算法.该算法通过对数据块上的实例集进行概念表示,检测概念的变化度来衡量概念漂移,并引入了一个动态自适应阈值,为每个待分类实例合理选择基分类器模型,充分利用基分类器模型潜在的多样性并降低漂移恢复期间的分类误差.实验表明,本文提出的算法性能在多数数据集上优于其他算法,在复杂概念漂移环境下具有较好的适应性.  相似文献   

3.
针对基于数据块的集成算法,存在数据块大小影响分类效果,且不能及时应对完整式概念漂移的问题,提出了一种考虑数据流局部特征的和能应对多种类型概念漂移的集成分类算法.用滑动窗口作为概念漂移检测器,当检测到概念漂移时,则建立新的分类器并加入到集成分类器中.本文提出的算法在人工合成和真实数据集上与经典算法进行了广泛的对比实验.结果表明:提出的算法在分类准确率上具有明显优势,消耗更少的内存,更适合多种类型概念漂移的环境.  相似文献   

4.
概念漂移给数据流挖掘工作带来了很大阻碍.经典的SEA算法通过动态裁剪集成分类器的方式有效地捕获到概念漂移.其裁剪集成分类器的策略是直接删除掉一个权值最低的基础分类器,这意味着算法抛弃了一个已经学习了的概念,当该概念再出现时还需再学习,导致算法效率的降低.现提出了一种能够提取旧概念的算法(ECRRC),并给出了存储和提取概念的具体方法.面对概念的重复出现,ECRRC不用再学习就能够完成数据流分类.实验结果表明,ECRRC能够提高数据流分类效率.  相似文献   

5.
数据流广泛存在于现实应用中,重现概念漂移和数据分布不平衡性是其重要特性,它们会导致传统数据流分类器负偏离、性能下降及学习时间倍增。针对重现概念漂移和数据分布不平衡的特点,本文提出重现概念漂移不平衡数据流的随机平衡采样集成分类算法(RBSRISEA),首先用随机平衡采样算法重新平衡数据分布,之后对预处理的数据流再进行重现概念漂移探测。实验表明,RBSRISEA对重现概念漂移有较强的敏感性和泛化能力。RBSRISEA可以处理带重现概念漂移的不平衡数据流分类问题。  相似文献   

6.
【目的】机器学习中不同算法适用于具有不同分布特征的数据集。在用整个训练集上训练得到的单个分类器预测新样本类别时,由于缺少对局部区域样本的针对性,可能导致分类器对某一区域数据的预测能力较差而产生错误分类。为了解决这个问题,提出基于k-means+ +的多分类器选择算法。【方法】首先用3种分类综合性能较好的算法———Ada-Boost、SVM、随机森林(RF)在训练集上分别训练得到3个分类器作为候选基分类器,然后利用k-means++算法将训练数据集分为k个簇,用3个候选分类器分别对每个簇进行分类测试,选择对这一簇中数据分类精度最高的分类器作为与它的数据相似数据的分类器。在对新样本进行类别预测时,首先判定样本属于哪个簇,然后用它的分类器进行分类预测。【结果】实验结果表明,新算法在9个UCI数据集上优于单个分类算法。【结论】基于局部区域动态选择最优分类器可以提高模型分类准确性。
  相似文献   

7.
当前动态数据流下的实时分类问题存在3个难点:针对海量数据的实时处理;概念漂移的跟踪和模型的更新;模型的稳定和鲁棒性.针对上述问题,将极端支持向量机(extreme support vector machine,ESVM)与MapReduce框架结合,提出了带遗忘因子的鲁棒ESVM算法.该方法通过构造残差权重矩阵,对残差进行修正,同时加入遗忘因子,提高新样本的作用,从而实现对海量数据处理问题的求解.实验结果显示,所提出方法能够快速有效地对动态数据流进行分类,且结果不易受到噪声干扰,稳定性强.  相似文献   

8.
数据流的特征是海量的、高速流动的、实时处理的.由于一些数据分布随着时间而改变,因此将这些数据流称为概念漂移.首先按照分类模型对数据流决策树进行分类,分为单分类决策树和集成分类决策树.单分类模型分为快速决策树、变异决策树和其他决策树算法.集成分类模型分为衍生快速决策树和随机决策树变体算法.其次介绍了概念漂移处理技术,包括概念漂移问题的描述、常见的概念漂移处理技术和用于解决概念漂移的决策树算法.接着介绍了增量模型决策树算法,最后对本文介绍的决策树算法进行分析总结.  相似文献   

9.
数据流分为静态数据流和动态数据流,但因数据的情况越来越复杂,动态数据流已经遍布我们的生活.针对动态数据流中的不平衡数据流、概念漂移数据流及噪声数据流的基本概念、算法特点、相关工作及优缺点等方面进行了分析和阐述,同时对三类动态数据流的传输特点、适用方法及集成分类算法展开了介绍与对比,并对突变、增量、重复及渐变的概念漂移类型展开了研究,以及集成分类中常用的Boosting和Bagging方法进行了深度研究,指出了现阶段动态数据流集成分类算法所需要解决的主要问题,此外,针对多种类概念漂移、复合动态数据流及集成基分类器的动态加权等提供了多个可扩展性研究方向,并进行了分析和展望.  相似文献   

10.
回顾了数据流分类领域的研究进展情况,阐明概念漂移等数据流分类需要解决的关键问题,讨论了适合于数据流经典分类算法的选择,在详细分析现有数据流分类算法优缺点的基础上,提出一种在线分类算法的设计思路.  相似文献   

11.
针对现有跨领域情感分类方法中文本表示特征忽略了重要单词与句子的情感信息, 且在迁移过程中存在负面迁移的问题, 提出一种将文本表示学习与迁移学习算法相结合的跨领域情感分类方法。首先, 利用低维稠密的词向量对文本进行初始化, 通过分层注意力网络, 对文本中重要单词与句子的情感信息进行建模, 从而学习源领域与目标领域的文档级分布式表示。随后, 采用类噪声估计方法, 对源领域中的迁移数据进行检测, 剔除负面迁移样例, 挑选高质量样例来扩充目标领域的训练集。最后, 训练支持向量机对目标领域文本进行情感分类。在大规模公开数据集上进行的两个实验结果表明, 与基准方法相比, 所提方法的均方根误差分别降低1.5%和1.0%, 说明该方法可以有效地提高跨领域情感分类性能。  相似文献   

12.
提出了基于随机标记子集的多标记数据流分类算法,其基本思想是在多标记分类过程中,将原始较大的标记集随机地划分为多个较小的标记子集,并针对每个标记子集训练一个概率分类器链.在充分利用标记间依赖关系的同时,又有效地降低了概率分类器链的时间复杂度.同时,在算法中嵌入了自适应滑动窗口算法来检测概念漂移.实验结果表明,同其他算法相比,在大多数数据集合上能够更有效地预测实例的类标集合,更适合概念漂移的环境.  相似文献   

13.
针对轴承故障样本少导致识别精度低的问题,提出一种基于无监督迁移成分分析(unsupervised transfer component analysis,UTCA)和深度信念网络(deep belief network,DBN)的故障诊断方法。首先利用UTCA的核函数将不同工况样本特征映射到一个共享再生核Hilbert空间中,使得源域和目标域样本集更加相似,并通过最大均值偏差嵌入法(maximum mean discrepancy embedding,MMDE)判断能够迁移的源域数据,将源域样本迁移到目标域中,为深度学习提供充足的训练样本,解决了实际故障样本较少的问题;然后采用DBN模型对源域样本进行训练,再对映射后无标记的目标域样本进行故障诊断分析。利用不同工况下的滚动轴承实验数据进行算法验证,结果表明,与普通DBN、SVM、BPNN以及传统机器学习-UTCA融合方法相比,本文方法对滚动轴承故障的诊断精度更高。  相似文献   

14.
集成学习是分类多变量时间序列的有效方法.然而集成学习对基分类器性能要求较高,基分类器组合算法优劣对分类效果影响较大.为此,提出一种基于Shapelets的多变量D-S(Dempster/Shafer)证据加权集成分类方法.首先,在单变量时间序列上学习得到基分类器Shapelets,基分类器的分类准确率确定为其在多分类器的权重.Shapelets是时间序列的子序列,不同变量Shapelets间不存在依赖关系,且单个Shapelets分类准确度较高,能得到“好而不同”的基分类器.然后,提出一种加权概率指派算法,增加分类准确率高的基分类器权重,减少分类准确率低的基分类器权重;添加了2个组合策略,即消除证据冲突,又提高了效率.在标准数据集上与多个最新算法进行比较,笔者算法取得了较好的分类结果.  相似文献   

15.
基于数据驱动方法诊断滚动轴承故障时,不同工况下的数据特征分布差异会导致模型诊断性能严重下降.针对这一问题,提出了基于域适应与分类器差异的滚动轴承跨域故障诊断方法.首先利用卷积神经网络对带标记的源域样本和无标记的目标域样本进行特征提取;然后通过2个全连接分类器进行故障分类;最后通过分步优化分类损失、域最大平均差异损失和分类器差异损失,实现源域和目标域之间的域分布对齐,从而实现无标记目标域样本的故障诊断.实验结果表明,所提方法与主流的域适应方法相比具有更高故障诊断准确率,验证了该方法的合理性和可行性.  相似文献   

16.
基于Shapelet的时间序列分类算法具有可解释性强、准确率高、速度快的优点,然而在Shapelet发现过程中存在Shapelet产生冗余和形式局限的缺点,严重制约了算法性能的提高。针对这一问题,提出一种基于优化Shapelet的时间序列分类算法,该方法首先利用K-means生成典型的Shapelet候选集,加速Shapelet的生成过程;然后,融合相似性和类标差异性提出Shapelet的选取模型,确保Shapelet的多样性和精简性;最后,提出优化策略获取最佳的Shapelet,并以此为基础实施时间序列分类。实验结果表明,该方法具有较高的分类准确率,并对位移和扭曲特征明显的数据集具有良好的分类效果。  相似文献   

17.
一种基于级联模型的类别不平衡数据分类方法   总被引:6,自引:0,他引:6  
真实世界问题中,不同类别的样本在数目上往往差别很大,而传统机器学习方法难以对小类样本进行正确分类,若小类的样本是足够重要的,就会带来较大的损失.因此,对类别分布不平衡数据的学习已成为机器学习目前面临的一个挑战.受计算机视觉中级联模型的启发,提出一种针对不平衡数据的分类方法BalanceCascade.该方法逐步缩小大类别使数据集趋于平衡,在此过程中训练得到的一系列分类器通过集成方式对预测样本进行分类.实验结果表明,该方法可以有效地提高在不平衡数据上的分类性能,尤其是在分类性能受数据的不平衡性严重影响的情况下.  相似文献   

18.
动态环境下数据流容易出现概念漂移现象。随着数据的逐渐到达,隐含在数据中的知识在一定程度上会出现改变,当前数据分类方法无法进行动态更新,不适于动态环境下数据的分类。为此,提出一种新的基于微粒群优化算法的数据分类方法,通过K-means方法对动态环境下的数据进行分类。介绍了微粒群优化算法,将所有个体看作d维搜索空间中没有体积的微粒,在搜索空间中以某一速度飞行,该速度可通过其自身及相邻微粒的飞行经验进行动态调整。通过某种规则对新微粒的局部最优值进行更新,利用优化后的微粒群算法实现数据分类。实验结果表明,所提方法分类性能优,实时准确率高。  相似文献   

19.
当对三支决策边界域进一步划分时,边界域知识存在划分信息不足,从而导致分类精度不高,针对上述问题提出一种新的基于三支决策的二阶段分类模型(TWD-TP).第一阶段根据贝叶斯规则构建三支决策中样本的条件概率,通过求解最优化损失函数得到所需阈值,然后按照三支决策规则对数据集进行划分.三支决策是基于最小风险贝叶斯决策理论的划分,在其正域、负域中包含一定的误分类样本;在第二阶段通过类标签索引分别将正域、负域中误分样本作为增量信息引入延迟决策域,形成重构边界域,最后对重构边界域进行划分.实验结果表明:所提出的TWD-TP模型不仅能在三支决策划分中筛选出高误分类特征的样本,同时其重构边界域中不能被划分的样本得到正确划分,分类精度进一步提高.  相似文献   

20.
杨蕊  赵颖博  杨婷 《科学技术与工程》2023,23(19):8236-8242
雷达组网协同探测中,受不同探测精度、观测维度及环境噪声影响,信息系统获取的传感数据包含一定不精确、不确定信息,导致无法对目标点迹准确分类识别。为此提出了一种基于置信函数的分类器自优化雷达点迹识别算法。首先,基于置信函数理论创建目标、杂波、不确定数据的证据识别框架,并设计可实时给定目标数据类别隶属度的深度神经网络模型分类器。然后,依托当前迭代轮次分类结果进行辅助决策证据构建,并根据点迹分布特性进行证据修正融合。最后,基于全局融合结果进行点迹类别标签更新,并重新驱动网络模型分类器进行在线学习与更新,如此迭代循环直至所有的雷达点迹数据类别标签不再发生改变。基于雷达实测数据集对算法性能进行验证分析,结果表明与传统算法相比新算法能够有效提升雷达点迹的分类正确率,而且随着样本数据的丰富算法收敛时间可急速减少,便于在后续工程中推广应用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号