首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 887 毫秒
1.
为解决传统数据流分类算法难以解决动态数据流环境中概念变化和样本标注等难题,根据主动学习原理,提出基于双层采样的主动式数据流挖掘方法。该方法的采样策略分别基于学习模型的改变期望和误差缩减两个方面设计实现,选择出具有代表性和信息量丰富的未标注样本,经专家标注后增量更新学习模型;采用聚类方法实现局部感知的概念漂移检测,以增强采样策略的有效性。试验结果表明:主动式数据流挖掘方法在降低样本标注代价的同时,可提高模型的分类能力和概念漂移的适应性,相比其他数据流挖掘方法具有一定优势。  相似文献   

2.
随着数据收集、存储和传输技术的快速发展,数据流的挖掘处理技术正在成为机器学习中的一个热点问题。在许多情形下,持续到达的数据之间可能会呈现出不平衡的态势,甚至是动态不平衡,这给许多机器学习算法造成了困难。文中提出面向动态不平衡数据流的集成超限学习机算法,设计了数据流中不平衡率变化的快速监测方法,修正了历史数据不平衡率的计算方式,使其更接近不平衡率的实时变化,并结合超限学习机的特点,将增量学习与集成学习结合。定期剔除权重低的基分类器,利用新到达的数据更新集成中的基分类器和训练新的基分类器。该方法针对动态不平衡数据流设计,具有很好的学习能力,同时也能适用于静态或者平衡的数据流的分类。实验中,将该方法与其他几种常用的方法在一些不同类型的数据流上进行了比较,结果表明,文中方法的分类性能更好。  相似文献   

3.
在大数据环境下,由于隐私保护、数据丢失等原因,数据普遍存在不确定性;数据流系统中数据不断地到达系统,只扫描一遍且不能一次性全部获得;所以要构建一个增量分类模型来处理不确定数据流分类.本文基于VFDT算法提出了WBVFDTu算法,该算法在学习和分类阶段都可快速而有效地分析不确定信息.在学习期间,采用Hoeffding分解定理构造决策树模型;在分类期间,在决策树的叶子节点利用加权贝叶斯分类算法提高模型的分类准确率和算法的执行效率.最终证明该算法能够非常快速地学习不确定数据流,提高分类的准确率.  相似文献   

4.
数据流分为静态数据流和动态数据流,但因数据的情况越来越复杂,动态数据流已经遍布我们的生活.针对动态数据流中的不平衡数据流、概念漂移数据流及噪声数据流的基本概念、算法特点、相关工作及优缺点等方面进行了分析和阐述,同时对三类动态数据流的传输特点、适用方法及集成分类算法展开了介绍与对比,并对突变、增量、重复及渐变的概念漂移类型展开了研究,以及集成分类中常用的Boosting和Bagging方法进行了深度研究,指出了现阶段动态数据流集成分类算法所需要解决的主要问题,此外,针对多种类概念漂移、复合动态数据流及集成基分类器的动态加权等提供了多个可扩展性研究方向,并进行了分析和展望.  相似文献   

5.
流形学习可以用于发现大型高维数据集的内在结构,并给出理解该数据集的潜在方式,已被视为一种有效的非线性降维方法 .近年来,新数据点不断地从数据流中产生,将改变已有数据点及其邻域点的坐标,传统流形学习算法不能有效地用于寻找高维数据流的内在信息.为了解决该问题,本文提出了一种基于迭代分解的增量流形学习算法IMLID(Incremental Manifold Learning Algorithm Based on Iterative Decomposition),可以检测到数据流形中的逐步变化,校准逐渐变化中的流形,可提高在取样于真实世界的特征集上分类效果的精确率,利用真实数据集进行实验验证,结果表明本文提出的算法是有效的,与其他相关算法相比,其性能具有优势,在模式识别、生物信息等领域具有应用价值.  相似文献   

6.
利用深度学习方法建立一种网络入侵检测模型CAL.该模型通过多重卷积提取数据流的深层特征,利用注意力机制提取代表数据流结构特点的关键特征,以提高对不同数据流特点的表达能力,并通过池化计算压缩数据,提高模型泛化能力,使用基于CuDNN加速的长短时记忆网络,在学习数据流上下文特征和时序信息的同时,加速模型收敛.在数据集UNS...  相似文献   

7.
基于聚类算法的选择性神经网络集成   总被引:11,自引:0,他引:11  
为了提高集成个体的差异度,提出了一种利用聚类算法去除冗余个体的选择性集成方法,该方法通过使用神经网络作为基学习器,并在多值分类数据集上进行实验.结果表明,该技术计算效率高,精度与稳健性也与基于遗传算法的选择性集成方法相当甚至占优.  相似文献   

8.
为了更好地解决DNA微阵列数据的分类问题并进一步提高系统的识别率,提出了一种用于DNA微阵列数据分类的演化硬件多分类器Ada Boost选择性集成学习方法.在系统集成阶段,介绍了2种改进的Ada Boost算法,分别探讨了以样本标记提升抽样有效容量和直接面向组合分类器分类精度提升的选择性集成策略.对急性白血病、肺癌、结肠癌数据集进行了试验.结果表明,基于Ada Boost集成学习的演化硬件方法对白血病、肺癌、结肠癌的平均识别率为97.06%,99.32%,和94.44%.相对于传统演化硬件集成学习方法,文中方法保证更优识别率的同时有效降低了硬件实现代价.  相似文献   

9.
基于静态集成PU学习数据流分类的入侵检测方法   总被引:1,自引:0,他引:1  
从数据流角度提出一种静态的集成PU学习数据流分类的入侵检测方法,在实验验证中通过对不同数据集指标比较,证明了算法的有效性,可在减少人工标注量的同时取得较好的检测效果。  相似文献   

10.
数据流的特征是海量的、高速流动的、实时处理的.由于一些数据分布随着时间而改变,因此将这些数据流称为概念漂移.首先按照分类模型对数据流决策树进行分类,分为单分类决策树和集成分类决策树.单分类模型分为快速决策树、变异决策树和其他决策树算法.集成分类模型分为衍生快速决策树和随机决策树变体算法.其次介绍了概念漂移处理技术,包括概念漂移问题的描述、常见的概念漂移处理技术和用于解决概念漂移的决策树算法.接着介绍了增量模型决策树算法,最后对本文介绍的决策树算法进行分析总结.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号