首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
概念漂移给数据流挖掘工作带来了很大阻碍.经典的SEA算法通过动态裁剪集成分类器的方式有效地捕获到概念漂移.其裁剪集成分类器的策略是直接删除掉一个权值最低的基础分类器,这意味着算法抛弃了一个已经学习了的概念,当该概念再出现时还需再学习,导致算法效率的降低.现提出了一种能够提取旧概念的算法(ECRRC),并给出了存储和提取概念的具体方法.面对概念的重复出现,ECRRC不用再学习就能够完成数据流分类.实验结果表明,ECRRC能够提高数据流分类效率.  相似文献   

2.
在大数据环境下,由于隐私保护、数据丢失等原因,数据普遍存在不确定性;数据流系统中数据不断地到达系统,只扫描一遍且不能一次性全部获得;所以要构建一个增量分类模型来处理不确定数据流分类.本文基于VFDT算法提出了WBVFDTu算法,该算法在学习和分类阶段都可快速而有效地分析不确定信息.在学习期间,采用Hoeffding分解定理构造决策树模型;在分类期间,在决策树的叶子节点利用加权贝叶斯分类算法提高模型的分类准确率和算法的执行效率.最终证明该算法能够非常快速地学习不确定数据流,提高分类的准确率.  相似文献   

3.
在保证实时性的前提下提高流式大数据卸载的准确性是一个重要问题。针对具有稀疏性的流式大数据开展2种典型场景下的卸载研究。对普通均匀业务的流式大数据进行空间建模,使用弹性距离对数据间的距离进行放缩,提出基于离心率的卸载方法。对异常检测业务流式大数据应用场景进行特征分析,使用预处理自动机对数据的动态处理过程进行描述,在综合考虑数据和处理行为相似度基础上,提出基于等价类划分的卸载方法。重复试验表明,所提出的卸载方法与传统卸载方法相比能明显提高卸载的有效性。  相似文献   

4.
概率近似正确(PAC)是研究"可学习"的理论框架。近年来,研究人员融合贝叶斯方法与不依赖分布的PAC性能度量提出了所谓的PAC-Bayesian学习理论。该理论因其对于任意概念空间任意测度的先验均能给出泛化误差界而在人工智能不同领域的相关算法分析中得到广泛应用。文章综述了PAC-Bayesian学习理论的由来及其核心思想,进而结合大数据的特点,论述了PAC-Bayesian适合于大数据相关算法的理论分析。  相似文献   

5.
一种用于机械手控制的在线快速学习方法   总被引:1,自引:0,他引:1  
本文在对CMAC网络进行研究比较的基础上,提出了一上用于预定运动轨迹的二关节平面机械手控制的在线直接存贮更新学习方法。模拟实验表明,该学习方法具有较CMAC网络更快的学习收敛速度及更高的控制精度,更少的计算量,且便于硬件实现。  相似文献   

6.
在处理资源有限的情况下,传统的DBMS系统不能实时有效地处理和查询连续的和数量巨大的数据流,而DSMS作为解决此类问题的新方法得到广泛的研究。DBMS通过引入新算子和新的查询模型,提高了数据处理和查询的效率。首先介绍了DSMS的概念,分析了DSMS系统的原理与结构,然后对具有代表性的DSMS实例进行了介绍和比较。  相似文献   

7.
针对单细胞转录组数据上细胞分类准确率较低的问题,提出一种新的细胞集成分类算法.该方法能充分利用不同分类模型的优点,降低单细胞数据的分类误差.分别在慢性粒细胞白血病单细胞测序数据和三阴性乳腺癌单细胞测序数据两个不同数据集上进行实验验证,实验结果表明,由集成算法划分的细胞分类更清晰准确,验证了该算法的有效性.  相似文献   

8.
为提升基于心电图的左、右束支传导阻滞自动化诊断性能,提出了一种以多导联心电图卷积神经网络模型作为基学习器的集成学习诊断方法.首先从临床12导联同步静态心电图中提取出有效诊断导联数据并分割为若干个多导联单心搏数据切片.采用自助采样法抽取多个数据子集,并对每个子集以不同方式进行数据扰动后输入基学习器,得到相应的预测模型.然后以贝叶斯方法作为集成学习的结合策略融合多个模型进行预测.最后采用投票法结合1例心电图中的多个心搏分类结果给出诊断.实验结果表明,该方法具有较高的灵敏度和特异度,具有临床应用价值.  相似文献   

9.
The Extreme Learning Machine(ELM) and its variants are effective in many machine learning applications such as Imbalanced Learning(IL) or Big Data(BD) learning. However, they are unable to solve both imbalanced and large-volume data learning problems. This study addresses the IL problem in BD applications. The Distributed and Weighted ELM(DW-ELM) algorithm is proposed, which is based on the Map Reduce framework. To confirm the feasibility of parallel computation, first, the fact that matrix multiplication operators are decomposable is illustrated.Then, to further improve the computational efficiency, an Improved DW-ELM algorithm(IDW-ELM) is developed using only one Map Reduce job. The successful operations of the proposed DW-ELM and IDW-ELM algorithms are finally validated through experiments.  相似文献   

10.
大数据(Big Data)这个概念近年来在越来越多的场合、被越来越多的人提及,并且经常和云计算联系在一起,云计算与大数据之间到底是什么关系成为热点话题。本专题报告包含以下四个方面内容:1.大数据的价值;2.大数据带来的挑战;3.大数据研究成果;4.云计算是大数据挖掘的主流方式。通过本报告阐述我们对大数据的理解,以及对大数据的价值的认识,探讨大数据处理与挖掘技术,论述以下观点:没有互联网就没有云计算模式,没有云计算模式就没有大数据处理技术,也就没有大数据挖掘技术。  相似文献   

11.
针对多分类器系统差异性评价中无法直接处理模糊数据的问题,提出了一种采用互补信息熵的分类器集成差异性度量(CIE)方法。首先利用训练数据生成一系列基分类器,并对测试数据进行分类,将分类结果依次组合生成分类数据空间;然后采用模糊关系条件下的互补信息熵度量分类数据空间蕴含的不确定信息量,据此信息量判断基分类器间的差异性;最后以加入基分类器后数据空间差异性增加为选择分类器的基本准则,构建集成分类器系统,用于验证CIE差异性度量与集成分类精度之间的关系。实验结果表明,与Q统计方法相比,利用CIE方法进行分类器集成,平均集成分类精度提高了2.03%,分类器系统集成规模降低约17%,而且提高了集成系统处理多样化数据的能力。  相似文献   

12.
针对传统K-均值方法不能有效处理动态变化的数据聚类的问题,本文提出了一种改进的数据流聚类技术——流式K-均值聚类(Streaming K-means Clustering,SKC).该方法首先对数据流中已经产生的初始数据块进行K-均值聚类,当数据流的新数据块到来时,通过衡量已经得到的聚类结果与新进入样本块的距离,对样本进行初步简单归类,并计算聚类结果的性能,若聚类结果性能在可接受范围内,则该数据块聚类结束,否则采用K-均值方法对新类进行深层次聚类.采用SKC的流式数据聚类方法处理数据流的聚类问题,对于整个数据流中的多数数据块都进行简单归类,只有少数数据块进行K-均值聚类,有效提高了数据流聚类的效率.实验结果表明,流式K-均值聚类方法能够有效处理数据流的聚类问题.  相似文献   

13.
集成学习可以提高分类器的泛化性能,这种方法已经成为机器学习的重要研究方向之一.通常,集成学习主要由2部分构成,即个体生成方法及结论生成方法.从集成学习的差异性角度出发,对集成学习中个体的构造方法及结论生成方法进行了分析与研究,对集成学习中存在的问题及未来的研究方向进行了探讨.  相似文献   

14.
一种基于朴素贝叶斯分类的特征选择方法   总被引:11,自引:0,他引:11  
由于朴素贝叶斯文本分类中的独立假设前提,使得在特征选择步骤能否准确有效地选出能代表文本的特征显得尤为重要,而特征选择标准中的MI标准与TFIDF标准其优缺正好互补,因此在用朴素贝叶斯文本分类方法中的多项式模型实现了一个web页面分类系统-WEBCAT的基础上,提出将MI标准与TFIDF标准结合进行特征选择.实验显示:用改进的方法可以更准确地选出能代表文本的特征,文本分类结果也比单独使用TFIDF标准或单独使用MI标准进行特征选择的分类结果更加精确.  相似文献   

15.
集成学习中特征选择技术   总被引:1,自引:0,他引:1  
集成学习和特征选择是当前机器学习领域中的研究热点.集成学习通过重复采样可产生个体学习器之间差异度,从而提高个体学习器的泛化能力,特征选择应用到集成学习可进一步提高集成学习技术的效果,该研究有3个方面:数据子集的特征选择、个体学习器的选择和多任务学习.该文对近几年集成学习中特征选择技术的研究进行回顾,尤其对以上3个方面的研究分别进行总结,提出一些共性的技术指导以后的研究.  相似文献   

16.
针对贝叶斯(Naive Bayes,NB)分类器的集成学习方法,研究如何提高分类器集成中各成员分类器之间的多样性,同时提高分类器系统准确率。实现方法是把训练集的所有属性特征划分特征子集,并处理所划分的属性特征子集,最后为每个成员分类器构造出不同的完整特征属性训练集。研究结果表明采用的NB集成方法(Ensemble ofNaive Bayes,ENB)提高了分类性能,把ENB机器学习方法应用到自动图像标注中也获得了很好的效果。  相似文献   

17.
作为大数据的重要组成,产生于传感器、移动电话设备、社交网络等的不确定流数据因其具有流速可变、规模宏大、单遍扫描及不确定性等特点,传统聚类算法不能满足用户高效实时的查询要求.首先利用MBR(minimum bounding rectangle)描述不确定元组的分布特性,并提出一种基于期望距离的不确定数据流聚类算法,计算期望距离范围的上下界剪枝距离较远的簇以减少计算量;其次针对簇内元组的分布特征提出了簇MBR的概念,提出一种基于空间位置关系的聚类算法,根据不确定元组MBR和簇MBR的空间位置关系排除距离不确定元组较远的簇,从而提高聚类算法效率;最后在合成数据集和真实数据集进行实验,结果验证了所提出算法的有效性和高效性.  相似文献   

18.
针对可还原数据扰动(retrievable general additive data perturbation,RGADP)算法在保护数据库隐私时会影响数据挖掘结果的问题,提出一种利用贝叶斯原理在扰动数据上进行分类的方法。该方法分析RGADP算法过程,利用贝叶斯原理,根据扰动数据推算原始数据的概率分布,用估算的概率分布重构数据,并对重构数据进行分类以提高分类的正确性。实验结果表明:该方法估算出的概率分布与原始数据概率分布接近,且重构数据的分类正确率相比扰动数据而言平均可提高4%以上,其更接近原始数据的分类正确率,从而有效地降低了扰动算法对数据分类的影响;该方法的运行时间与数据量和数据分组数成正比,重构10 000条数据的运行时间在200ms以内,因此该方法也具有较高的效率。  相似文献   

19.
为解决传统异步电机故障诊断方法因电机结构复杂、信号非平稳和机械大数据等因素引起的诊断困难问题,提出一种高效准确的异步电机故障诊断(SDAE)方法。该方法利用堆叠降噪自编码提取信号特征,结合Softmax分类器实现高效准确的电机故障诊断。首先,采集异步电机的整体电流和振动信号,将电流信号与傅里叶变换后的振动频域信号组合构成样本,并做归一化处理;然后,构建堆叠降噪自编码网络,确定网络层数、各隐藏层节点数、学习率等参数;最后,输入训练样本依次训练自编码和分类器,微调整个网络并用测试数据验证网络的优劣。试验结果表明,在合适的参数下采用SDAE方法的异步故障诊断准确率高达99.86%,比传统电机故障诊断方法提升至少6%。  相似文献   

20.
从差异性出发,研究了基于特征技术与数据技术的集成学习算法,深入分析了这些集成学习算法产生差异性的方法;针对决策树与神经网络模型在标准数据集对集成学习算法进行了实验研究,结果表明集成学习算法的性能依赖于数据集的特性以及产生差异性的方法等因素,并且基于数据的集成学习算法的性能优于基于特征集的集成学习算法的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号