首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
数据流分类模型是面向连续变化的实时分析的基本问题.目前大多数的数据流算法只针对突变式或渐变式概念漂移进行处理的,并未充分考虑概念会重现的特点.为此提出了一种具有概念漂移检测机制的自适应集成算法.从信息熵的角度出发,用Jensen-Shannon散度度量相邻两个窗口间数据分布的距离,不仅能检测出不同类型的概念漂移,且能有效地发现重现的概念;采用分类器池机制来保存历史概念,从而实现对概念的重用.将所提出的算法与几种经典的学习算法在人工合成和真实数据集上进行了广泛的对比实验.实验结果表明,所提出的算法在平均分类准确率上具有明显的优势,比其他集成算法消耗更少的时间,适合多种类型概念漂移的环境,并具有较高的抗噪性.  相似文献   

2.
基于可信多数投票的快速概念漂移检测   总被引:1,自引:0,他引:1  
数据流因具有数据持续到达,概念漂移产生时刻无法预测、概念的数量不确定等特征,使得滑动窗口的大小很难事先确定,滑动窗口包含概念的数量对概念漂移检测存在影响.本文提出了基于可信多数投票的快速概念漂移检测算法(CMV_SEA),该算法使用SEA算法中的基分类器淘汰方法,使用可信多数投票实现滑动窗口中基分类器的集成.仿真实验表明:相比于SEA算法,CMV_SEA算法提高了泛化能力;能在新概念产生的第一时间内检测到概念漂移;对概念漂移的检测能力和新概念的学习能力不受滑动窗口大小的影响.  相似文献   

3.
针对基于数据块的集成算法,存在数据块大小影响分类效果,且不能及时应对完整式概念漂移的问题,提出了一种考虑数据流局部特征的和能应对多种类型概念漂移的集成分类算法.用滑动窗口作为概念漂移检测器,当检测到概念漂移时,则建立新的分类器并加入到集成分类器中.本文提出的算法在人工合成和真实数据集上与经典算法进行了广泛的对比实验.结果表明:提出的算法在分类准确率上具有明显优势,消耗更少的内存,更适合多种类型概念漂移的环境.  相似文献   

4.
概念漂移是流数据的主要特征之一,如何检测概念漂移的发生以及调整预测模型去适应概念漂移现象备受研究者的关注.目前有关概念漂移的大多数算法仅仅针对单一类型的概念漂移检测,并且需限制输入数据服从某一分布,所以在检测多种类型概念漂移时效果不理想.提出一种在线集成自适应算法(KSHPR),在自适应随机森林(Adaptive Random Forests,ARF)算法和流随机补丁(Streaming Random Patch,SRP)算法的基础上进行优化改进,采用非参数检验与滑动窗口相结合的策略进行概念漂移检测,降低窗口平均值对算法性能的影响,并以此为基础建立四个基学习者的集成学习模型,根据基学习者预测准确率,动态分配权值,有效解决流式数据中学习模型精度低的问题.实验证明,提出的算法在真实数据集和合成数据集中均表现优良,与其他算法相比,该算法的稳定性、分类准确性与多类型概念漂移适应能力均有所提升.  相似文献   

5.
基于滑动窗口最长公共子序列Wi Fi指纹定位算法   总被引:1,自引:0,他引:1  
针对基于Wi Fi瞬时指纹定位算法中由于RSS信号的时变特性引起的Wi Fi定位精度差问题,提出了一种基于滑动窗口最长公共子序列指纹定位算法.该算法将时间序列的RSS信号指纹转化为基于滑动窗口的数据模型,增加了指纹特征信息,提高比对准确性.通过计算请求定位数据与样本的最长公共子序列来获得样本点的相似性,解决由于窗口伸缩或滑动窗口中个别采样点无信号引起的比对不准确问题,从而提高了定位的精确性和鲁棒性.实验结果表明,所提定位算法的结果明显优于瞬时指纹定位算法.  相似文献   

6.
针对微博话题易漂移的特点,利用向量空间模型和LDA模型进行微博话题漂移检测.主要通过Gibbs采样算法获取每条微博中词汇的概率分布,基于词汇的概率分布进行微博间相关性度量,采用动态常数法实现话题边界标识,在话题域中计算词汇信息熵并抽取话题词,生成话题向量空间模型,通过话题向量空间模型在离散时间序列模型下的话题词序列比对,实现话题的漂移检测.通过实验发现,基于VSM和LDA模型相结合的微博话题漂移检测是一套行之有效的方法.  相似文献   

7.
隐含概念漂移的数据流分类问题是数据挖掘领域研究的热点之一,而实际数据中的噪音会直接影响概念漂移检测及分类质量,因此具有良好抗噪性能的数据流分类方法具有重要的研究和应用价值.随机决策树的集成模型是一种有效的数据流分类模型,为此本文基于随机决策树,引入Hoeffding Bounds不等式来检测和区分概念漂移和噪音,根据检测结果动态调整滑动窗口的大小和漂移检测周期,并提出一种增量式的集成分类方法ICDC,实验结果表明,本文算法在含噪音数据流上处理概念漂移是有效的.  相似文献   

8.
提出了基于随机标记子集的多标记数据流分类算法,其基本思想是在多标记分类过程中,将原始较大的标记集随机地划分为多个较小的标记子集,并针对每个标记子集训练一个概率分类器链.在充分利用标记间依赖关系的同时,又有效地降低了概率分类器链的时间复杂度.同时,在算法中嵌入了自适应滑动窗口算法来检测概念漂移.实验结果表明,同其他算法相比,在大多数数据集合上能够更有效地预测实例的类标集合,更适合概念漂移的环境.  相似文献   

9.
由于跟踪器采用的是基于金字塔Lucaks-Kanade光流法,需要在相邻帧之间对目标的运动进行跟踪,运算量较大,因此提出了采用轻量级跟踪算法Camshift作为TLD算法框架中的跟踪器模块,来提高跟踪模块运行效率。而TLD框架的检测器在跟踪器追踪失败时需要检测大量数目的子窗口,因此利用背景差分方法进行前景检测,可以减小检测范围和数目。TLD算法本身是对单目标的长时间跟踪,提出基于多线程机制TLD算法,针对每一个跟踪目标建立相应的线程对其跟踪。经过实验验证,与原算法相比,优化算法使得对多目标实时跟踪性能得到一定提升。  相似文献   

10.
提出一种基于可变长子片段对拼接的DNA双序列局部比对算法.该算法以最长的子片段对为中心,拼接相邻的相容子片段对来得到最优局部比对,并允许用户输入比对调控因子适当调整比对结果以提高算法的灵活性.实验结果表明算法在时间和空间复杂性方面都得到了较大的改善.  相似文献   

11.
针对维吾尔词书写粘连和手写笔画漂移等问题,提出一种基于多信息融合路径寻优的字符分割算法.利用笔画提取、切分和聚类,过分割单词图像得到主体和附加字段,通过字段模糊匹配获得鲁棒的字根序列描述,以抑制笔画漂移造成的干扰;由建立的匹配位置高斯模型来估算字段匹配信息,经对单字分类器输出进行置信度转换,从而得到字符识别信息,再运用数据统计获取单词语义信息;由构建的字符序列二阶Markov语言模型,基于Bayes准则,提出了单词后验概率的多信息加权融合计算方法,通过字段匹配及字根合并的路径寻优,可得到最佳字符分割结果.在手写维文样本库上的实验表明,所提算法能有效提升字符分割的准确率和稳定性.  相似文献   

12.
为改进串匹配的效率,通过引入有效载荷,对Horspool算法进行了分析。在字符集较小而模式串长度较大时,跳跃距离受字符集大小限制严重。结合好后缀思想,提出了基于好后缀的Horspool算法GsHor:比较窗口内对应末位字符相同的情况下使用好后缀距离移动窗口;结合Quick Search思想,提出了基于坏字符块的Horspool算法BcbHor。实验表明,字符集大小为4时,GsHor算法的比较次数比Horspool算法减小18%以上,BcbHor算法至少减少42.4%。  相似文献   

13.
为改进串匹配的效率,通过引入有效载荷,对Horspool算法进行了分析。在字符集较小而模式串长度较大时,跳跃距离受字符集大小限制严重。结合好后缀思想,提出了基于好后缀的Horspool算法GsHor:比较窗口内对应末位字符相同的情况下使用好后缀距离移动窗口;结合Quick Search思想,提出了基于坏字符块的Horspool算法BcbHor。实验表明:字符集大小为4时,GsHor算法的比较次数比Horspool算法减小18%以上,BcbHor算法至少减少42.4%。  相似文献   

14.
土石坝压实质量评价模型的更新对保证其长期高精度评价压实质量具有重要的意义,然而目前对于压实质量模型的更新还缺乏相应的研究.借鉴流数据中概念漂移检测的思想,同时针对碾压施工流数据具有不平衡数据、含有噪声且流速缓慢的特点,本文提出了一种基于概念漂移检测的土石坝压实质量评价模型更新方法.首先提出基于K-means的下抽样技术处理不平衡数据;其次提出基于增强概率神经网络(enhancedprobabilisticneuralnetwork,EPNN)和可变窗口技术(variablewindowtechnique,VWT)的碾压施工流数据概念漂移检测方法;最后若检测到有概念漂移则进行压实质量评价模型的更新.工程应用表明:基于K-means的下抽样技术能保证分类器具有较高的一致性;基于EPNN与VWT的方法能有效地检测出碾压施工流数据概念漂移;同时以出现概念漂移为条件而更新的压实质量评价模型能够长期高精度评价压实质量.  相似文献   

15.
针对数据流环境中混合多种类型概念漂移问题,提出了基于图模型的数据流分类算法.该算法通过对数据块上的实例集进行概念表示,检测概念的变化度来衡量概念漂移,并引入了一个动态自适应阈值,为每个待分类实例合理选择基分类器模型,充分利用基分类器模型潜在的多样性并降低漂移恢复期间的分类误差.实验表明,本文提出的算法性能在多数数据集上优于其他算法,在复杂概念漂移环境下具有较好的适应性.  相似文献   

16.
为优化周期性概念漂移分类精度,提出了一种基于隐马尔可夫模型的周期性流式数据分类(HMMSDC)算法,算法结合实际可观测序列的输出建立漂移概念状态序列的转移矩阵概率模型,由观测值概率分布密度来预测状态的转移序列.当预测误差超过用户定义阈值时,算法能够更新优化转移矩阵参数,无须重复学习历史概念即可实现对数据概念漂移的有效预测.此外,算法采用半监督K-Mean学习方法训练样本集,降低了人工标记样例的代价,能够避免隐形马尔可夫模型因标记样例不足而产生的欠学习问题.实验结果表明:相对传统集成分类算法,新算法对周期性数据漂移具有更好的分类精确度及分类时效性.  相似文献   

17.
镜头边缘检测是实现CBVR的一个重要的步骤.提出了忽略分块极大值的加权直方图的方法,并结合此概念及现有算法分别提出一种改进的窗口法来检测突变和一种改进的基于非相邻帧差法来检测渐变,更加精确地实现了镜头的分割以及对镜头边界点的定位.实验结果表明该算法行之有效.  相似文献   

18.
由于数据流中概念漂移现象的影响,使得传统的分类方法不再适用,因此研究快速、精确及稳定的数据流挖掘方法和系统具有较高的理论和应用价值;文章研究了基于频度的概念漂移中低频概念对分类时空性能的影响,提出了对其中的低频概念进行消减的算法,实验表明LFCR算法比RePro算法有更好的分类性能。  相似文献   

19.
垃圾邮件的概念漂移及过滤技术研究   总被引:1,自引:0,他引:1  
提出了双级别的概念漂移检测算法,监视已有的垃圾邮件过滤模型在对邮件分类时是否产生了持续的分类错误,进而对概念漂移进行识别。针对由用户偏好引起的垃圾邮件概念范畴变化,基于本体提出邮件数字指纹与概念子类别之间的关联强度和隶属度算法。通过对比实验,验证了所提方法在垃圾邮件概念漂移问题上的有效性。  相似文献   

20.
基于对深网(DeepWeb)网页公共框架的定义,提出一种在信息抽取算法中增加公共框架检测阶段,采用序列比对算法提取公共框架的方法.与原始网页数据相比,去除公共框架的数据域信息对模板抽取更有利.基于真实网站的数据密集型网页集合,测试和对比了序列比对算法中参数不同取值以及公共框架检测阶段在数据量和抽取准确率等方面对信息抽取算法的影响.实验结果表明了算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号