首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
针对不同时间段的数据流对当前数据流分类影响程度不同,在滑动窗口技术基础上提出了时间窗口权值的频繁模式(TWWFP)分类算法.首先,对滑动窗口中的每个基本窗口赋予一个与时间有关的窗口权值;然后,采用TWWFP-Tree结构存储当前滑动窗口中每个基本窗口中的频繁数据属性,实时更新TWWFP-Tree结构;最后,检测相邻3个滑动窗口中权值属性的平均分类误差,发现突变后及时减少下一个滑动窗口的长度可适应数据流的变化.实验证明该分类算法比没有时间窗口权值分类算法的精确度最大提高3%.  相似文献   

2.
大多数处理数据流的决策树方法是基于Hoeffding不等式设计的。但是Hoeffding不等式本身只能处理数值数据流,并且在属性度量方面存在不足。为了解决这个问题,文章在Hoeffding不等式算法的基础上引入McDiarmid不等式,将二者融合并做了相应的改进作为新的属性度量选择,提出了一种基于McDiarmid不等式的新决策树分类算法,即McTree。该算法使用ε/2进行属性分类度量来提高分类性能。在真实与虚拟数据流上的实验结果表明,McTree与经典算法相比,在分类精度升高或几乎保持不变的情况下,生成树的规模明显降低。其中生成树节点数平均降低70%左右,树层数平均降低50%左右。  相似文献   

3.
针对基于聚类的离群点检测算法在处理高维数据流时效率和精确度低的问题,提出一种高维数据流的聚类离群点检测(CODHD-Stream)算法。该算法首先采用滑动窗口技术对数据流划分,然后通过属性约简算法对高维数据集降维;其次运用基于距离的信息熵过滤机制的 K-means 聚类算法将数据集划分成微聚类,并检测微聚类的离群点。通过实验结果分析表明:该算法可以有效提高高维数据流中离群点检测的效率和准确度。  相似文献   

4.
传统的偏好推理使用权衡增强的条件偏好网络(Tradeoff-Enhanced Conditional Preference Networks,TCP-nets)进行用户的偏好推理,不仅能高效地表示对元组的定性偏好关系并优化用户偏好结果,还能描述每个属性之间的偏好关系,其主要聚焦于关系元组中的单个属性的偏好.但把对条件偏好查询的技术推广到数据流的条件提取却是一个挑战,面临的技术困难主要是对数据流中序列的提取,对提取的序列进行占优查找等.首先,针对偏好数据流,提出一种时间条件查询语言Stream Pref来处理数据流;其次,在Stream Pref中加入时间索引来推理和规范数据流提取序列的时间条件偏好,提出提取对象序列算法、占优对象及占优序列查找算法和数据流序列间占优对比的算法;最后,在数据集上分析验证提出的算法的有效性.实验结果证明,提出的算法与min Top-k,Partition和Incpartition算法相比,得到的结果更准确.  相似文献   

5.
为解决命名数据网络中的拥塞控制问题,提出一种博弈拥塞控制算法。将路由器为数据流分配带宽问题构建成单主多从的Stackelberg博弈模型,建立路由器和数据流的效用函数,证明数据流非合作动态博弈纳什均衡解的存在性,运用分布式迭代方法,获得数据流最优带宽需求量和路由器最优价格策略,通过数据包将数据流最优带宽需求量对应的速率反馈给下游路由器和请求端。基于ndnSIM平台对该算法与ICP(interest control protocol)和HR-ICP (hop-by-hop and receiver-driven interest control protocol)算法进行仿真试验,结果表明该算法能有效提升瓶颈链路利用率并保证较低的丢包率。  相似文献   

6.
舰船运动姿态极短期预报算法研究   总被引:1,自引:0,他引:1  
舰船运动姿态数据流的极短期实时预报可以帮助决策者在决策过程中更好地分析问题、评价和制定方案,具有很好的参考价值,故着重对该部分进行研究。考虑到六自由度运动中横摇的影响,故主要针对舰船横摇运动姿态数据流序列具有混沌属性并且连续量大的特点,结合数据流挖掘理论框架,提出了一种基于小波变换的递推最小二乘(recursive least square,RLS)的Volterra核估计算法,用于对监测系统中采集到的连续的横摇运动姿态数据流进行实时预报研究。该方法首先对姿态数据流概要结构进行获取,然后利用小波阈值降噪,最后将降噪处理的数据利用RLS的Volterra核估计算法进行实时预报。通过在舰船横摇运动姿态预报的实践验证表明,该算法可很好地解决运动姿态数据流在线自适应预报问题。  相似文献   

7.
由于网络软件系统中分析数据具有快速产生的特征,网络软件系统逆向工程的最大挑战在于如何及时高效地处理这些数据,从而得到逆向工程的结果。在分析现有研究成果的基础上,对分析数据进行基于数据流的建模,从而能够快速高效地处理大中型网络软件系统中的数据,同时设计了基于优先级与数据流四元组的网络软件系统逆向工程算法,通过不同类型网站的实验,验证了算法的性能与匹配度和其他同类算法相比都有较大的提高。  相似文献   

8.
数据流分段是数据流处理技术的基本任务,然而,它在多数据流环境下并不是一个小问题。该文提出了一个高效算法(即QPAAS算法),它能实时处理多个数据流分段。该算法利用了PAA技术中的增量计算特性,能快速处理单个数据流分段。为了处理多个数据流,它索引所有数据流的当前分段到一颗B^+树中,这样算法即可实时分段多个数据流。在真实的数据流上的多个实验表明,QPAAS算法有效而高效,仅具有线性时间和空间复杂度。而且,它比传统的PAA分段算法快几个数量级。  相似文献   

9.
数据流中噪声数据的处理是当前数据流分类挖掘中重要的研究分支,近些年来得到了广泛的关注.本文提出了一种称为FDBCA的数据流分类算法.它使用基于密度的带有噪声的空间聚类(DBSCAN)的改进算法Fast-DB-SCAN(FDBSCAN)处理噪声数据,并利用错误率方差(MSE)来检测概念漂移.同已有的数据流分类算法相比,实验结果表明了FDBCA算法可以提高噪声数据流的分类精度.  相似文献   

10.
数据流广泛应用于现实世界的多个领域,但是不平衡数据流的存在严重影响了传统数据流分类器的性能.针对不平衡数据流问题,提出了随机平衡采样算法(RBS)处理数据流的不平衡问题,并以RBS算法为基础提出了随机平衡采样数据流集成算法(RBSSEA)旨在解决不平衡数据流的分类问题.最后,分别采用合成和真实数据集对RBSSEA算法进行验证,实验结果证明RBSSEA算法在解决不平衡数据流分类问题具有一定的优势.  相似文献   

11.
为了对微环境监测平台上的传感器所捕获的异构、大量、连续的数据流进行语义注释,从而及时地根据语义上下文推理出新的或隐含的知识,以实现微环境监测平台的实时监测,对SASML映射语言和SDRM算法进行了研究和改进,设计了S-SASML映射语言和SDS2R算法,用于将传感器原始数据流转换为符合SOSA/SSN本体的RDF数据流;并利用线程池技术实现方法的高并发处理,提高了方法的实时性能。改进后的映射语言和算法实现了微环境监测平台对连续、大量的数据流的实时语义注释,不仅解决了动态传感器数据流语义注释的问题,而且避免了高频数据流导致的系统过载现象,具有稳定高效的处理能力,基本满足了微环境监测平台的需求,具有一定的应用价值。  相似文献   

12.
概念漂移数据流分类是一个极具挑战性的问题。当新概念出现时,该概念下的学习样本过少,无法对分类器进行及时调整,进而导致分类精度不高。为了解决该问题,本文提出一种基于局部分类精度的概念漂移数据流分类算法——LA-MS-CDC。第一,LA-MS-CDC将k-means聚类和局部分类精度算法结合,从分类器池中挑选出最优源领域分类器;第二,将最优源领域分类器与目标领域分类器加权集成,进而对样本分类;第三,根据分类样本的真实标签分别计算各分类器的损失,并对目标领域和源领域的分类器权重进行更新;第四,再利用该分类样本对目标领域分类器、最优源领域分类器进行更新;最后,完成分类器池的更新。在公开数据集上的实验结果表明,LA-MS-CDC能够有效地将源领域知识迁移到目标领域,与现有方法相比,其分类效果具有显著性提升。算法代码可在https://gitee.com/ymw12345/LAMSCDC上获取。  相似文献   

13.
不确定性的出现使传统算法无法直接用于聚类不确定数据流。该文提出一种不确定数据流环境下基于密度的聚类算法,其中提出不确定度的概念以衡量不确定数据的分布信息,并在改进面向确定数据的聚类算法DENCLUE的基础上,提出一种可处理数据不确定度的UDENCLUE算法,以降低数据的不确定性对聚类结果产生的影响;提出滑动窗口下基于密度的不确定数据流聚类算法USDENCLUE,通过聚类特征指数直方图技术实现快速剪枝,可以高效处理噪音数据、演化数据流并生成任意形状的簇;采用真实数据集及人工合成数据集对USDENCLUE与CluStream聚类算法进行比较,实验结果表明了所提出算法的高效性和有效性。  相似文献   

14.
针对粗糙属性约简优化问题,利用粒子群寻求最优解的优势,提出一种改进的粗糙集属性约简优化的协同粒子群算法(AR-CPSO)。在最优属性寻求过程中,该算法使粒子群在属性空间通过约简集向量的分解和邻域簇的协同学习提高其寻优能力,并利用自适应约束强化罚函数较好地收敛到最优目标属性约简集。该算法能始终保持种群的多样性、协作性,并避免过早地陷入局部最优。相关仿真实验表明,AR-CPSO算法能有效地找到全局最优属性约简集,具有较强的属性协同约简优化性能。  相似文献   

15.
数据流潜在无限、流动迅速、变化频繁等特点,使在数据流上实现隐私保护面临重大挑战.在阐述数据流匿名的概念及分析现有数据流匿名算法特点的基础上,提出基于聚类的数据流匿名设计思想,并给出算法实现.在真实数据集上的实验结果表明,新算法在满足匿名要求的同时能够降低概化和抑制处理带来的信息损失.  相似文献   

16.
数据流挖掘技术是数据挖掘领域的新研究方向之一。本文介绍了数据流基本特点以及数据流模型的基础上,对流行的数据流处理技术和现有数据流挖掘算法进行了总结,并进一步提出了数据流挖掘技术的研究方向和前景。  相似文献   

17.
计算机网络入侵通常具有高频度特性,因此,识别是否正常访问,对数据流中重复元素的挖掘,给出频度指标,是一种重要的依据.提出一种基于数据流频繁模式的改进型AFP算法,该算法采用滑动窗口树技术,单遍扫描数据流及时捕获网络上的最新模式信息,并将该算法应用在入侵检测模型中正常数据和异常数据的在线挖掘.解决了有限存储和无限数据流的矛盾.实验结果表明,该模型有较高的报警率和较低的误报率.  相似文献   

18.
决策树构建方法:向前两步优于一步   总被引:1,自引:0,他引:1  
为提高搜索算法找到全局最优解的可能性,在C4.5算法的基础上,本文提出了向前两步的决策树(two-step forward decision tree,TSFDT)构建算法。该算法在选择属性时,考虑同时选择两个属性带来的信息增益,而不是只考虑单一最优属性对于信息增益的贡献,从而在寻找问题全局最优方面比只考虑单一最优属性具有更大的可能性。10个UCI基准数据集上的实验结果表明,该算法明显优于C4.5算法。  相似文献   

19.
针对在对分布式、多维数据流频繁模式挖掘算法研究时,没有删除多维数据流中的非频繁项集,存在平均处理时间长的问题,提出分布式多维数据流频繁模式挖掘算法。该方法根据人工神经网络特点,建立了人工神经网络模型,并对多维数据流训练,以达到提升挖掘效率的目的;并基于训练结果构造数据流频繁模式信息树,即频繁模式树(FR-tree:Frequent Pattern tree)。由于FR-tree中存在较多过期的多维数据流,所以需要对FR-tree剪枝,并删除非频繁项集,从而加快频繁模式计算速度,并采用分布式挖掘算法对全局FR-tree挖掘,从中取得多维数据流的频繁项集完全集,实现分布式多维数据流频繁模式的挖掘。通过对该方法的平均处理时间测试,验证了该方法的实用性。  相似文献   

20.
在大数据环境下,由于隐私保护、数据丢失等原因,数据普遍存在不确定性;数据流系统中数据不断地到达系统,只扫描一遍且不能一次性全部获得;所以要构建一个增量分类模型来处理不确定数据流分类.本文基于VFDT算法提出了WBVFDTu算法,该算法在学习和分类阶段都可快速而有效地分析不确定信息.在学习期间,采用Hoeffding分解定理构造决策树模型;在分类期间,在决策树的叶子节点利用加权贝叶斯分类算法提高模型的分类准确率和算法的执行效率.最终证明该算法能够非常快速地学习不确定数据流,提高分类的准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号