首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 176 毫秒
1.
总结目前数据流在线检测算法的优缺点,提出了一种新的数据流在线检测算法—SWKLOF。该算法采用滑动时间窗口对数据流进行封装,用k-距离进行剪枝,剔除大部分正常数据,对剩余疑似异常数据采用局部离群因子LOF(local outlier factor)进一步精确筛选。理论分析和实验结果表明该算法降低了时间复杂度,提高了检测准确性。  相似文献   

2.
许颖梅 《河南科学》2014,(5):777-780
数据流聚类算法是当前数据流研究领域里的重要分支,而滑动窗口是数据流中一种关注近期数据的近似方法,提出一种采用滑动窗口处理数据的优化算法SWStream.算法采用双层架构思想,在线阶段利用滑动窗口树存储概要结构,动态调整窗口大小.而在离线阶段对上一阶段的结果进行宏聚类,得到最后的结果.实验验证本算法有更高的处理效率,也相对节约内存.  相似文献   

3.
复合滑动窗口连接算法   总被引:1,自引:0,他引:1  
滑动窗口是对数据流进行连续查询处理、得出近似查询结果的一种常用的数据采样技术.连续查询处理的执行方式有2类:一类是立即执行方式;一类是周期执行方式、在已有的研究工作中,基于滑动窗口的连接算法都是适用于立即执行的连续查询.提出了适用于周期执行的连续查询的复合滑动窗口连接算法,即CSWSNLJ算法和CSWSNHJ算法.理论分析和试验结果表明CSWSNHJ算法具有较好的性能.  相似文献   

4.
传统的数据流极值聚集方法在极端情形下为获得连续的精确解,会因维护大量候选项而导致巨大的内存开销,为此文中提出了一种时间滑动窗口上内存有界的极值聚集方法.在候选项数量达到指定阈值时,该方法随机抽样新到达窗口的数据,使得内存维护有限数量的候选项,连续返回极值近似解.设计了一种空间有界的摘要数据结构REx-link,可以在有界的内存中基于随机抽样进行维护,实现时间滑动窗口上的数据流极值聚集.从理论上证明了随机算法的出错概率存在上界,并通过仿真实验分析了算法的返回结果与精确解的近似程度.分析表明,计算精度和空间开销的折中是实际应用可接受的.  相似文献   

5.
采用滑动窗口技术对数据流进行近似,提出了两种数据流上的轮廓查询方法:CCS算法和PCS算法.CCS算法能够实时反映数据的变化,内存空间的利用率也较高.PCS算法则适合周期性更新的应用环境,有利于节约CPU资源.实验结果证明所采用的算法是有效的.  相似文献   

6.
针对不同时间段的数据流对当前数据流分类影响程度不同,在滑动窗口技术基础上提出了时间窗口权值的频繁模式(TWWFP)分类算法.首先,对滑动窗口中的每个基本窗口赋予一个与时间有关的窗口权值;然后,采用TWWFP-Tree结构存储当前滑动窗口中每个基本窗口中的频繁数据属性,实时更新TWWFP-Tree结构;最后,检测相邻3个滑动窗口中权值属性的平均分类误差,发现突变后及时减少下一个滑动窗口的长度可适应数据流的变化.实验证明该分类算法比没有时间窗口权值分类算法的精确度最大提高3%.  相似文献   

7.
针对传统的数据流典型相关分析算法没有考虑数据流速率的动态变化特性,不适用于物联网实际情况的问题,提出一种基于自适应窗口滑动的数据流典型相关分析算法,依据数据流速率变化,设计自适应的窗口滑动策略,并动态调整滑动窗口。实验结果表明,可以保证物联网数据流典型相关分析的实时性、准确性和高效性。  相似文献   

8.
滑动窗口是数据流中一种关注近期数据的近似方法,提出一种采用滑动窗口处理数据的优化算法SWStream。在线阶段利用滑动窗口树存储概要结构,动态调整窗口大小。优化后的算法能及时淘汰过期元组,同时对新到达的元组不断进行实时处理,可以获得更准确的分析结果。而在离线阶段对上一阶段的结果进行宏聚类,得到最后的结果。与聚类算法CluStream相比,此算法处理数据的效率更高,也相对节约内存。  相似文献   

9.
在数据流闭频繁项集挖掘过程中,常忽略历史模式对挖掘结果的影响,并采用一种结构来标记闭频繁项集的类型,导致算法的效率不高.为此提出一种挖掘数据流时间窗口中闭频繁项集的方法NEWT-moment.该方法能在单遍扫描数据流事务的条件下完整地记录模式信息.同时,NEWT-moment提出的剪枝方法能很好地降低滑动窗口树F-tr...  相似文献   

10.
使用滑动窗口的统计方法进行数据流离群点检测,是一种有效的在低纬度下进行离群点查找的方法,但是该法无法处理数据密度不均匀的数据流.据此提出一种自适应的基于统计的数据流动态检测算法.首先利用局部数据欧式空间中距离的数学期望和方差找到一个合适的k阶邻域,然后对这个k阶邻域内数据点的欧式距离和进行基于统计的离群点检测,实现自动适应数据流中稀疏段和稠密段的密度变化.理论和实验结果均表明,该算法可以有效地解决数据流离群点检测问题.  相似文献   

11.
数据流广泛应用于现实世界的多个领域,但是不平衡数据流的存在严重影响了传统数据流分类器的性能.针对不平衡数据流问题,提出了随机平衡采样算法(RBS)处理数据流的不平衡问题,并以RBS算法为基础提出了随机平衡采样数据流集成算法(RBSSEA)旨在解决不平衡数据流的分类问题.最后,分别采用合成和真实数据集对RBSSEA算法进行验证,实验结果证明RBSSEA算法在解决不平衡数据流分类问题具有一定的优势.  相似文献   

12.
冷泳林  张清辰  鲁富宇 《河南科学》2014,(11):2259-2262
数据采集过程中存在大量缺失数据,即不完整数据.传统方法在聚类不完整数据时采用填充或丢弃缺失数据方式实现数据的聚类.依据不完整信息系统理论提出一种基于K-means的不完整数据聚类算法,算法首先将数据集划分成完整数据集和非完整数据集两部分,对完整数据集采用K-means算法进行聚类,然后将不完整数据依据设计的相似度度量方法划分到对应的簇中,实现数据集的聚类.实验结果表明,提出的方法能够高效、精确地实现不完整数据聚类.  相似文献   

13.
计算机网络入侵通常具有高频度特性,因此,识别是否正常访问,对数据流中重复元素的挖掘,给出频度指标,是一种重要的依据.提出一种基于数据流频繁模式的改进型AFP算法,该算法采用滑动窗口树技术,单遍扫描数据流及时捕获网络上的最新模式信息,并将该算法应用在入侵检测模型中正常数据和异常数据的在线挖掘.解决了有限存储和无限数据流的矛盾.实验结果表明,该模型有较高的报警率和较低的误报率.  相似文献   

14.
针对评估数据缺失的问题,提出了一种新的缺失数据填充方法.从信息熵的角度对评估系统进行描述,并提出一种建立在区间值信息系统上的加权广义信息熵,对这种信息熵的非负性、单调性和极值性进行证明.在此基础上,通过研究评估系统数据缺失前后信息熵的变化情况,建立一种基于加权广义信息熵的缺失数据填充方法,并从知识粒度的角度论述加权广义信息熵的机制.通过实例分析与现有的部分算法进行比较,进一步证明文中算法对评估系统缺失数据填充的有效性.  相似文献   

15.
不确定性的出现使传统算法无法直接用于聚类不确定数据流。该文提出一种不确定数据流环境下基于密度的聚类算法,其中提出不确定度的概念以衡量不确定数据的分布信息,并在改进面向确定数据的聚类算法DENCLUE的基础上,提出一种可处理数据不确定度的UDENCLUE算法,以降低数据的不确定性对聚类结果产生的影响;提出滑动窗口下基于密度的不确定数据流聚类算法USDENCLUE,通过聚类特征指数直方图技术实现快速剪枝,可以高效处理噪音数据、演化数据流并生成任意形状的簇;采用真实数据集及人工合成数据集对USDENCLUE与CluStream聚类算法进行比较,实验结果表明了所提出算法的高效性和有效性。  相似文献   

16.
在采用协同过滤算法构建个性化推荐的系统中,经常面临用户评价数据稀疏问题,这将严重降低个性化推荐的准确度.针对此问题,提出了一种混合加权预测填充算法,从用户访问的资源特征以及该资源在整个用户群体中被访问的热度出发,对用户访过的但未给出评价的数据进行预测并填充,从而降低了由于用户评价数据缺失所造成的评价矩阵稀疏程度,提高推荐准确度.在MoiveLense数据集上的试验结果表明,该算法能够明显地提高推荐准确度.  相似文献   

17.
针对目前缺失数据填充算法精度低、运行效率低、内存占用率大的特点,提出一种新的不同类别非完整大数据中缺失数据填充算法。通过2个定理阐述了缺失数据填充算法的原理,给出信息熵的计算过程。输入根据数据集构建的决策表和不同类别非完整大数据中缺失数据的最大值、最小值、填充步长。求出其他类指标和某类指标的相关性,得到数据集,求出权重系数;计算初始数据库的信息熵,通过相关理论或经验对缺失数据区间下限进行设定;用一个很小的区间数据取代缺失数据,根据给出的步长不断扩大区间范围,绘制出每一步信息熵状况,将其与初始数据库信息熵相比,实现缺失数据填充。实验结果表明,所提算法精度高、运行效率高、内存占用率低。  相似文献   

18.
在网络流量监控等数据流应用场景中,数据流中的IP地址等属性的值域往往很大,对于连续到达的数据流,管理系统一般不存储全体数据集,而是维护一个较小规模的数据概要.对于这类大域数据流中的缺失数据,难以采用邻近值填充等传统方法进行填充,也不能轻易删除.最小计数概要是一种轻量级的数据流概要,适合大域数据流的概要维护.本文基于最小计数概要及其维护技术,提出最小频率概要,并根据这两种概要填充大域数据流中的缺失数据.该填充方法首先设计一组两两独立的Hash函数族,将一段时间内大域数据流的属性值(如网络流量)映射并累加到非大域二维表数据结构中,形成大域数据流的计数概要(如一段时间内网络总流量),与此同时,在二维表中存储计数概要伴随的频率概要(即数据流到达次数,如数据包的个数),然后根据最小计数概要与最小频率概要之比对大域数据流的缺失值(如某个数据包的流量)进行填充.采用模拟大域数据集在通用软硬件环境下进行大量实验,结果表明,基于最小计数/频率概要的填充方法可获得较高的精度,而且填充误差随数据属性值定义域的变化呈非单调性变化,另外,随着数据量的增加,填充误差虽然越来越大,但是变化越来越缓慢,最终趋于一个稳定值.对于给定误差参数ε...  相似文献   

19.
在海量的动态数据流中发现有价值的知识,是数据挖掘技术研究的重要问题.研究数据流聚类,根据数据流的特点,提出了一种基于滑动窗口的一趟数据流挖掘的算法,对原有的一趟数据流聚类算法进行了改进,增强了一趟数据流聚类算法的扩展性,改进了数据流聚类的质量.  相似文献   

20.
针对数据流并行聚集问题,提出了一种不同于关系数据和时间序列数据处理的并行聚集方法.为解决已经划分出的数据流元组无法再现的特点,提出能够感知数据流变化的采样算法对数据流采样.利用近似等深柱状图技术描述采样数据的分布特征,平均分配数据流量.使用时间聚集森林结构计算时间窗聚集.通过验证采样个数对并行聚集的影响,数据分布对近似划分向量算法性能的影响,测试数据流量与并行聚集加速比的关系,证明本算法能够高效地计算数据流聚集查询.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号