首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为减缓存储系统中传统重复数据删除方法在高性能固态存储盘中存在的指纹计算性能瓶颈,提出了重复数据删除指纹计算的性能优化方法 R-dedup。在基于内容分块算法基础上,将切分后形成的所有数据块进一步切分为更小粒度的48B等长数据片。基于Rabin哈希长度小于原始数据、多个Rabin哈希同时发生碰撞概率极低、数据片的Rabin哈希可以重复利用基于内容分块算法在滑动窗口过程中产生的计算结果的基础,利用数据片的Rabin哈希替代原始数据,并将其作为数据块的SHA-1指纹输入,减少SHA-1函数数据计算量,提高指纹计算性能。选取Linux内核、Imagenet等5组具有代表性的数据集,对R-dedup和标准基于内容分块的重复数据删除方法在数据分块性能、指纹计算性能、索引表检索性能和I/O性能方面分别进行了比较。结果表明:R-dedup的数据分块性能、索引表检索性能、I/O性能与对比方法具有4%左右的误差波动,性能基本一致;R-dedup的指纹计算吞吐率是对比方法的165%~422%,总体吞吐率是对比方法的6%~54%。  相似文献   

2.
根据重复数据删除的特点,针对连续数据访问为主的应用,设计基于B+树的元数据索引结构;将元数据分为冷热两种,分别设计不同的元数据布局策略。研究结果表明,低能耗磁盘能够保持更长时间的待机状态以便节能,同时可以有效地减少重复数据删除时的随机磁盘访问次数。并且没有额外的硬件开销,实现仅在磁盘上存储索引,而不是之前研究中的在磁盘和内存中存储索引。   相似文献   

3.
针对重复数据删除过程中具有相似属性的用户上传相同数据可能导致的内部数据泄露问题,提出了一种基于阈值自适应调整的重复数据删除方案。该方案采用属性划分的方式,对用户属性的类型进行划分,并对每个类型属性给出了具体的属性距离计算方法,通过对比上传用户属性的相似度,确定用户类别并据此对上传数据的计数方式进行自适应调整。始终确保集团用户的加入不会改变上传数据的当前流行度状态,保证了重复数据删除的安全性和数据的保密性。研究结果表明,基于阈值自适应的重复数据删除方案分类准确率较高,时间开销不大,具有良好的可扩展性和实用性。  相似文献   

4.
重复数据删除技术将重复数据块归并存储,提高空间利用率却降低数据可靠性。该文提出一种数据可靠性保证机制——RLDS。RLDS将变长数据块打包成定长块,再使用ECC编码从一组数据块生成带纠错的块,分布到动态挑选的存储节点冗余组中。在节点发生错误时,RLDS分布式地恢复出错数据。实验结果表明:RLDS能取得与用RAID纠错机制的系统相近的空间利用率,同时提供与用多倍冗余复制机制的系统相近的数据可靠性,数据块平均恢复时延也比RAID系统大为缩短。RLDS通过数据再生还解决了节点超载问题,提供系统动态负载均衡功能。  相似文献   

5.
针对基于内容分块重复数据删除方法缺少能够定量分析预期分块长度与重复数据删除率之间关系的数学模型,导致难以通过调整预期分块长度优化重复数据删除率的问题,提出了一种基于Logistic函数的数学模型。在大量真实数据测观察基础上,提出了通过Logistic函数描述非重复数据的S形变化趋势,解决了该数据难以从理论上推导、建模的问题,证明了基于内容分块过程服从二项分布,并从理论上推导出了元数据大小模型。基于上述两种数据模型,通过数学运算最终推导得到重复数据删除率模型,并利用收集到的3组真实数据集对模型进行了实验验证。实验结果表明:反映数学模型拟合优度的R2值在0.9以上,说明该模型能够准确地反映出预期分块长度与重复数据删除率之间的数学关系。该模型为进一步研究如何通过调整预期分块长度使重复数据删除率最优化提供了理论基础。  相似文献   

6.
为了解决和突破现阶段重复数据删除方法大多只能针对特定领域,孤立地解决问题的某个方面所带来的不足和局限,提出了基于Markov逻辑网的统计关系学习方法。该方法可以通过计算一个世界的概率分布来为推理服务,从而可将重复数据删除问题形式化。具体采用了判别式训练的学习算法和MC-SAT推理算法,并详细阐述了如何用少量的谓词公式来描述重复数据删除问题中不同方面的本质特征,将Markov逻辑表示的各方面组合起来形成各种模型。实验结果表明基于Markov逻辑网的重复数据删除方法不但可以涵盖经典的Fellegi-Sunter模型,还可以取得比传统的基于聚类算法和基于相似度计算的方法更好的效果,从而为Markov逻辑网解决实际问题提供了有效途径。  相似文献   

7.
针对重复数据删除系统中存储容量受内存限制难以进行扩展的问题,提出了一种基于无向图遍历的重复数据删除分组预测方法.该方法将索引表保存在磁盘中,并在内存中维护索引表缓存,以此提高系统最大可支持的存储容量.对于索引表缓存命中率低、系统性能差的问题,采用了图遍历分组方法予以解决,根据数据块访问序列特征信息建立无向图并进行分析,基于分析结果对索引项进行分组,并以组进行缓存替换,从而提高缓存命中率和系统性能.实验结果表明,基于缓存预取原理和无向图遍历分组,在将缓存设置为索引表大小的10%时,重复数据删除存储系统最大存储容量比原有方法提高了7.5倍,缓存命中率由不进行索引项分组时的47%提高到87.6%.  相似文献   

8.
针对传统在线/离线重删对云存储系统中重删效率不高的问题,采用混合重复数据删除(Hy-Dedup)机制,通过融合在线和离线两种方式进行有效的数据重删。该方案在线重删阶段根据负载类型对指纹索引进行聚类分组,设置不同重删阈值来评估数据流的空间局部一致性,提高了缓存命中率;离线重删阶段采用延迟敏感的方法,对在线阶段缓存没有命中的重复块进行精确重删。通过这种混合方式在保持系统的I/O性能和吞吐量的前提下,显著减少了写入云存储的重复数据量。实验结果表明,与iDedup机制相比,Hy-Dedup机制可将在线重删率提高35.9%,磁盘空间需求减少41.36%,并且能够在云存储系统中实现高准确率的重删,提升重删效率,节省存储空间。  相似文献   

9.
针对系统中存在的索引检索效率问题,提出了一种基于时序参数的快速索引优化算法,该算法通过时间参数和序数参数获取数据块的热度值,将高热度值的数据块指纹组合成了一个高优先度的快速索引.快速索引与主索引组成了重复数据删除中的两层索引结构,从而提高了系统的检索性能.通过实验验证了基于时序参数的索引优化算法的优越性.  相似文献   

10.
针对当今企业海量数据的增长给数据容灾系统的存储容量、处理能力、数据传输带宽带来巨大压力的现状,设计了一种基于重复数据删除技术的数据容灾系统.通过I/O吞吐量、CPU利用率、响应时间、数据备份时间和重复数据删除率等指标对数据容灾系统性能进行了测试,测试结果表明数据容灾系统对应用服务器响应时间的影响甚小,重复数据删除效果显著.  相似文献   

11.
为了研究非线性测量误差模型强影响点的识别问题,首先将非线性测量误差模型中存在误差的不可观测的数据当作缺失数据,利用SA-MCMC算法求得模型参数的最大似然估计,然后用Q函数代替可观测数据的对数似然函数进行影响分析,得到了建立在Q函数基础上的广义Cook距离及其一步近似,最后通过算例说明了诊断统计量的有效性.  相似文献   

12.
祝威 《科技信息》2011,(24):I0210-I0210
对于很多企业来说很多数据都需要妥善保管,同时数据的安全性也非常重要。很多时候我们都希望在删除数据后能够实现真正的彻底删除,毕竟互联网上有很多数据恢复软件,通过这些工具可以将已经从回收站清除的数据还原出来。作者结合现在的工作需要,并结合多年的现场维修维护工作的积累,为大家介绍彻底删除数据方法,从而避免重要数据的泄露。  相似文献   

13.
远程海量数据进行完整性审计工作,会占用大量通信信道,在此提出了基于指纹术的海量数据等同性匹配判断算法,对算法的有效性进行了证明.利用此算法进行海量数据等同性判断可大大提高工作效率,同时极大地减少了对通信信道的占用.  相似文献   

14.
针对海量数据中存在的大量冗余信息,本文设计并实现了一种基于重复数据删除的文件备份与恢复系统,该系统采用改进的Winnowing动态分块算法,将文件分割成不同长度的数据块,并结合摘要算法、索引表、数据压缩等技术,确保服务器仅存储数据块唯一副本,以达到重复数据的删除目的.实验表明,该系统相比cwRsync能较更好的减少网络流量,并且相比传统的压缩技术能更进一步减少磁盘空间占用率.  相似文献   

15.
论述了分布式数据库系统信息的树型结构,提出了解决传统方法中冗余信息所占用容量过大而造成系统效率低下的问题。  相似文献   

16.
分析了目前对于冗余数据的常用处理方法,并给出了基于SQL的解决数据库冗余数据方案。  相似文献   

17.
剔除重复数据是保证网络高效运行不可缺少的步骤,但该过程易受信号强度、网络装置、路由器性能等问题的干扰。为此,提出基于最小哈希的网络单信道重复数据剔除算法。首先利用哈希算法中的散列函数对网络单信道数据实行聚类处理,然后采用带有监督判别的投影算法对聚类后的数据进行降维处理,最后采用代数签名预估数据,保证数据之间的计算开销最小,再构造最小哈希树生成校验值,在更新去重标签的同时,通过双层剔除机制完全剔除单信道中的重复数据。实验结果表明,该算法的执行时间短,且计算和存储开销较小。  相似文献   

18.
运用排列法的移动数据块算法,使得原始样本的样本点在整个自助法样本中出现的频率达到相等,从而提高了基于移动数据块算法的统计量的精确性.通过与一般自助法,平稳移动数据块算法的蒙特卡罗数值模拟,比较了这三种方法的优劣性.  相似文献   

19.
图像分割是指纹图像预处理中的重要步骤,单独使用常用的方差法和方向法,效果往往不是很好,但它们各有所长.优缺点互补.本文介绍了一种基于方差法和方向法的合成分割算法,实验结果验证了此方法的有效性.  相似文献   

20.
自动指纹识别系统(AFIS)已经成为很多安全和执法应用中一种流行的工具。许多安全和执法系统都依靠指纹图像中脊线结点和分叉点来进行指纹匹配。尽管结点和分叉点信息对于小的数据库系统来说是足够的,但它在大量的指纹图像分析中却不能提供足够的分辨信息。通过示范一种新的提取指纹灰度图像中汗孔位置的方法,介绍一种从指纹图像中获取额外的分辨信息的方法。这种信息的提取是通过实行改进的最小平方误差方法。这种算法即使应用于500点每英寸的图像上,也可以取得很好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号