首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为降低跨数据中心的数据传输对计算任务执行的影响,从数据部署的角度出发,提出基于数据关联依赖关系的跨数据中心云数据部署策略.在满足数据中心存储能力约束的前提下,将依赖度高的数据尽可能部署到相同或彼此间网络带宽资源充沛的数据中心上.实验表明:该策略可降低跨数据中心的传输时间开销,并提高数据密集型计算任务的执行效率.  相似文献   

2.
散乱点云数据的曲率精简算法   总被引:2,自引:0,他引:2  
针对海量散乱点云数据精简问题,提出了以平均曲率为判据的精简算法.采用八叉树结构对点云数据进行空间分割,由分割结果建立k邻域.在散乱数据点参数化的基础上,对k邻域内的散乱点进行二次曲面拟合,求出拟合曲面的平均曲率,进而得出邻域内所有数据点的平均曲率均值,以此为判据进行数据精简.构造曲率差函数,识别出边界数据点,对其进行数据保护.结果表明,该算法对具有曲率多样化特点的点云数据精简具有一定的理论意义和应用价值.通过实验验证了该算法的可靠性和准确性.  相似文献   

3.
综合考虑数据集间的依赖关系以及数据中心的存储容量,引入一种名为"虚拟数据代理"的新实体,通过建立虚拟数据代理云模型,将数据布局问题转换为2个映射过程,即从数据集到虚拟数据代理的映射以及从虚拟数据代理到数据中心的映射,进而提出一种基于虚拟数据代理的云模型数据布局策略(CDPVDA)。仿真实验结果表明:CDPVDA与典型的数据放置策略相比,可以将数据中心之间的数据传输开销降低5%~20%。  相似文献   

4.
一种基于聚类树的增量式数据清洗算法   总被引:2,自引:0,他引:2  
研究了在数据模式与匹配规则不变的前提下 ,数据集动态增加时近似重复记录的识别问题 ,提出了一种基于聚类树的增量式数据清洗算法IACT .该算法通过构建聚类树先对记录进行分区 ,然后在划分的区域内进行相似度的计算识别出近似重复记录 ,从而完成了增量式相似重复记录的检测 .实验结果证明了IACT算法在无损精度的情况下 ,在效率上优于多趟邻近排序 (MPN)算法 .  相似文献   

5.
基于RANSAC模型的机载LiDAR数据中建筑轮廓提取算法   总被引:1,自引:0,他引:1  
使用正交多项式分带滤波方法对机载LiDAR点云数据进行滤波处理,通过迭代不断剔除非地面高点数据,最终得到由贴近地面的数据拟合而成的正交多项式.通过设定高程阈值将数据分成地面部分与非地面部分.提出了一种基于随机抽样一致性(RANSAC)算法模型的建筑物面片识别和轮廓提取算法,实现在包含噪声的点云数据中快速准确地识别和提取建筑物轮廓.在实验中对长春市的机载LiDAR数据进行了滤波、建筑屋顶面及其轮廓的提取,验证了本文算法的较高效率和精度.  相似文献   

6.
为实现不同数据管理系统之间的互通,提出一种基于半监督学习算法的多源异构数据治理框架,并由此设计、实现和测试了一套非结构化数据与结构化数据的自动化对齐方法。利用命名实体识别(NER)技术,将非结构化数据转化为结构化数据,再分别利用基于字符串相似度的方法和基于监督学习的方法,对结构化数据进行模式匹配;通过半监督学习方法,在结构化数据与数据库记录实体之间进行实体匹配与融合;利用自然语言处理(NLP)技术及深度学习方法,对融合后的数据集进行缺失值填补。结果表明:在论文数据集和视频元数据集上进行对齐处理后,两者的F1值分别达到89.70%及96.50%;在不同属性上进行缺失值填补后,整体填补准确率达到78%以上,大大优于基线方法的准确率。  相似文献   

7.
提出一种基于数据段优先级分区重装策略PRS-DSP,其考虑数据特征及与之相关的事务特点,根据数据段优先级对数据库进行分区,并为每个分区设置相应重装频率,故障恢复时按照数据分区的重装频率来分区重装数据库,系统恢复服务后,根据新事务对数据的请求及数据分区重装频率来设置剩余分区的重装优先级。模拟实验结果表明,该分区重装策略降低了系统事务超截止期比率,其重装性能明显优于完全重装策略。  相似文献   

8.
针对复杂多源的非结构化数据,提出一种数据标准化方法,在抽取信息的同时,能将不同来源的数据转换为统一的表示形式.首先,对文本进行词性标注等预处理,提取出需要进一步识别类型的实体;其次,使用语言表征模型对文本信息进行向量表示;最后,通过基于注意力机制的卷积神经网络对抽取出的实体进行分类,以适应不同应用场景的分类标准.实验结果验证了该模型的有效性.  相似文献   

9.
针对当前云网络中大数据稳定评测算法存在数据冗余度高、传输颗粒度不明显、传输性能较差等难题,提出了一种基于线性超混沌评估机制的云网络大数据稳定评测算法。首先,基于传输成本具有的维度特性进行稳定建模,设计了多维资源片的方式进行传输质量评测;其次,将数据传输中的质量维度,如传输带宽、包冗余度等纳入传输评测口径,且采取拉普拉斯质量评测算法对传输过程中的维度耗费进行特征指数建模,实现了云网络中大数据传输中的稳定评测,且评估效率较高。仿真实验表明,线性超混沌评估机制能够有效改善大数据传输中的拥塞现象,网络传输性能稳定。所提算法可以准确、稳定地评测云网络运行质量,且成本代价较低,实现过程较为便捷。  相似文献   

10.
非字符数据在档案管理系统中的存储和访问   总被引:1,自引:0,他引:1  
针对档案管理系统对非字符型数据进行存储和访问的一些技术难题,本文首先讨论了对现有的纸质档案扫描采集,以及对电子格式文件直接入库,在数据库中对存储这些非字符文件数据的表和索引进行分区存储管理,以提高查询和操作大量非字符数据的系统性能.最后,采用基于Autovue的组件技术进行预览查看,保证了系统风格整体一致.  相似文献   

11.
由于云数据中心作为云应用服务的重要基础设施,在满足日益增长的用户需求的同时,也导致了云数据中心能耗的急剧上涨。为了降低能耗和提高云应用服务质量,文中通过全面考虑云数据中心的服务器和网络设备的能耗,兼顾网络带宽建立了云数据中心的能耗计算模型,提出了一种全新的以能耗优化为目标的云数据副本的布局算法,并通过GreenCloud验证了所提出的节能模型和算法的有效性。实验结果表明:文中提出的布局算法能有效地降低云数据中心的能耗和对网络带宽的消耗,从而提升了用户对云应用服务质量的满意度。  相似文献   

12.
能量有效的无线传感器网络数据收集协议   总被引:1,自引:1,他引:0  
针对无线传感器网络(wireless sensor networks,WSNs)中数据收集易丢失的特点,提出了一种能量有效的数据收集协议?该协议引入链路质量门限来构造骨干投递网,提高链路可靠性?在构造算法中分配的核结点和非核节点分别采用2种不同的时隙调度表来进行数据传输,该调度算法让暂时不参与数据传输的节点进入睡眠模式,降低节点能量消耗?协议采用管道投递(pipeline delivery)模式进行数据传输,避免传输过程中的互干扰?TOSSIM实验仿真表明,与CTP(collection tree protocol)协议相比,该协议在不计算睡眠调度算法获得的能量增益情况下,仍获得较好的传输开销和更高的能量利用率,减小了网络整体能耗?  相似文献   

13.
基于非结构化数据海量、异构、多元、内容丰富、不容易描述的特点,从海量异构数据特征模型角度,对非结构化数据的混合查询问题进行分析.重点论述非结构化数据特征建模的关键技术,可以有效地解决网络大数据背景下的数据检索效率,从整体上提高数据检索的速度和效率.  相似文献   

14.
普遍认为,大数据具有结构化、半结构化和非结构化数据等类型,以其容量大、类型多、高时效、低密度和难分辨等特征。该文通过对大数据含义分析,认为大数据时代用户对信息需求具有时效性、精确性、全面性和数据内容针对性。根据大数据时代信息特点和用户信息需求,提出通过建立个性化引擎、开展云搜索服务、进行云推荐与推送服务和建立个性化用户分析系统等方法,建立用户个性化服务模式。  相似文献   

15.
在推行火车票实行实名制的同时,由于旅客信息量过大,造成数据处理速度非常慢,如何才能将该速度提高到用户满意的程度,本文提出使用表分区技术来进行优化。文章在介绍表分区工作原理的基础上,提出使用范围和列表两种分区技术,并以虚拟实名制火车票销售表作为原始数据,分别进行常规表和分区表的查询测试,经范围分区和列表分区优化后的表比常规表查询效率分别提高了55%和42%。结果表明,在访问海量数据时使用表分区技术能有效组织数据、合理利用磁盘空间、降低管理数据的成本、缩短搜索时间,从而达到性能优化的目的。  相似文献   

16.
为了减少系统开销和降低网络负荷量,设计了节点-区域关联度感知的区域数据分发算法(RDAA-RP):首先,以时间片为周期持续记录和更新节点的区域属性;然后,计算节点对区域的权值并设置阈值作为数据转发限制条件;最后,根据权值控制不同程度关联度的节点参与完成区域数据的共享和交换.为验证RDAA-RP算法的效果,在The ONE平台进行了仿真实验,对比了在不同节点缓存大小和不同传输速度下,RDAA-RP算法、地图分区算法(SSMZ)和Epidemic算法的性能.仿真结果表明:(1)RDAA-RP算法能够在消息采集率与Epidemic算法及SSMZ算法基本相当的情况下,较大程度地降低网络负荷量,并降低消息平均缓存时间; (2)RDAA-RP算法可以有效屏蔽无关或低关联度节点数据带来的干扰,提供可靠的区域特定数据采集分发功能,实现关联节点数据共享的目标.  相似文献   

17.
大型分布式系统通常将系统内存储的数据复制到多个节点以减少数据访问的时间开销.然而,随着数据副本数量的增加,副本数据更新过程的写代价也随之增加.如何合理地选择数据副本的存储节点、控制副本数量,以平衡数据的读写开销,进而有效地降低系统总的数据访问代价是分布式存储的研究热点.针对这一问题,本文提出了一种基于遗传算法的数据复制方法来平衡数据的读写开销.具体地本文对遗传算法进行了以下两方面改进:(1)建立了一个综合考虑读写数据传输代价的评价函数,以控制遗传算法的收敛方向,搜索数据副本存放位置的最优或次优策略;(2)通过时间序列预测方法来启发式地指导染色体变异操作,以合理控制副本数量适应数据的读写访问趋势.实验表明,与传统方法相比,本方法能够更有效地降低数据访问的总时间代价.  相似文献   

18.
近年来,随着互联网技术的快速发展,无论是互联网企业还是传统的金融机构,用户量和业务处理数据量都在快速地增长.传统的通过增加服务器并采用基于分库分表的方法来解决扩展性问题,需要大量的人工维护成本和硬件开销.为降低开销和分库分表带来的各种问题,业界通常用新型数据库系统替换原有的系统,其中,基于日志结构合并树存储的数据库系统(如OceanBase)被广泛采用,这类系统磁盘上存储数据块呈现全局有序的特征.在从传统数据库切换到新型数据库过程中,需要将大量数据加载到新数据库系统中,长时间加载的过程中可能出现数据库节点宕机.为了减少总加载时间和故障恢复时间,提出了一种负载均衡且支持高效容错的数据加载方法;为了支持负载均衡的数据加载,与预确定分区划分数据的方法不同,考虑到目标系统默认存储块大小,采用通过基于文件大小和目标系统默认存储块大小预计算分区数目,并利用分库分表的数据导出往往已经排序的特点,采用选取部分采样块和等间隔选取样本的方式确定分区之间的切分点,避免了全局采样和随机或头部样本选取方式确定切分点带来的高开销;为了加快故障恢复速度,利用日志结构合并树存储系统的多备份减少故障恢复时的数据量,提出了基本副本局部故障恢复方式,避免了完全重新加载的故障恢复方式.实验结果表明,相比采用预确定分区数目和全局选取采样块的随机或头部选取样本方法,采用预计算分区数目和部分选取采样块的等间隔选取样本确定切分点的方法,提高了数据加载的性能,并且验证了基于副本局部故障恢复方法相比完全重启加载恢复方法的高效性.  相似文献   

19.
针对目前重复数据批量剔除方法中提升压缩比和降低数据开销之间的矛盾,提出一种物联网感知信息采集过程重复数据批量剔除方法.首先将物联网感知信息采集数据文件组织作为数据位图的排列形式,结合滑动分块算法对系列形式进行更新,以列的形式读取数据信息,组成新的数据块.然后计算不同数据之间的相似度,通过量子粒子群优化算法优化BP神经网络,组建重复数据批量剔除模型,通过模型完成重复数据剔除.最后进行性能测试,实验结果表明,所提方法能够有效提升平均压缩比,降低平均时间开销和重复数据批量剔除错误率.  相似文献   

20.
研究了如何利用查询和视图来解决半结构化数据查询重写问题.给出了一种OEM数据模型和一种半结构化数据查询重写算法.算法借用了半结构化数据查询重写桶算法的思想,解决了半结构化数据模型之下查询重写的一些新问题.理论分析表明,它降低了算法的代价.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号