首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
在海量数据背景下,传统的基于单个计算节点的算法很难满足分析要求。考察了一种分布式贝叶斯估计方法,通过在每台机器上单独运行蒙特卡洛抽样并做加权平均可以有效地解决算法效率问题。将该方法应用于基于广义极值模型的二元响应变量回归分析,并探讨其实用性。模拟研究表明分布式算法比传统方法更有效。  相似文献   

2.
为了解决大规模数据的存储与计算,近年来分布式系统得到了大量的应用.如何在分布式系统中对大规模数据集进行排序是影响许多应用性能的基础问题,其中不仅涉及每个节点上排序算法的选择,更重要的是设计协调各节点的分布式算法.本文总结了分布式系统中常用的分布式排序算法,对每种算法的执行流程、代价模型和适用场景进行了分析,并通过实验对分析结果进行了验证.本文的工作可以帮助开发人员选择和优化分布式环境下大规模数据排序的算法.  相似文献   

3.
基于以往文献提出线性混合效应模型参数的三步估计方法,避免了繁杂的极大似然估计迭代步骤。同时为进一步解决海量数据下计算估计量时存在的存储瓶颈及计算时间过长问题,在海量纵向数据的两种不同数据格式下,分别基于三步估计方法利用分治算法计算模型参数的估计量。数值模拟和实证分析结果表明,本文所提出的三步估计方法和估计量的分治算法可以减轻计算负担,减少占用内存,解决内存不足的问题,并提高计算速度。  相似文献   

4.
针对组结构数据的隐私保护问题,通过随机响应机制,对原始数据进行扰动,开展满足差分隐私的分布式组变量选择研究。首先基于交替方向乘子法,提出了分布式Logistic组变量选择算法。进一步为了防止计算机信息交互过程中可能产生的隐私泄露,提出了分布式Logistic随机响应组变量选择算法,并证明算法满足差分隐私。实验表明,所提算法可有效处理组结构分类数据并保护其隐私。  相似文献   

5.
一种面向数据密集型计算环境的聚类算法   总被引:1,自引:0,他引:1  
针对数据密集型计算环境下数据具有海量、分布、异构、高速变化等特点,分析传统的基于密度的分布式聚类(Density Base Distributed Clustering,DBDC)算法,借助MapReduce编程模型,提出一种新的分布式聚类算法,采用局部和全局的方式处理海量、异构数据,解决具有以上特点的数据密集型计算环境下数据的分析挖掘问题。得出算法的复杂度为O((nlog2n)/p),实验验证在数据量与节点数变化时算法具有较高的稳定性和可伸缩性,与原算法对比该算法具有较高的准确度。  相似文献   

6.
针对分布式数据共享及计算中的隐私保护问题,提出了一种适用于大规模分布式环境的隐私保护计算模型(PPCMLS),该模型的核心为隐私安全模块,其将计算划分为本地计算和全局计算.通过综合运用同态加密、安全点积协议、数据随机扰乱算法等多种安全技术,在实现了多个节点在一个互不信任的分布式环境下合作计算的同时,任何节点无法获取其他节点的隐私信息及敏感中间计算结果.据此,又给出了基于该模型的分布式隐私保护方差计算、分布式隐私保护数据聚类算法.安全及动态性分析结果表明,该模型及其应用算法既可保证隐私数据的安全性,又避免了繁琐的一对多的交互加密过程,并在节点变化时,恢复计算仅涉及到变化的节点和构成隐私安全模块的3个节点,从而满足了大规模分布式环境所要求的高效性和良好的动态适应性.  相似文献   

7.
为了解决集中式聚类算法不能处理海量大数据的问题,提出基于Fisher判别确定置信半径的分布式聚类算法.应用网络上各个节点的计算、存储能力,以及网络的带宽,将聚类所需的时间复杂度和空间复杂度平摊到各个节点.通过应用Fisher线性判别找到节点在同一子类数据上的稠密和稀疏分布,从而快速确定聚类的置信半径并指导下一步的聚类过程,使得保持聚类精度的同时能提高分布式聚类的速度.对算法进行了数值模拟,并使用真实数据完成了试验.结果表明,所提出算法相比DFEKM聚类算法,能根据数据分布的不同在聚类结果和聚类速度上达到很好的平衡,这表明该算法具有更好的健壮性.  相似文献   

8.
离群点检测是数据挖掘领域研究的热点之一,主要目的是识别出数据集中异常但有价值的数据点. 随着数据规模不断扩大,使得处理海量数据的效率降低,随即引入分布式算法. 目前现有的分布式算法大都用于解决同构分布式的处理环境,但在实际应用中,由于参与分布式计算的处理机配置的差异,现有的分布式离群点检测算法不能很好地适用于异构分布式环境. 针对上述问题,本文提出一种面向异构分布式环境的离群点检测算法. 首先提出基于网格的动态数据划分方法(Gird-based Dynamic Data Partitioning,GDDP),充分利用各处理机的计算资源,同时根据数据点的空间位置信息进行数据划分,可有效减少网络通信. 其次基于GDDP算法,提出了异构分布式环境中并行的离群点检测算法(GDDP-based Outlier Detection Algorithm,GODA). 该算法包括2个阶段:在每个处理机本地,按照索引中数据点的顺序进行过滤,通过2次扫描得到离群点候选集;判断候选离群点需要进行网络通信的处理机,使用较低网络开销得出全局离群点. 最后,通过大量实验验证了本文提出的GDDP和GODA算法的有效性.  相似文献   

9.
为了实现对海量RDF数据的高效查询,研究RDF数据在分布式数据库HBase中的存储方法。基于MapReduce设计海量RDF数据的两阶段查询策略,将查询分为SPARQL预处理阶段与分布式查询执行阶段。SPARQL预处理阶段设计实现基于SPARQL变量关联度的查询划分算法JOVR,通过计算SPARQL查询语句中变量的关联度确定连接变量的连接顺序,根据连接变量将SPARQL子句连接操作划分到最小数量的MapReduce任务中;分布式查询执行阶段执行SPARQL预处理阶段划分的MapReduce任务,实现对海量RDF数据的并行查询。采用LUBM标准测试数据集对查询策略予以验证。研究结果表明:JOVR算法能够高效地实现对海量RDF数据的查询,并具有较强的稳定性与可扩展性。  相似文献   

10.
在面向计算部署到数据节点端执行的分布式并行环境下,提出一种基于图着色理论的适用于矢量空间数据的部署方法,将空间数据粒度的部署问题转化为图顶点着色的过程,提高了任意空间区域的信息查询效率.给出基于图着色理论的数据部署方法,并通过节点的任务量进一步改进算法,使得该算法可实现海量空间数据粒度的离散化部署,提高了空间数据检索和查询的并行化程度,充分利用了并行计算资源.  相似文献   

11.
Nutch的网页更新预测方法采用的是邻比法,相关更新参数需要人为设定,不能自适应调整,无法应对海量网页更新的差异性.为解决这个问题,提出动态选择策略对Nutch的网页更新预测方法进行改进.该策略在网页更新历史数据不足时,通过基于MapReduce的DBSCAN聚类算法来减少爬虫系统抓取网页数量,将样本网页的更新周期作为所属类其他网页的更新周期;在网页更新历史数据较多时,通过对网页更新历史数据进行泊松过程建模,较准确地预测每个网页的更新周期.最后在Hadoop分布式平台下对改进该策略测试.实验结果表明,优化后的网页更新预测方法表现更优.  相似文献   

12.
当处理分布式、大规模的服务选择时,传统服务选择方法存在着效率不高和全局Qo S性能低下的问题。基于Map Reduce框架,设计了一种云环境下的海量服务选择方法以解决此问题。首先,基于Map Reduce框架,利用Skyline算法,筛选海量候选服务,生成Skyline服务库;其次,基于迭代式Map Reduce框架,运用多目标模拟退火算法,从所生成的Skyline服务库中优选Skyline服务,产生一组Pareto最优的组合服务;最后,依据用户的个性化和多样性需求,执行Top-k查询,优选出满足用户偏好的k个组合服务。该方法适应于具有分布式环境、高维Qo S的海量服务选择,能快速返回组合服务,且其全局Qo S较优。  相似文献   

13.
Recent developments in cloud computing and big data have spurred the emergence of data-intensive applications for which massive scientific datasets are stored in globally distributed scientific data centers that have a high frequency of data access by scientists worldwide. Multiple associated data items distributed in different scientific data centers may be requested for one data processing task, and data placement decisions must respect the storage capacity limits of the scientific data centers. Therefore, the optimization of data access cost in the placement of data items in globally distributed scientific data centers has become an increasingly important goal.Existing data placement approaches for geo-distributed data items are insufficient because they either cannot cope with the cost incurred by the associated data access, or they overlook storage capacity limitations, which are a very practical constraint of scientific data centers. In this paper, inspired by applications in the field of high energy physics, we propose an integer-programming-based data placement model that addresses the above challenges as a Non-deterministic Polynomial-time(NP)-hard problem. In addition we use a Lagrangian relaxation based heuristics algorithm to obtain ideal data placement solutions. Our simulation results demonstrate that our algorithm is effective and significantly reduces overall data access cost.  相似文献   

14.
针对单一变量选择算法中模型分类精度和泛化能力较低的问题,提出一种混合变量选择算法.该算法分为两个阶段:过滤阶段,利用互信息快速排除一部分无关变量,降低样本空间的维数;封装阶段,在置换理论框架下,利用随机森林精选剩余变量.实验结果表明,该算法与对比算法相比具有更高的分类精度和泛化能力.  相似文献   

15.
将二次互信息(mutual information)用作模式分类问题中特征选择的准则,分析了该准则在再生核希尔伯特空间中的几何意义.在二次互信息准则基础上,提出了基于Parzen窗密度估计和后向删除策略的特征选择算法PW-QMI,同时针对大规模数据集的情况给出了基于高斯混合模型的算法GMM-QMI,以减小算法的计算复杂度.通过与相关度算法和SVM-RFE算法的实验比较,证明了该算法在特征选择问题上具有更为稳定的性能.  相似文献   

16.
针对Ada Boost算法训练分类器的特征具有大量冗余问题,提出了一种融合特征选择的Ada Boost集成算法.首先,使用一种特征选取方法,选择图像特征之间冗余度最小的特征,构造最优训练集;其次,采用Ada Boost算法训练分类器,构建分类模型;最后,使用分类模型实现待标注图像的自动标注.实验使用华盛顿大学用于图像自动标注的数据集,结果验证算法的有效性,并且相比其他传统算法,该算法具有更高的分类精度.  相似文献   

17.
为解决基础蚁群算法在求解车辆路径问题时出现收敛速度慢、易陷入局部最优解等问题,提出了一种改进蚁群算法.首先,引入节约矩阵更新选择概率公式引导蚂蚁搜索;其次,运用分段函数改进挥发因子,调整算法的收敛速度;再次,使用2-opt法,提高算法的局部搜索能力;最后,选取车辆路径问题国际通用数据集进行仿真,运用控制变量法找到信息素...  相似文献   

18.
基于集合划分的航速可变不定期船舶调度模型   总被引:1,自引:0,他引:1  
基于不定期船多货物、多船舶、多挂靠港口和多航线的运营组织特征,综合考虑船速对航次时间、航次成本的非线性影响,提出了不定期船舶调度的非线性网络规划模型,用于解决航速可变的船舶选线与调度规划问题.针对模型的结构特点,设计了基于集合划分方法的两阶段求解算法.通过案例计算验证了模型和算法的效果.计算结果表明:考虑船速可变,制定的船舶调度方案能使营运收益提高10%~25%.新建立的模型能够对船舶运行计划、货载选择、包运货物运输组织方式和船速等进行统筹规划,制定详细的船舶运行时刻表,为不定期船舶调度实务提供决策支持.  相似文献   

19.
针对传统故障诊断模型面向海量故障数据时诊断准确度低的问题,首先,提出了一种局部均值分解与固定点算法联合降噪方法,以消除轴承振动信号中的噪声;其次,为了避免原始信号中敏感特征难以提取的问题,提出了一种基于核主成分分析的降维方法;再次,构建了一种基于改进极端梯度提升决策树的故障诊断模型,采用GS-PSO算法优化SVM性能,进而运用改进极端梯度提升决策树思想修正分类模型的残差以提升模型分类精度,应用Spark-大数据平台,通过并行处理技术进行科学计算;最后,采用CWRU提供的滚动轴承数据进行训练与仿真,证明构建的模型能实现对不同类型滚动轴承的识别诊断,并保证诊断结果的准确率。通过对4种不同故障诊断模型的对比分析,表明本文模型具有可行性和优越性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号