首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
随着数据存储规模的海量增长,降低存储系统的总拥有成本,提高数据访问效率是海量数据分级存储系统的关键.在分析了两种典型的数据分级算法后,结合两种算法的优点对算法进行了改良,提出了基于数据访问频率和数据设备依赖度的自动分级算法,实验结果验证了算法的有效性和数据分级算法具有较高的准确率.  相似文献   

2.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.  相似文献   

3.
对多传感器多目标融合中的数据关联算法的研究及发展进行了回顾,指出了各个算法的适用范围及局限性,重点对概率数据关联算法及联合概率数据关联算法进行了分析;最后指出了数据关联算法的研究方向及将来的趋势。  相似文献   

4.
EM算法理论及其应用   总被引:3,自引:0,他引:3  
EM算法是一种迭代算法,主要用来计算后验分布的众数或极大似然估计,广泛地应用于缺损数据、截尾数据、成群数据、带有讨厌参数的数据等所谓的不完全数据的统计推断问题。在介绍EM算法的基础上,针对EM算法收敛速度慢的缺陷,具体讨论了加速EM算法:EMB算法和MEMB算法;针对EM算法计算的局限性,给出了EM算法的推广:GEM和MCEM算法。最后给出了EM的实值实例,结果精确。  相似文献   

5.
在已有嵌套数据挖掘算法的基础上,加人了数据区域挖掘算法,根据构造出的嵌套数据列表页的标签树,找出所有的数据区域,再对数据区域进行统一处理,对所有子树应用部分树对齐算法进行匹配,生成全局模式,进而抽取出所有数据记录.与原算法相比,改进后的算法在确保准确性的基础上,有效地提高了原算法在处理多数据区域时的效率.  相似文献   

6.
快速关联规则增量式更新算法充分利用以往挖掘过程中的结果,无需再次扫描原数据集,对新增数据集也只扫描一次,即可得到事务更新后的数据集的频繁项集。该算法避免了重新处理已经处理过的数据和多次扫描新增数据集,与其他相关算法相比,极大地减少了算法运行时间,提高了挖掘效率。随着历史数据集的增大,更加显现出本算法的优越性。本算法还可以用于解决由于数据集过大而导致的内存不够的Apriori算法的挖掘问题,相当于数据集分组挖掘。  相似文献   

7.
考虑加权排序的分类数据聚类算法   总被引:1,自引:0,他引:1  
针对部分聚类算法对数据输入顺序敏感的问题,定义了不干涉序列指数,提出了应用不干涉序列指数对分类数据进行加权排序的方法,并基于该方法对受数据输入顺序影响的CABOSFV C分类数据高效聚类算法进行改进,提出了考虑加权排序的聚类算法(CABOSFV CSW),消除了算法对数据输入顺序的敏感性.采用UCI基准数据集进行实验,发现应用加权升序排序的CABOSFV CSW算法在处理分类数据时,聚类质量较原始CABOSFV C算法和其他受数据输入顺序影响的算法在准确性上有改善,在稳定性上有显著提高.  相似文献   

8.
为了对轨迹大数据比较算法进行深入了解和研究, 介绍了各类轨迹比较算法, 并结合轨迹大数据的研究发展和应用背景, 对轨迹大数据比较算法进行较为全面和系统的综述。 随着轨迹大数据应用问题的不断凸显,轨迹大数据的研究需要结合目标需求, 深入研究轨迹数据比较算法的大数据计算、 算法智能性以及算法的效率和有效性等问题。  相似文献   

9.
随着通讯、互连网以及移动技术的发展,数据广播逐渐成为一种流行的数据传播方式。在结合了数据广播和传统的客户/服务器模式优点的基础上,产生了新的数据传播方式,基于需求的数据广播。设计基于需求的数据广播系统的关键在于广播调度算法。本文介绍了基于需求的数据广播的系统结构和性能衡量标准,并分析了基本的广播调度算法,抢占式调度算法以及实时调度算法。  相似文献   

10.
从差异性出发,研究了基于特征技术与数据技术的集成学习算法,深入分析了这些集成学习算法产生差异性的方法;针对决策树与神经网络模型在标准数据集对集成学习算法进行了实验研究,结果表明集成学习算法的性能依赖于数据集的特性以及产生差异性的方法等因素,并且基于数据的集成学习算法的性能优于基于特征集的集成学习算法的性能.  相似文献   

11.
在海量的动态数据流中发现有价值的知识,是数据挖掘技术研究的重要问题.研究数据流聚类,根据数据流的特点,提出了一种基于滑动窗口的一趟数据流挖掘的算法,对原有的一趟数据流聚类算法进行了改进,增强了一趟数据流聚类算法的扩展性,改进了数据流聚类的质量.  相似文献   

12.
为了构建传感器网络流数据的概要数据,给出了一种基于时间滑动窗口的自适应加权随机抽样算法:AWRS/BTSW算法.算法根据流数据的到达时间和变化情况,赋予流数据一定的键值,根据流数据的键值并结合skipping因子生成概要数据.在深海平台监测系统中,流数据变化不确定,算法可以根据数据的变化情况动态调整抽样方式,在数据变化不稳定的情况下,生成概要数据的准确性高;在数据变化稳定的情况下,生成概要数据的效率高.  相似文献   

13.
为了快速挖掘大规模空间数据的聚集特性,在cluster_dp密度聚类算法基础上,提出了一种基于弹性分布数据集的并行密度聚类方法 PClusterdp.首先,设计一种能平衡工作负载弹性分布数据集分区方法,根据数据在空间的分布情况,自动划分网格并分配数据,使得网格内数据量相对均衡,达到平衡运算节点负载的目的;接着,提出一种适用于并行计算的局部密度定义,并改进聚类中心的计算方式,解决了原始算法需要通过绘制决策图判断聚类中心对象的缺陷;最后,通过网格内及网格间聚簇合并等优化策略,实现了大规模空间数据的快速聚类处理.实验结果表明,借助Spark数据处理平台编程实现算法,本方法可以有效实现大规模空间数据的快速聚类,与传统的密度聚类方法相比具有较高的精确度与更好的系统处理性能.  相似文献   

14.
针对成分数据中含有近似零值,对其作对数比变换后就会出现无穷值,从而影响对数据的进一步分析.提出了一个新的修正EM算法来处理成分数据中的近似零值问题,针对EM算法的缺点对其进行一些改进,即:对EM算法的E步用Monte Carlo方法改进,对EM算法的M步用Lasso算法进行改进.对新的方法进行实证分析,并与基于线性回归的修正EM算法、基于均值插补法和Bootstrap的修正EM算法进行比较研究,验证了该方法的有效性.  相似文献   

15.
陶涛  毛伊敏 《科学技术与工程》2021,21(21):8989-8998
针对大数据背景下基于划分的聚类算法中存在参数寻优能力不佳、初始中心敏感、数据倾斜等问题,提出一种基于MapReduce和人工蜂群(artificial bee colony,ABC)算法的并行划分聚类(the partitioning-based clustering algorithm by using im-prove artificial bee colony based on MapReduce,MR-PBIABC)算法.首先,提出基于反向学习和聚类准则函数的初始化策略(backward learning and the clustering criterion function,BLCCF),提升人工蜂群算法搜索的解质量,并将ABC算法和人工鱼群(artificial fish colony,AFS)算法结合,提出改进人工蜂群(improve artificial bee colony,IABC)算法,通过利用AFS算法最优解能力较强的特性,来提高ABC算法的寻优能力;其次,根据改进的人工蜂群算法IABC获取初始聚类中心,提出相对熵策略(rela-tive entropy strategy,RES)衡量人工鱼间的距离,保证获得的初始聚类中心是最优人工鱼状态,从而有效避免了随机选取初始聚类中心,引起的初始中心敏感的问题;再次,设计数据均衡策略(data balancing strategy,DBS),通过动态收集节点负载并分配节点间的负载,解决了节点上数据倾斜的问题;最后,结合MapReduce计算模型,并行挖掘簇中心,生成最终聚类结果.实验结果表明,MR-PBIABC算法的聚类效果更佳,同时在大数据环境下,能有效地提高并行计算的效率.  相似文献   

16.
利用投影数据重排进行锥形束体积重建的改进算法   总被引:5,自引:0,他引:5  
针对锥顶轨迹为单圆的锥形束体积重建问题,提出了一种基于平板检测器的T-FDK算法.不同于传统的FDK算法,该算法首先将锥形束投影数据重排为倾斜平行投影数据,然后再经过加权滤波和反投影重建,最后重建出待测物体的三维结构.数据仿真实验结果表明,该算法在保持与传统FDK算法有相同的计算复杂度的同时,重建图像的质量有了明显的提高,可以确保在较大的锥角范围内获得满意的重建图像.因而该算法在医学成像和无损探伤等领域具有重要的实用价值.  相似文献   

17.
针对直流电动机驱动的轮式机器人,提出一种根据机器人轮子编码器读数辨识机器人驱动系统参数的算法,并与传统的根据速度输出来辨识机器人参数的方法进行了比较.仿真计算证明:根据编码器数据辨识有更好的精度及抗干扰能力.  相似文献   

18.
针对基于音乐作品信息的音乐作品个性化推荐及协同过滤方法的不足,通过分析音乐作品需求者的音乐试听数据及下载数据,并结合LDA(latent Dirichlet allocation)主题挖掘模型,提出一种基于LDA-MURE模型的推荐算法.实验结果表明,与基于音乐作品需求者的协同过滤算法和基于音乐属性项目的协同过滤算法相比,LDA-MURE算法可更高效地向音乐作品需求者推荐感兴趣的音乐作品.  相似文献   

19.
为了克服训练数据不足的问题,提出了一种新的方法——基于状态加权合成的连续高斯混合密度隐马尔可夫模型(continuous Gaussian mixture hidden Markov model,CGHMM)训练算法.首先对每一个待合并模型中的每个状态都选定一个权值,当对多个训练样本进行CGHMM参数重估时,每一次迭代过程都分别对每一个训练样本获取CGHMM参数,再使用仅仅取决于状态数的权值加以合并.最后,将此新算法应用于轴承故障诊断,并与经典CGHMM算法进行了比较.实验结果表明,新算法的诊断精度更高,输出概率更好,获得了更优的训练模板.  相似文献   

20.
基于概念层级和分层挖掘的非单调数据挖掘算法   总被引:1,自引:0,他引:1  
引入概念层级和采用分层挖掘处理数据挖掘中的非单调性,提出了结合粗糙集和概念层级的非单调规则挖掘算法,以及基于混合知识模型和分层挖掘的非单调数据挖掘算法,通过一故障诊断实例,阐明了该算法的原理,并介绍了基于遗传算法的模糊规则自动生成和故障诊断神经网的构造。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号