首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 328 毫秒
1.
鸡尾酒算法是一种基于双向遍历的排序算法,相比于传统的冒泡排序算法在排序效率上有一定的提高,但仍存在大量的重复数据比较以及对初始输入序列随机度过于敏感等问题.针对上述问题,引入了一种鸡尾酒排序算法的改进算法(Trigger-Conditional Cocktail Sort Algorithm,简称T-CCS).通过记录排序过程中每次发生数据交换的位置来缩小遍历区间,并以发生数据交换作为分段逆向遍历的启动条件,减少重复的数据比较.实验结果表明,T-CCS算法在不同规模输入数据的排序处理中均有较好表现,其排序效率相比于原算法提高了20%;同时,该算法受初始输入序列随机度的影响也相对低于传统的鸡尾酒排序算法.  相似文献   

2.
对快速增长的数据进行挖掘的有效途径之一是采用增量式更新算法,其中最具代表性的是MRFUP算法。该算法的剪枝策略减少了关联规则的计算,但在处理增长快速的数据时效率过低,且频繁计算新增数据。文章以提高海量数据下关联规则增量更新效率为目标,通过扩展能够并行处理关联规则的PFP算法而提出一种基于PFP的关联规则增量更新算法MRPFP。该算法能充分利用云平台强大的存储和并行计算能力。该算法的实验结果表明,MRPFP处理海量数据的效率优于MRFUP算法,更适用于海量数据的关联规则挖掘。  相似文献   

3.
本文在研究元搜索引擎及排序算法的基础上,提出了一种基于元搜索引擎的加权Borda排序算法,该算法通过权重信息来推荐成员搜索引擎,为元搜索引擎在海量数据搜索中提高查全率和查准率提供帮助。  相似文献   

4.
为了提高异常检测算法在高维数据上的性能,提出了一种基于稀疏表征的孤立点检测(ODSR)方法.将实例表征为其他实例的稀疏线性组合,得到所有实例的近邻关系矩阵,并使用基于图谱理论的谱聚类方法识别异常点.该方法具有自动选择近邻的优势,能有效地得到近邻关系,并解决传统近邻算法中的k值选择困难问题.将ODSR与6种流行的异常检测算法在11个真实数据集上进行了综合实验比较,结果表明ODSR的复杂度及曲线下面积(AUC)值及稳定性更高.  相似文献   

5.
在云计算技术领域中,MapReduce能够帮助人们快速处理海量数据,因此在学术界以及工业界越来越受到重视。但是MapReduce在处理以文本为中心的应用时,中间结果中数据重复较多。针对该情况,已有的高频率缓冲(frequency buffering,FB)算法提出在环形内存缓冲之前添加哈希表,并将高频率键存储在哈希表中。该算法通过采样来实现,有额外开销并且统计出的高频率键并不一定准确。该文提出一种基于动态获取高频率键的MapReduce性能优化算法,通过在环形内存缓冲之前增加计数Bloom过滤器(counting Bloom filter,CBF)和哈希表,将高频率键动态地存储在哈希表中。该算法获得的高频率键更准确,同时大大减少了数据排序和磁盘I/O的开销。实际测试结果表明:该算法明显提高了作业的执行速度,比原始MapReduce提高17.04%,比FB算法提高9.31%。  相似文献   

6.
为了解决余弦相似度算法进行数据清洗时重复与相似的数据会使计算量呈几何级增长的问题,提出了基于N-Gram和动态滑动窗口的改进余弦相似度算法.首先通过计算每条数据的N-Gram值,并对数据进行相似度排序,然后定义初始滑动窗口,其窗口值根据N-Gram值的方差动态调整,最后在每个窗口中根据相似度与阀值判断相似数据.实验结果表明,改进的余弦相似度算法在运行速度上有大幅度提高,数据清洗准确率也得到提升,且该算法适用于海量数据的情形.  相似文献   

7.
为了解决入侵检测模型中海量数据处理问题,降低计算复杂度,提高检测精度,提出基于最小规则自组织映射的入侵检测算法;通过在真实的入侵检测数据集上进行仿真实验,将该算法与普通椭圆补丁算法、简单矩形补丁算法以及决策树算法进行对比。结果表明,该算法在检测精度、稳定性和计算时间方面优于对比算法,验证了该算法的有效性。  相似文献   

8.
为减少软件更新中增量包的大小,提出了基于动态字典的增量更新算法DICDIFF。该算法使用后缀排序方法预处理新老版本文件,将预处理的结果以后缀数组和名次数组的形式存储为字典目录,基于该字典目录能够快速查找字典数据集与待编码数据之间的相同数据段。随着编码进度的推进,动态扩展字典数据集能够使用更多已知数据段用于构造待编码数据。通过选取多款软件的新旧版本作为实验样本,DICDIFF在平均情况下能够节省68.9%的网络流量,高于现有其他增量更新算法。实验结果表明,该算法能够进一步减少增量更新过程中的网络流量。  相似文献   

9.
为提高点云数据三维建模及其应用的效率,在保证几何特征不变的前提下,进行数据压缩显得必要而迫切。针对地面三维激光扫描获得的点云数据密度大、冗余信息多,现有压缩算法存在不足的问题,在分析研究现有算法的基础上,将坐标增量法中一维扫描线点云数据逐点压缩扩展到二维扫描线与扫描线间点云数据的压缩,提出了改进坐标增量的点云数据精简压缩算法。并通过实例,借助Matlab平台编程,将该算法的压缩效果与坐标增量法、随机采样法、区域重心法和曲率采样法等现有典型算法的压缩效果进行定性和定量比较发现,对于按行或按列扫描的平面或曲面点云数据,该算法所用的时间较短,速度适中,且能很好的保留特征信息,具有较好的精简压缩效果,为大数据时代下海量点云数据的存储与管理提供了一定的参考。  相似文献   

10.
分布式智能人侵检测系统模型设计与实现   总被引:1,自引:0,他引:1  
设计了一种分布式网络智能入侵检测系统模型。在该模型中采用了面向混合类型数据的快速聚类算法和基于属性约束的规则挖掘算法,对每一个IDS初始数据进行智能分类和关联;并且建立了入侵模式库,用于不同网段的实时检测;在数据融合中心采用基于D-S证据理论的数据融合方法处理来自不同IDS的初级报警,并生成高级报警,有效地抑制了海量警报。实验结果表明,该设计方案能够消除重复报警,降低误报率,提高报警所含的信息量,并为管理员提供一个网络安全的整体视图。  相似文献   

11.
提出一种基于样点拓扑近邻的散乱点云曲面拓扑重建算法,对点云数据构建动态空间索引结构,采用动态扩展空心球算法查询样点k近邻,通过对样点的k近邻数据进行偏心扩展和自适应扩展获取样点的拓扑近邻参考数据,从中查询样点的拓扑近邻,从样点的同层拓扑近邻中获取符合Delaunay条件的匹配点,生成局部Delaunay三角网格,并通过增量扩展实现整个散乱点云的曲面拓扑重建.实例证明,该算法可对无隙、有边界等任意模型的散乱点云进行合理的曲面拓扑重建,有效解决了r-dense恰当采样点云中非均匀区域易产生非工艺孔洞的问题.  相似文献   

12.
为了分析当前高维数据中各类异常点检测算法的性能,采用8个典型数据集,对10种代表性算法在这些数据集上进行了详细的实验分析,给出了不同算法在算法精度、ROC曲线面积及运行时间上的分析比较.实验结果表明:受到数据集分布及属性相关性的影响,同一算法在不同数据集上的效果有很大差异性,基于近邻排序的算法在各个数据集中的结果相对稳定,但其结果受k值的影响较大;和其他算法相比,基于集成的算法效果较好,但用于集成的有效算法选择较为困难.  相似文献   

13.
互联网的发展带动了电商等应用的普及,产生了大量具有临时匹配性质的服务。这些服务需要考虑任务的类型与人员具备技能的匹配,同时最小化匹配对象间的路程开销。针对以上实际需求,提出了空间关键字任务匹配问题,给定具有空间位置及关键字的任务集与成员集,在所有任务均可完成的前提下,使所有匹配的任务与成员的距离之和最小。所提出的问题考虑了任务由不同的关键字表示,由于任务和成员数量的海量性及关键字的多样性使得高效求解高质量的匹配结果成为挑战。该文提出了k近邻增量优化策略,引入关键字设计了k近邻空间关键字任务匹配算法,提高了任务匹配质量;提出了基于空间划分的分组优化匹配算法,以适应海量数据的任务匹配情况。针对真实数据集进行了充分测试,验证了算法的有效性。  相似文献   

14.
对相似重复记录的检测是数据预处理中的关键环节。针对海量数据相似重复记录检测过程中,记录属性维度过高导致的查准率和时间效率较低的问题,提出了基于统一互信息的关键属性组查找算法,通过过滤噪音属性,降低属性维度,达到准确检测相似重复记录和提高时间效率的目的。最后,在真实数据集上通过对该算法和基于原始数据所有属性的相似重复记录检测算法在准确率和效率方面的比较,验证了所提出算法的有效性。  相似文献   

15.
设计了一种分布式网络智能入侵检测系统模型.在该模型中采用了面向混合类型数据的快速聚类算法和基于属性约束的规则挖掘算法,对每一个IDS初始数据进行智能分类和关联;并且建立了入侵模式库,用于不同网段的实时检测;在数据融合中心采用基于D-S证据理论的数据融合方法处理来自不同IDS的初级报警,并生成高级报警,有效地抑制了海量警报.实验结果表明,该设计方案能够消除重复报警,降低误报率,提高报警所含的信息量,并为管理员提供一个网络安全的整体视图.  相似文献   

16.
FTP服务器是数据挖掘过程中重要的数据存储源.目前存在的文件下载策略在下载增量文件时有较多的局限性,具有无法自动判断增量文件以及文件重复下载等问题,从而使得增量文件下载效率较低.通过对文件下载算法的研究,提出并实现了一种新的自适应FTP服务器增量文件下载算法,进行了算法通用性、自适应网络环境的断点续传、下载速率的优化等方面的研究,并进行了算法的下载实验分析,完成了文件下载速率优化的比较.实验结果表明,新算法能够自动搜索FTP服务器增量文件,能自适应网络环境实现文件快速下载,在大数据量的FTP数据源中提高了增量文件的下载效率.  相似文献   

17.
大数据时代带来数据处理模式的变革,依托Hadoop分布式编程框架处理大数据问题是当前该领域的研究热点之一。为解决海量数据挖掘中的分类问题,提出基于一种双度量中心索引KNN分类算法。该算法在针对存在类别域的交叉或重叠较多的大数据,先对训练集进行中心点的确定,通过计算分类集与训练集中心点的欧式距离,确定最相似的3个类别,然后以余弦距离为度量,通过索引选择找出K个近邻点,经过MapReduce编程框架对KNN并行计算加以实现。最后在UCI数据库进行比较验证,结果表明提出的并行化改进算法在准确率略有提高的基础上,运算效率得到了极大提高。  相似文献   

18.
当今时代,云计算与大数据越来越被人们所重视.算法的时间复杂度作为评估算法性能的最重要的因素之一,亟需得到改善和提高.而排序算法的优劣直接影响算法的运行速度.为了减少大数据和云计算算法的排序时间,提高排序算法运行的效率,对插入排序算法进行了优化.分别从随机获取无序区元素、分组、增量和设立标志位等方面进行优化,有效降低了插入排序算法的时间复杂度.实验结果表明,改进后的排序算法在排序效率上得到了很大提高.  相似文献   

19.
反求工程中测量所得的三维数据一般是海量和无序的,为了提高重构的计算速度,减少存储空间,同时突出建模特征,在分析了常用数据精简方法的基础上提出了利用三角网格模型,以排序函数为依据简化数据的一种三角形折叠算法.该算法先以估算曲率的大小对欲精简数据进行划分,然后对各个区域的三角面构造可调加权排序函数.以排序函数为依据由小到大进行三角形折叠,算法以到相关三角平面距离最短的点作为新点来代替被折叠的三角面,以精简前后区域内的顶点法矢标准偏差和排序函数阀值对精简进行控制.试验表明,此算法排序函数构造简单,计算方便,对较光滑的模型数据处理是有效的.  相似文献   

20.
对相似重复记录的检测是数据预处理中的关键环节。针对海量数据相似重复记录检测过程中,记录属性维度过高导致的查准率和时间效率较低的问题,提出了基于统一互信息的关键属性组查找算法,通过过滤噪声属性,降低属性维度。最后,在真实数据集上通过对该算法和基于原始数据所有属性的相似重复记录检测算法在准确率和效率方面的比较,验证了所提出算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号