首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
针对DBSCAN算法I/O开销和内存消耗大的缺陷,提出了基于层次合并的密度算法,基于密度的空间聚类算法可以有效地过滤噪声和孤立点数据,该算法在对于处理较大数据集上具有较大优势。  相似文献   

2.
针对DBSCAN算法性能上的瓶颈以及内存和I/O上的消耗严重,提出了一种大数据计算框架的并行聚类方案.选用Spark计算框架对DBSCAN算法进行并行化改进,利用SNN相似度图解决DBSCAN算法对高维数据密度定义模糊的问题,并且将DBSCAN算法运行在spark计算平台上,缓解了内存的不足.实验结果证明,该解决方案相对于单机的DBSCAN算法,聚类精度没有下降,并且通过横向的添加节点增加了运行内存,在缓解内存紧张的前提下降低了算法运行时间,和基于Hadoop的DBSCAN算法相比也有较好的加速比.  相似文献   

3.
针对关联规则中的Apriori算法进行研究,提出了Apriori—B新算法,此算法只需要对交易数据库进行1次搜索,能大量减少I/O次数,且内存开销适中,提高了数据挖掘的效率,具有一定的实用性。  相似文献   

4.
关联规则发现的一种改进算法   总被引:7,自引:0,他引:7  
在Apriori算法基础上,给出一个改进的关联规则发现算法·由于这个算法只需对交易数据库进行一次搜索,能大量减少所需的I/O次数,且内存开销适中,因此同其他关联规则发现算法相比具有快速的优点,适合于大型交易数据库·使用合成数据作试验表明这个算法尤其对大型数据库的性能优于先前已有的一些关联规则算法·  相似文献   

5.
针对现有多媒体云存储系统单节点修复算法中,有限域大,编解码复杂度高,磁盘I/O开销大,存储开销与修复带宽开销不均衡等问题,基于网络编码提出一种多媒体云存储系统单节点修复算法.该算法将系统中节点已分组的多媒体文件数据进行分组存储,并将组内数据在GF(2)有限域上进行异或编码,当部分节点失效时,新生节点只要连接同组中2~3个未失效节点即可精确修复失效节点中的数据.理论分析与仿真实验结果表明:该算法可减小编解码与修复的复杂度,降低磁盘I/O开销;在相同条件下,该算法存储开销与基于最小存储再生码(minimum storage regeneration codes,MSR)算法的存储开销一致,而修复带宽开销与最小带宽再生码(minimum bandwidth regeneration codes,MBR)算法接近.  相似文献   

6.
在笔者之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(H-MR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于MapReduce的K-近邻(MR-K-NN)所用的运行时间.然而,用MapReduce处理大数据时,需要从磁盘读取数据,再将中间结果写回磁盘,导致系统的I/O开销极大,这大大降低了MapReduce的效率.与MapReduce不同,Spark是一种基于内存的计算框架,它将数据第1次从磁盘读入内存,生成一种抽象的内存对象RDD(resilient distributed datasets).此后,Spark只操作内存中的RDD,计算过程只涉及内存读写,因此大幅提升了数据处理效率.基于这一事实,对算法H-MR-K-NN进行了改进,提出了一种改进的算法(简记为H-Spark-K-NN),可以进一步提高大数据K-近邻分类的运行效率.  相似文献   

7.
在内存数据库中,由于内存的易失性使得数据库的恢复较为复杂,而恢复过程涉及到I/O操作,对系统的整体性能影响很大.文章提出了一个基于日志服务器的内存数据库恢复系统,日志服务器能有效地减少内存数据库记录日志和检查点的开销;给出了系统的整体结构、日志记录过程和恢复算法;并对一些关键技术,如脏页缓冲、检查点等进行了详细分析.  相似文献   

8.
在流分类算法中,聚合位向量(ABV)算法分类速度快、并行性好,但内存开销过大;位向量折叠(AFBV)算法对ABV算法进行了改进,降低了运行时内存的消耗,但其冗余计算增加了时间开销。针对上述不足,文章提出一种改进的位向量流分类算法,该算法无需进行位向量聚合,减少了内存开销,并按规则的源/目的IP地址前缀建立分组表,根据表中分组所包含IP地址数目降序排列,使得算法具有良好的时间性能。实验结果表明,本算法在大规模规则库下具有良好的时间和空间效率。  相似文献   

9.
聚类算法是数据挖掘领域中一个非常重要的研究方向.至今为止人们已经提出了许多适用于大规模的、高维的数据库的聚类算法.基于密度的聚类算法是其中一个比较典型的研究方向,文中以DBSCAN为基础,提出一种基于密度的网格动态聚类算法.新算法将网格的原理运用到基于密度的聚类算法中,并采用了动态的参数法,能自动根据数据的分布情况进行必要的参数更改,有效减少DBSCAN对初始参数的敏感度,从而提高了聚类的效率和效果,降低了算法I/O的开销.算法不仅能挖掘出各种形状的聚类,并能准确的挖掘出数据集中突出的聚类.  相似文献   

10.
DBSCAN算法是一种基于密度的空间数据聚类方法, 聚类速度快, 且能够有效处理噪声点和发现任意形状的空间聚类.但是数据量大时要求较大的内存支持和IO消耗, 当空间聚类的密度不均匀,聚类间距离相差很大时, 聚类质量较差.本文在DBSCAN算法的基础上提出一个划分不同密度分别聚类的算法.测试结果表明可以改善聚类效果.  相似文献   

11.
考虑到实验数据的大规模及样本数据形状的复杂性等特点,提出一种基于分级聚类与DBSCAN聚类相结合的HL-DBSCAN聚类算法,避免了DBSCAN的聚类算法较大的时间复杂度,适用性更广,更能体现一个聚簇的规律,提高分类精度.通过实验与结果分析,取得较好的聚类结果,证明了该算法在文本聚类处理中的可行性.  相似文献   

12.
考虑对象方向关系的密度聚类算法   总被引:2,自引:0,他引:2  
 聚类分析是数据挖掘的一个重要研究方向.为了在大规模空间数据库中发现任意形状的聚类,Martin Ester等提出基于密度的聚类算法DBSCAN.针对DBSCAN处理聚类边界对象的不足,提出了聚类时考虑对象方向关系的改进算法,实验表明,改进算法在不改变时间、空间复杂度的情况下能得到更好的聚类结果.  相似文献   

13.
当数据的密度有变化时,密度聚类算法DBSCAN不能一次发现多种密度的簇结构,通常需要调整参数,而合适参数的确定比较困难.提出了一种两阶段的密度聚类算法以识别精子图像,算法采用相同的参数完成对不同密度簇的发现.首先对原始数据图像采用初步的预处理技术,调用DBSCAN算法得到精子头部簇,然后对其余图像部分进行增强,以精子头部为核心点集合,再次调用DBSCAN算法得出密度可达的簇,从而完成精子图像的识别.实验证明对精子图像识别的准确率、效率、效果均优于传统密度聚类方法,为医生诊断病情提供有效的数据支持.  相似文献   

14.
一种改进的基于密度的DBSCAN聚类算法   总被引:1,自引:0,他引:1  
主要讨论数据挖掘领域中一种基于密度的DBSCAN聚类算法,并对算法进行改进。利用取样技术缩小数据库的规模,减少算法的运行时间。利用遗传算法对聚类结果进行优化,保证聚类的质量。给出了一种基于取样的DBSCAN算法及其遗传优化。最后实验证明了算法的有效性。  相似文献   

15.
Clustering, in data mining, is a useful technique for discovering interesting data distributions and patterns in the underlying data, and has many application fields, such as statistical data analysis, pattern recognition, image processing, and etc. We combine sampling technique with DBSCAN algorithm to cluster large spatial databases, and two sampling-based DBSCAN (SDBSCAN) algorithms are developed. One algorithm introduces sampling technique inside DBSCAN, and the other uses sampling procedure outside DBSCAN. Experimental results demonstrate that our algorithms are effective and efficient in clustering largescale spatial databases.  相似文献   

16.
为了在激烈的市场竞争中取胜,电信企业意识到必须将客户分类,针对不同的客户研究相应的营销策略,DBSCAN算法能够实现客户分类,但对初始参数E和MinPts的取值非常敏感,不同的取值将产生不同的聚类结果,通过对DBSCAN算法进行改进,实现了更加准确和全面的客户分类。  相似文献   

17.
直接对三坐标航管一次雷达点迹录取器中录取到的点迹进行航迹起始、跟踪等处理后,会形成大量虚警,运算量大。进行目标跟踪时,候选点迹集合数量庞大是造成目标跟踪过程运算量大的主要原因。文中基于动态自适应DBSCAN聚类算法,结合经典卡尔曼滤波跟踪算法,提出了动态自适应DBSCAN聚类跟踪混合算法,来减少候选点迹集合数量。实验结果证明,本文提出的算法实现了无效点迹数的减少、航迹质量的提高以及运算时间的下降。通过动态自适应DBSCAN聚类跟踪混合算法,能迅速跟踪到三坐标航管一次雷达探测到的目标并形成目标航迹,可以及时发现黑飞目标,将对正常民航飞机飞行的干扰降到最低。  相似文献   

18.
DBSCAN方法是一种典型的基于密度的聚类算法,因此该方法具有可以发现任意形状的类的特点,但其聚类的效率并不是很高.如果考虑将传统的网格技术引入到DBSCAN聚类算法中,虽然一定程度上会提高聚类的效率,但其聚类的质量显得较为粗糙.文章通过引入自适应网格技术,使得DBSCAN聚类算法的效率和质量都有所提高.对比数值实验表明,基于自适应网格的DBSCAN聚类算法的聚类效果是良好的.  相似文献   

19.
摘要 行人检测过程中原始DBSCAN算法不能正确地对密度不均匀的激光点云聚类,产生错误的聚类结果导致行人检测系统出现误检和漏检。为解决这一问题,基于激光雷达的行人检测系统在原始密度聚类算法DBSCAN的基础上提出了分区DBSCAN算法。该算法将密度不均匀的点云数据划分为若干个密度相对均匀的分区,从而能实现对行人的快速准确检测。实验结果表明原始DBSCAN算法行人检测率为62.47%,使用分区DBSCAN算法的激光雷达行人检测系统行人检测率达到82.21%,相对于原始DBSCAN算法检测精度提高了19.74%;而且在时间消耗上也比原始DBSCAN算法降低了16.22%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号