首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对待聚类的数据对象的对称性,提出了一种基于对称点距离的蚂蚁聚类算法.该算法不再采用Euclidean距离来计算类内对象的相似性,而是使用新的对称点距离来计算相似性.实验结果表明:与标准的蚂蚁聚类算法相比,该算法在处理带有对称性质的数据集时,可以更好的识别数据集的聚类数目和划分.  相似文献   

2.
针对目前的图聚类分析方法存在的不足,在分析研究MapReduce架构理论、最小哈希算法以及图聚类分析中的数据抽样和稀疏化处理机制的基础上,提出了一种基于并行计算的高效的图稀疏化处理算法。该方法以MapReduce架构理论为基础,通过Minhash算法进行并行化分析,利用MapReduce框架结构对图聚类分析稀疏化操作过程中的多个任务进行了高效的推算分析与处理,并在Hadoop计算环境下,通过模拟实验对提出的高效图稀疏化处理算法的性能进行了测试。测试结果表明:基于并行计算的高效图稀疏化处理算法可行,能对图聚类数据信息进行快速稀疏化处理。  相似文献   

3.
谱聚类算法建立在谱图划分理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。然而,谱聚类算法涉及如何选取合适的尺度参数σ构造相似度矩阵的问题。并且,在处理大规模数据集时,聚类的过程需要较大的时间和内存开销。研究从构造相似度矩阵入手,以传统NJW算法为基础,提出一种基于K近邻的自适应谱聚类快速算法FA-SC。该算法能自动确定尺度参数σ;同时,对输入数据集分块处理,并用基于K近邻的稀疏相似度矩阵保存样本信息,减少计算的内存开销,提高了运行速度。通过实验,与传统谱聚类算法比较,FA-SC算法在人工数据集和UCI数据集上能够取得更好的聚类效果。  相似文献   

4.
针对目前重复数据批量剔除方法中提升压缩比和降低数据开销之间的矛盾,提出一种物联网感知信息采集过程重复数据批量剔除方法.首先将物联网感知信息采集数据文件组织作为数据位图的排列形式,结合滑动分块算法对系列形式进行更新,以列的形式读取数据信息,组成新的数据块.然后计算不同数据之间的相似度,通过量子粒子群优化算法优化BP神经网络,组建重复数据批量剔除模型,通过模型完成重复数据剔除.最后进行性能测试,实验结果表明,所提方法能够有效提升平均压缩比,降低平均时间开销和重复数据批量剔除错误率.  相似文献   

5.
借助于近似极大值函数的凝聚函数,将传统数据聚类问题转化为无约束优化问题求解.首先利用一阶必要条件,推导出数值属性下数据聚共中心的计算格式;其次采用类属性分解方法,提出计算类属性数据对象之间距离的新方法,井在此基础上给出混合属性下数据聚类中心的计算格式和一个能处理数值型和分类型混合数据集的凝聚聚类算法;最后选取不同初始聚类中心,使用凝聚聚类算法对英语借词进行了聚类实验和分析.结果表明,凝聚聚类算法在计算效率和计算效果方面均优于模糊k-prototypes聚类算法.  相似文献   

6.
在云计算技术领域中,MapReduce能够帮助人们快速处理海量数据,因此在学术界以及工业界越来越受到重视。但是MapReduce在处理以文本为中心的应用时,中间结果中数据重复较多。针对该情况,已有的高频率缓冲(frequency buffering,FB)算法提出在环形内存缓冲之前添加哈希表,并将高频率键存储在哈希表中。该算法通过采样来实现,有额外开销并且统计出的高频率键并不一定准确。该文提出一种基于动态获取高频率键的MapReduce性能优化算法,通过在环形内存缓冲之前增加计数Bloom过滤器(counting Bloom filter,CBF)和哈希表,将高频率键动态地存储在哈希表中。该算法获得的高频率键更准确,同时大大减少了数据排序和磁盘I/O的开销。实际测试结果表明:该算法明显提高了作业的执行速度,比原始MapReduce提高17.04%,比FB算法提高9.31%。  相似文献   

7.
采用视觉词袋模型表示图像,以快速检测空间上部分重合图像对的最小哈希算法为基础,提出一种对局部重合图像聚类即数据挖掘的方法,能够找到类种子的概率随着类别中图像数目的增长显著增加.对聚类的结果进行空间上的验证,并在大小分别为104、105以及5×106的图像数据集上对该算法的效果进行测试.算法的速度依赖于数据集中图像的数目和数据集中类别的数目,类种子生成的时间复杂度线性相关于数据集大小.  相似文献   

8.
提出一种基于语义关联性特征融合的大数据挖掘算法.对云存储大数据分布式信息流进行高维相空间重构,在重构的相空间中提取大数据的语义关联维特征量,以提取的特征量为测试集进行自适应学习训练.采用模糊C均值算法进行大数据语义关联特征的稀疏性融合和聚类处理,在聚类中心实现对挖掘目标数据的指向性聚敛,输出数据挖掘结果,并采用特征压缩器进行降维处理,降低计算开销.仿真结果表明,采用该方法进行大数据挖掘的特征提取准确性较好,挖掘数据的聚类能力较强,在实时性和准确性方面具有优势.  相似文献   

9.
数据挖掘中一种高效的聚类通用框架研究   总被引:1,自引:1,他引:0  
随着传感器和互联网技术高速发展,数据集的规模激增,但系统的存储和处理能力仍然滞后。针对目前的数据聚类算法所需的测量值数目较多、时间开销大的不足,为了高效地解决大型数据集中的数据聚类问题,提出了一种主动式分层聚类通用框架,通过在小型数据集上重复运行离线聚类算法,既保证了算法性能,又降低了测量值计算复杂度和运行时间复杂度。然后,基于谱聚类算法讨论了本文框架,理论分析结果表明,利用O(n lg2n)个相似性数据可以恢复规模为Ω(lgn)的所有聚类,对包含n个对象的数据集,其运行时间为O(n lg3n)。最后,通过全面的仿真实验,证明了所提框架的其他优异性能。  相似文献   

10.
讨论了神经网络在河网水流数值模拟中的运用现状,并基于河网水流数值计算模拟的特点,将径向基函数神经网络方法应用于复杂河网水流.模型采用混合学习算法,选用高斯核函数作为隐藏层基函数,充分发挥其表示形武筒单、径向对称、光滑性好和解析性好的优势,并采用k-均值聚类算法来确定径向基函数的参数,运用最小二乘法求解权值.建立了珠江三角洲河网的洪水预报模型,计算表明,预测结果与实测数据吻合较好,该模型具有运算速度快、简便易用且预报精度较高等特点.  相似文献   

11.
提出了一个基于最小完美哈希函数的关联规则的数据挖掘算法.基于Apriori 的算法,在综合了传统哈希剪枝技术的同时,利用最小完美哈希函数的优点,保证了静态数据库关联规则挖掘,可以对关联规则的哈希结构数据进行动态的调整.该算法提高了挖掘效率,通过抑制哈希地址冲突提高了算法的稳定性和可用性.  相似文献   

12.
传统的K-means算法通过不断的重复计算来完成聚类,聚类中心点的不断变化产生的一些动态变化信息将对聚类产生一定的干扰,且当数据量过大时,算法的时间开销和系统的I/O开销将大大增加,这严重影响了算法的性能。为此,论文提出一种改进的K-means动态聚类算法,该算法充分考虑了K-means聚类过程中信息的动态变化,通过为算法的终止条件设定标准值,来减少算法迭代次数,减少学习时间;通过删除由信息动态变化而产生的冗余信息,来减少动态聚类过程中的干扰,使算法达到更准确更高效的聚类效果。实验结果表明,当数据量较大时,相比于传统的K-means算法,改进后的K-means算法较在准确率和执行效率上都有较大的提升。
  相似文献   

13.
针对现有多媒体云存储系统单节点修复算法中,有限域大,编解码复杂度高,磁盘I/O开销大,存储开销与修复带宽开销不均衡等问题,基于网络编码提出一种多媒体云存储系统单节点修复算法.该算法将系统中节点已分组的多媒体文件数据进行分组存储,并将组内数据在GF(2)有限域上进行异或编码,当部分节点失效时,新生节点只要连接同组中2~3个未失效节点即可精确修复失效节点中的数据.理论分析与仿真实验结果表明:该算法可减小编解码与修复的复杂度,降低磁盘I/O开销;在相同条件下,该算法存储开销与基于最小存储再生码(minimum storage regeneration codes,MSR)算法的存储开销一致,而修复带宽开销与最小带宽再生码(minimum bandwidth regeneration codes,MBR)算法接近.  相似文献   

14.
传统的K-means算法通过不断的重复计算来完成聚类,聚类中心点的不断变化产生的一些动态变化信息将对聚类产生一定的干扰,且当数据量过大时,算法的时间开销和系统的I/O开销将大大增加,这严重影响了算法的性能。为此,论文提出一种改进的K-means动态聚类算法,该算法充分考虑了K-means聚类过程中信息的动态变化,通过为算法的终止条件设定标准值,来减少算法迭代次数,减少学习时间;通过删除由信息动态变化而产生的冗余信息,来减少动态聚类过程中的干扰,使算法达到更准确更高效的聚类效果。实验结果表明,当数据量较大时,相比于传统的K-means算法,改进后的K-means算法在准确率和执行效率上都有较大的提升。  相似文献   

15.
针对电力缴费终端存在管理人员操作不当和黑客攻击等行为导致数据损坏和丢失等问题,设计了一种基于多分支哈希树结构的数据完整性防护验证方法。该方法利用基于双线性映射的签名机制和多分支树结构的特性,通过使用随机掩码技术对分块的数据进行随机化处理,以确保数据的隐私性,采用多分支树形结构实现对数据块的快速认证和快速签名,并利用哈希树节点的哈希值验证数据块的完整性,引入验证服务器对数据分块进行批量验证和证据计算,并通过设置备份服务器完成对存储数据的备份处理。实验结果表明,该方案可以有效提高对存储数据完整性的批量检测效率,并降低终端和主服务器的计算开销,同时具有较小的计算开销和较高的安全性。  相似文献   

16.
基于多中心模型的网络热点话题发现算法   总被引:1,自引:0,他引:1  
为了有效消除网络话题相关报道内容侧重点变化对网络话题发现准确性的影响,提出了网络话题多中心模型.将报道内容之间的关联关系层次化,提高了对网络话题的描述能力.提出了基于多中心模型的网络热点话题发现算法,利用话题中心判别新出现的报道是否属于已有网络话题,算法基于单遍聚类思想,通过引入话题中心的策略优化了算法的计算开销.实验结果表明:该算法可以全面、准确地发现网络热点话题,同时具有较为理想的性能,可应用于大规模网络动态流式数据环境下的热点话题发现.  相似文献   

17.
针对NRA算法和BPA算法查询效率不高、重复访问数据的问题,提出了一种基于三维分档布鲁姆过滤器表(TF)的Top-k查询算法(TKBFP).该算法使用TF对数据进行处理,以较低的误判率获得较高的访问效率并降低了内存消耗,利用最优位置索引策略,避免重复访问数据对象.对TKBFP算法进行了严格的语义定义,推导出每一维BF中需要的哈希函数个数;以自主开发的Java程序为仿真平台,对TKBFP算法进行了试验,并对算法执行效率和存储性能进行评价.试验结果表明,该算法能够避免重复访问数据对象,并能以较低的误判率实现大规模数据的高效查询处理.与NRA和BPA相比,当属性列表超过4个时,开销明显降低,适合面向大规模数据的查询处理应用.  相似文献   

18.
雷达信号分选是电子侦察中的关键步骤,针对传统聚类算法需要先验知识、算法需要人为设定参数、对孤立噪声点敏感和对初始聚类中心的选取对聚类效果有直接的影响、容易出现"增批"缺点,提出一种改进的数据场聚类算法。该算法计算所有的数据对象的势值,通过寻找势心来确定初始聚类中心和聚类数目,根据数据对象的势值大小和阈值进行比较,剔除孤立噪声点,将数据对象划分到距离最近的聚类中心的那一类中完成聚类。文中仿真了12部雷达信号,包括了常规雷达、抖动雷达、参差雷达和捷变频雷达,雷达参数相近或交叠。仿真结果表明,改进的数据场聚类算法有良好的聚类效果。  相似文献   

19.
 针对采用SOM 网络进行多故障诊断时,要求多故障模式相似且不包含标准故障输出的限制,提出将SOM 网络与可拓理论相结合的多故障诊断方法.首先采用SOM 网络对训练样本进行聚类,得到故障模式及其聚类中心.然后针对每种故障模式的每个特征构造在聚类中心处取得最大值的关联函数,并以各特征的关联函数值为基础,设计多故障评价指标实现多故障诊断.最后采用汽轮发电机组振动信号的频谱数据对算法进行验证,结果表明该方法能够正确识别待诊断样本的单故障和多故障模式,具有可行性.  相似文献   

20.
利用测地线距离的改进谱聚类算法   总被引:1,自引:1,他引:0  
针对往复式压缩机故障数据空间分布复杂、常规算法不能有效聚类的问题,提出了一种改进的谱聚类算法.该算法使用新的相似度矩阵计算方式,根据故障数据流形分布的特点引入测地线距离取代欧氏距离作为数据间的关系度量;通过计算各数据点的邻域密度因子有效地识别和剔除了噪声点;利用基于密度的局部欧氏距离调整方法对流形间隙过小的区域进行了处理.在几个人工数据集和往复式压缩机故障数据集上的测试结果表明,改进谱聚类算法对于具有流形分布、多尺度、有噪声、流形间隙过小甚至交叉等特点的数据具有很好的聚类能力,聚类准确率比常规的k-均值和MSCA谱聚类算法分别提高了50.86%和8.6%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号