首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
聚类集成作为数据挖掘的重要应用工具,得到了广泛的认可和研究.本文在投票法的基础上提出一种新的软聚类投票(VMSC)算法.算法首先求取平均隶属度矩阵,然后进行迭代优化.该算法能够消除噪声点影响,具有很好的稳定性.Spark云计算平台能够高效处理大数据.为了提出的算法处理大数据,在Spark云计算平台上实现并行的VMSC算法.VMSC算法实验用12组UCI数据集进行验证,并与sCSPA、sMCLAs HGBF及SVCE等软聚类算法进行对比.结果表明,VMSC算法对软聚类算法具有较好的集成效果.在Spark云计算平台上对VMSC算法并行实现.实验表明,该算法具有较理想的并行效果,能够有效处理大数据.  相似文献   

2.
针对Apriori算法在第二次迭代过程中产生大量候选集的弊端,在Spark大数据框架下,将Apriori算法进行并行化处理。提出一种基于Spark平台的改进Apriori算法——I-Apriori;该算法利用Spark基于内存计算的抽象对象(RDD)存储频繁项集,在第二次迭代中,通过使用改进的布隆过滤器存储频繁1项集,消除候选集生成,减少数据库扫描次数,提高算法效率。实验结果表明,相比基于Spark平台的Apriori算法进行性能评估,I-Apriori算法具有更优的性能,能够较大程度地提高大数据关联规则挖掘的效率。  相似文献   

3.
针对资产评估的公正性、科学性问题,以及评估方、利益方、监管方三者的博弈关系,运用AHP分析资产评估体系建立基于大数据的资产评估模型,该模型采用决策树算法分析,改进了传统资产评估,并提供了资产评估收益预期回报。在评估模型基础上,引入数据挖掘和云计算技术,设计基于大数据的资产评估平台,从平台的数据采集、数据挖掘到机器学习,详细分析了资产评估平台功能,并对平台的接口和核心算法进行设计,最终通过基于大数据的房地产估价案例分析进行论证。  相似文献   

4.
在对大规模数据进行蜻蜓算法优化时,由于要计算的维度过多,迭代次数过大,从而耗费大量运算时间,而基于Spark分布式计算可以减少大数据运算的耗时。将DA算法在Spark分布式计算平台下进行并行计算,把蜻蜓种群被分配到各个节点,每节点中蜻蜓个体信息通过多线程并行更新,然后共享全局最优解,从而提高大规模数据优化的运行速度。最后仿真实验的验证是由4个测试函数进行测试,验证结果显示:在保证正确率的前提下,基于Spark的DA算法在对大规模数据优化的计算用用时最少。  相似文献   

5.
在大规模网络环境背景下,采用Hadoop和Spark计算框架构建一种低成本的可扩展性的大数据安全分析检测平台,使用离线模型生成与在线检测相结合的方式对异构网络数据进行分析,在海量数据流环境中实现实时安全分析检测.实验结果证明:基于Hadoop和Spark的大数据安全分析平台具有优秀的可扩展性及高效处理能力,能够满足安全大数据的分析与检测要求,并能有效地应对海量数据的安全分析检测任务.  相似文献   

6.
当今人类已经进入大数据时代,海量数据处理已成为大数据技术领域的研究热点。Spark是一种典型的基于内存的分布式大数据处理框架,但在Spark的实际应用中出现的数据倾斜问题会对计算效率产生重要影响。本文针对于Spark在各类应用中出现的数据倾斜问题,梳理国内外相关研究进展,对在出现数据倾斜问题后常用的优化方法进行了分析对比,最后对未来的研究方向进行了展望。  相似文献   

7.
随着信息技术的迅速发展,"大数据"这一名词逐渐在各行各业中产生了巨大的影响。大数据技术主要包含了数据挖掘(采集)、数据分析、数据储存等技术,前两者与客户关系管理的业务紧密联系。目前,大部分国家都已认识到大数据的价值,并将其作为战略性技术来开展研究与应用。在企业客户关系管理中,基于大数据的高水平信息化平台,可高效推动营销,达到企业扩张、加速盈利的目标。  相似文献   

8.
在使用KNN算法进行大规模文本分类,需要处理频繁的迭代运算,针对现有Hadoop平台迭代运算效率较低的问题,本文提出一种基于Spark平台的并行优化KNN算法.主要从3个方面对算法进行优化,首先,对于训练数据集通过剪枝算法控制有效数据的规模,从而减少迭代运算的次数;其次,针对高维数据集采用ID3算法利用信息熵进行属性降维,减少文本相似度的运算量;最后,使用Spark并行计算平台,引入内存计算最大限度地减少了迭代运算的I/O次数,提高处理速度.通过实验,与常用的KNN算法相比,基于Spark的KNN文本并行分类算法在加速比、扩展性等主要性能指标上表现较优,能够较好地满足大规模文本分类的需求.  相似文献   

9.
利用Spark平台对电力用户侧的大数据进行分析,提出基于梯度提升树的并行负荷预测方法.首先对历史负荷和天气数据集进行并行化分割处理,并采用特征提取与转换方法获取到预测模型所需的特征向量;然后合理设定Spark集群节点数以及调节Hadoop分布式文件系统(HDFS)分块大小;最后将参数调优后的梯度提升树模型部署到Spark分布式平台上进行训练与预测,并将该模型预测结果与其他预测模型进行精度比较.研究结果表明:通过合理划分HDFS中存储块的大小能有效提高集群对于大数据处理的效率,分布式梯度提升树算法在快速性与准确性上均有比较大的优势,能够满足电力负荷预测的要求.  相似文献   

10.
从原理和实验2方面对基于MapReduce和Spark的大数据模糊K-均值算法进行分析比较,并对2种大数据开源平台的优缺点进行了总结.由于模糊K-均值算法是一种迭代算法,需要对部分数据进行重复操作以得到最终聚类结果,因此主要从算法执行时间、同步次数、文件数目、容错性能、资源消耗这5方面进行比较,得出的结论对从事大数据研究的人员具有较高的参考价值.  相似文献   

11.
该文探讨了基于大数据技术的机器学习算法,基于大数据进行机器学习的模型提高了算法的准确性,机器学习实现分析更高级别的数据,基于Spark+Hadoop处理技术的机器学习适应迭代式机器学习模型的特定需求,机器学习分析数据中的关系获得规律预测新样本。对数据进行收集、统计和分析的大数据系统引入机器学习进行大数据计算,机器学习的深度和广度也提升了大数据分析效率。  相似文献   

12.
为解决校园不同信息、应用系统间不能互通互联、共享数据等问题,利用数据整合技术将多源教育数据进行融合,搭建一套多源异构教育大数据挖掘与应用平台。该平台利用人工智能模型的输出以及多源异构教育大数据挖掘引擎的输入,基于大数据挖掘技术对学生档案、教学资源和社交行为等多源信息进行分析处理,实现教学体征诊断、学习状态智能对比、教学影响因素分析、潜在问题挖掘、教学质量趋势预测等功能。为科学提升校园个性化教学服务质量,客观评价教学个体及团队教学水平,辅助分析教学个体及团队长板、短板,科学指导决策者管理教学体系提供有力支撑。  相似文献   

13.
为解决海量教学数据的高效处理和管理,提出基于HBase/Spark的教学大数据存储及索引模型设计.先基于组合行键构建HBase表,根据教学Course分类进行预分区,并构建cost评分函数,来检测并迁移负载,达到解决数据存储时写热点和负载均衡的问题.语义解析、组合行键索引查询、Spark并行属性条件过滤实现教学大数据高效查询.实验证明基于HBase/Spark的教学大数据的模型,能够实现更加高效的教学大数据访存管理.  相似文献   

14.
基于Spark平台的岩石图像聚类分析   总被引:1,自引:0,他引:1  
提出了一种基于概率选择的K-means聚类算法,并将其应用到Spark平台进行图像聚类,得到的数据集远小于初始数据集,大大降低了算法的迭代次数,聚类速度非常快。在Spark平台应用改进的K-means算法进行岩石图像处理,对岩石图像进行特征提取,使得岩石图像易于区分,解决了传统的聚类算法无法确定初始中心、聚类数目K的选取不当可能导致聚类失败、算法容易受到噪声和孤立点影响等问题。  相似文献   

15.
随着数据挖掘技术在现实问题中的广泛应用,多标签学习现已成为数据挖掘技术中的一个研究热点.组合分类器链(ECC)算法是一种性能较好的多标签分类方法,其分类效果好、准确度高,但该算法的时空复杂度较高,不能适应大规模多标签数据分类任务.为此提出了一种基于Spark的组合分类器链多标签分类方法,将串行组合分类器链算法的各步骤进行了并行化实现.通过单机实验和集群并行化实验,证明该方法对大规模多标签数据集具有良好的适应能力和加速比,且分类效果不输于传统的串行多标签分类方法.  相似文献   

16.
大数据具有数据量大及混合类型的属性,基于MapReduce的K-prototypes并行大规模混合数据方案的缺点是时间和内存的限制,导致这些方案不适合处理大数据.为了解决这个问题,该文提出一种新的基于Spark的k-prototypes聚类方法,该方法使用了重新聚集技术,利用Spark框架的内存操作来构建大规模混合数据分组.在模拟和实际数据集上的实验表明,该文方法可行,且提高了现有K-prototypes方法的效率.  相似文献   

17.
李晓辉 《长春大学学报》2012,(12):1472-1475
云计算做为一种新兴的网络技术已经在各个领域得到广泛应用,云计算的一个重要作用就是对海量信息数据进行存储与管理,因此云计算为数据挖掘提供了一个良好的平台。本文先对云计算进行简单介绍,然后对基于云计算的数据挖掘应用进行详细阐述与分析,最后介绍基于云计算的数据挖掘应用平台的构建。  相似文献   

18.
数据资源建设是高校信息化建设的重要组成部分,构建大数据管理服务平台将为高校大数据应用分析场景建设,提供数据、管理、服务、技术等多层面的有效支撑。以DAMA数据管理服务体系方法论作为理论依据,以教育部发布的《JYT1002_教育管理基础信息》、《JYT1003_教育行政管理信息》、《JYT1006_高等学校管理信息》等标准文件内容作为参考,结合高校数据特点,在传统高校数据共享平台相关技术的基础上将Hadoop框架体系、Spark技术、Elasticsearch数据引擎技术等大数据技术进行深度融合,提出一种数据统一存储、统一管理、统一处理、统一服务的一站式的大数据服务平台的建设思路,为高校大数据平台建设提供一个参考依据。  相似文献   

19.
Hadoop已经成为大数据平台的事实标准,当用户要求它成为全栈平台时,MapReduce为批处理而设计的局限日益显现。文中将SSD引入大数据的内存缓存存储解决方案,阐述了SSD和HDD的混合存储架构;同时,结合高效的计算模型Spark等优化技术,设计了一种基于SSD的高性能Hadoop系统,分别有效地解决大数据计算系统的性能问题和存储空间问题,实验性能评测显示取得了显著效果。  相似文献   

20.
针对大数据环境下聚类算法所处理数据规模越来越大、对算法时效性要求越来越高的问题,提出一种基于分布式计算框架Spark的改进K-means快速聚类算法Spark-KM.首先针对K-means算法因初始聚类点选择不当导致局部最优、迭代次数增加而无法适应大规模数据聚类的问题,通过预抽样和最大最小距离相结合对K-means算法进行改进;然后对原始数据进行矩阵分割,并存储在不同的Spark计算框架的结点当中;最后根据改进的K-means算法,结合分布式矩阵计算和Spark平台进行大数据快速聚类.结果表明,文中算法可以有效减少结点间的数据移动次数,并具有良好的可扩展性.通过该算法在单机环境和集群环境的对比测试,说明该算法适用于大规模数据环境,且算法性能与数据规模成正比,集群环境较单机环境也具有很大的性能提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号