共查询到20条相似文献,搜索用时 0 毫秒
1.
针对传统的潜在狄利克雷分析(LDA)模型在提取评论主题时存在着计算时间长、计算效率低的问题,提出基于MapReduce架构的并行LAD模型建立方法.在文本预处理的基础上,得到文档-主题分布和主题-特征词分布,分别计算主题相似度和特征词权重,结合k-均值聚类算法,实现评论主题提取的并行化.通过Hadoop并行计算平台进行实验,结果表明,该方法在处理大规模文本时能获得接近线性的加速比,对主题模型的建立效果也有提高. 相似文献
2.
提出了一种基于开源云计算平台Hadoop的网络热点话题发现方案.该方案采用MapReduce分布式并行计算架构处理海量、复杂数据,通过将命名实体词作为文本的特征项,并采用标题和正文的双向量表示文本.实验结果表明:随着参与并行计算节点数的增加,话题聚类所有的时间显著下降,因而网络热点话题发现的速度得到明显提高. 相似文献
3.
基于MapReduce实现的Apriori简单并行算法,产生了大量值为1的键/值对,影响了算法效率.提出一种分组统计策略的Apriori并行算法,有效地减少了键/值对的产生.实验结果表明,改进的基于MapReduce并行的Apriori算法在时间性能上有了很大的提升,并且随着集群节点的增加,算法的加速比线性提高. 相似文献
4.
在对HITS算法和基于MapReduce编程模型的云计算框架Hadoop的研究基础上,利用Hadoop来重新设计并实现HITS算法.同时,在实验中分析了不同blocksize和集群规模对算法执行效率的影响.实验表明:当blocksize过大时,由于没有充分利用集群的并行特性,算法效率逐渐降低,而适当扩大集群规模,算法运行效率会逐渐提高. 相似文献
5.
基于MapReduce的Eclat改进算法研究与应用 总被引:1,自引:0,他引:1
针对Eclat算法在挖掘海量数据中的频繁项目集时存在的内存和计算资源不足等问题,将Eclat算法与目前流行的大规模数据集并行编程模型MapReduce结合,解决了Eclat算法在数据挖掘过程存在的瓶颈问题,运用于动车组故障诊断系统中,提高了关联规则挖掘的效率. 相似文献
6.
Apriori是挖掘关联规则最经典的算法之一,针对该算法存在的瓶颈问题研究了基于MapReduce编程框架的简单Apriori并行算法;并在简单Apriori并行算法的基础上提出一种采用固定多阶段结合挖掘策略的改进算法——多阶段并行算法。实验结果表明,改进算法能缩短挖掘时间,提高执行的效率。 相似文献
7.
随着大数据时代的到来,聚类分析算法将面临如数据量巨大、数据维数增加等挑战,分布式处理是解决这类问题的方法之一。本研究将ROCK算法与Hadoop平台相结合,按照分布式处理原则,通过计算机集群模式去处理大规模的多样性数据。实验证明,在Hadoop平台下的ROCK聚类算法很大程度上提升了对高维数据进行聚类的能力。 相似文献
8.
分布式并行计算是提高计算机性能常用的方法,但针对不同需求,并行程序的设计并没有统一的模型与方法,使得并行程序的编写完全依靠开发人员的经验。Google公司提出的分布式并行编程模型MapReduce能够完成特定类型的并行程序的开发与运行。使用哈希表对MapReduce分布式并行编程模型进行优化,减少中间结果中的碎片,并省略Combiner中间函数的调用,减少传输负载,提升运行效率,同时兼顾了Map函数与Reduce函数接口的属性,保持了MapReduce模型的并行性特点。 相似文献
9.
利用MapReduce编程模型的简化性和期望最大化算法(Expectation maximization,EM)的高精度、恒收敛性,提出了一种对数据集规模无限制的数据处理算法;并通过对高斯混合模型的参数估计进行算法性能的测试。结果表明,算法能改善传统EM算法在处理大规模数据集时效率低的缺点,具有较好的加速比及可扩展性。 相似文献
10.
在线上购物商品销售预测问题上,由于受商品自身的款式、材料、买家的好评与差评以及商家好评返利等多种因素影响,一般的回归预测算法往往不能支持多种特征变量,导致预测准确率较低、鲁棒性差.本文采用一种主题-随机森林算法对口罩销售量进行多变量综合投票预测,并与多重线性回归(Multiple Linear Regression,MLR)算法和随机森林(Random Forest,RF)算法相比较得出最终结论 .实验结果表明,LDA-RF算法各项指标均优于MLR和RF算法,LDA-RF算法建模速度快,鲁棒性较强,受到离群点影响比较小,散点主要集中在线性回归附近,可以有效地提高口罩销量预测精度. 相似文献
11.
为了挖掘商品评论中有价值的信息,有效分析用户对商品的直接反馈,文章基于通用的情感词典,以国内某电商平台上的商品评论为研究对象,根据词频共现方法拓展情感词典,基于构建的情感词典对评论进行情感极性分析。根据分析结果,不仅能够帮助商家优化商品属性,更好地满足消费者的需求,还可以指导用户制定合理的购买决策。 相似文献
12.
传统的密度峰值聚类算法不仅具有较高的计算复杂度且未考虑路网固有的拓扑结构,无法衡量各路段之间的关联关系。针对这一问题,提出基于图密度峰值聚类算法的出行热点路段发现。该算法将交通路网用图模型结构,然后以各路段为基本单元计算局部密度及高局部密度距离并画出决策图找出聚类中心,最后结合实际区域的兴趣点分析该聚类簇成为热点路段的潜在可能。借助于图模型表达形式的优势,该算法不仅可以大幅度提升算法的计算复杂度,而且可以更加准确合理的找出热点路段。通过在滴滴-成都轨迹数据集上的实验表明,图密度峰值聚类算法具有更高的热点路段发现精度,并且在计算效率上有大幅度提升。 相似文献
13.
针对传统数据流频繁项集计算中效率低、内存消耗大等问题,本文采用并行计算的思想设计了一种基于MapReduce的数据流频繁项集挖掘算法,首先,对进行数据分块压缩和传输,其次,将数据频繁项的计算分布在负载均衡的数据节点,可以有效保证数据的执行效率.最后通过一次调度处理合并各个节点产生的频繁项集并进行合并.理论分析和实验对比结果均表明,该算法对于并行处理数据流频繁项集的统计问题是有效可行的. 相似文献
14.
由于互联网+提出的,网络信息呈现爆炸的趋势。面对海量数据如何准确找到热点事件成了网民关注的话题。文章从实际应用出发,首先对每一篇文本选取5句话作为该文本关键句,然后用TF-IDF计算特征词值,特征向量选择时不考虑单个字的权重,再用K-means算法进行聚类。以新浪新闻为例,将环境、住房和违法三类话题共322篇文本作为测试语料进行聚类,聚类准备率达到70%以上,说明选取关键句比将整个文本作为聚类对象的聚类效果好。 相似文献
15.
关联规则挖掘是数据挖掘的一个重要组成部分.为提高关联规则的挖掘效率,提出了一种基于布尔矩阵和MapReduce的FP-Growth算法(BPFP),分析了算法的时间和空间复杂度.该算法使用Hadoop框架和布尔矩阵以减少对事务数据的扫描次数,利用两次MapReduce来实现频繁项集的挖掘.在多个数据集上的实验结果表明,与原FP-Growth算法相比,BPFP算法具有更高的执行效率、更好的加速比. 相似文献
16.
FP-growth算法是不产生候选集的关联规则挖掘算法,在许多领域中具有很高的实际应用价值。然而经典的FP-growth算法是内存驻留算法,只能处理小数据集,在面对海量数据集时显得无能为力。对经典FP-growth算法中FP-tree的结构和挖掘过程进行了改进,分析了FP-tree单路径和多路径的不同挖掘方法,提出了一个剪枝策略,在挖掘过程中减少了部分分支的迭代次数。然后利用云计算的MapReduce编程技术,对改进的FP-growth算法的各个步骤并行化。实验结果表明改进的算法在处理不同的数据集时有一定的优势,然后经过MapReduce模型并行化后,提高了对海量数据的处理能力和效率,并且具有较好的加速比和良好的扩展性。 相似文献
17.
推荐系统的协同过滤(Collaborative filtering)算法是目前推荐系统应用最为广泛的推荐算法,然而,CF推荐算法的计算复杂度高,阻碍了其在大型系统中的应用.该文在一个云计算平台即Hadoop上通过MapReduce生成同现矩阵和评分矩阵两非负矩阵,利用同现矩阵和评分矩阵相乘产生推荐结果,实现了基于项目的CF推荐算法.实验结果表明,该推荐算法可以有效地实现大规模数据的推荐,并解决了系统可扩展性问题. 相似文献
18.
《郑州大学学报(理学版)》2019,(4)
提出了一种基于商品评论的群体用户情感趋势预测方法.首先,提出了基于Boson NLP的情感特征词识别算法,对时间维度下的商品评论信息进行特征选取;其次,使用群体用户多维特征向量构造多层感知器(MLP)模型进行情感分析;最后,融合评论时间和用户情感倾向值构建群体用户时序情感倾向序列,并通过长短时记忆网络(LSTM)模型进行时序情感趋势预测.在大规模真实数据集上的实验结果表明,MLP模型具有较好的分类效果;相比于现有的自回归(AR)模型,LSTM模型的平均均方差降低了79. 06%,能够取得更加精准的预测结果. 相似文献
19.
商品短评论的情感分析可有效地为用户和决策者提供产品选择的判断依据,但由于商品短评论文本特征呈现分散性和交错性的特点,因此难以有效地抽取短文本情感特征并作出分类。为解决这个问题,基于预训练模型提出一种商品短评论文本情感分类的新方法,便于用户决策。提出的基于ELECTRA的商品短评论文本情感分类方法包括三个过程,即嵌入层用Electra替换Bert进行向量映射和特征选择的过程,训练层神经网络模型的迭代优化过程,分类层进行商品短评情感分类过程。实验结果表明,所提出的模型在准确率上有明显的提高。 相似文献
20.
分布式数据挖掘计算是大数据研究中非常重要的技术,现有的对频繁模式的分布式挖掘方法在处理大量数据集时仍然存在许多局限,如并行Apriori算法在多次扫描数据库过程中对I/O产生很大负担,并且有大量候选集产生.本文使用的FP-growth算法包括Fp-tree构建和频繁模式挖掘两个阶段.主要思想是在map阶段构建FP-tree之前,根据步长值及项目元素编码对FP-tree节点合并,并在shuffle阶段依据平衡算法划分给不同的reducer.平衡算法用来均衡工作负载.利用该算法来降低数据分配的随机性,避免数据挖掘阶段由于数据划分不均衡导致部分reducer开销过大的缺点.实验结果表明:与现有方法相比,在较大数据集情况下改进后的算法具有更好地运算效率和可伸缩性. 相似文献