首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 687 毫秒
1.
大数据处理系统是大数据领域的一个热点,为此首先研究大数据分析平台的架构与功能,将大数据分析平台分为数据源、数据吸收层、数据存储层、平台层、安全与监控层、设备层和应用层.平台包含多个数据预处理和算法模块,平台架构为大数据分析了奠定基础.在功能上,该平台功能全面,可以自由组合各种操作,模块之间耦合度低,便于维护和拓展.在用户体验上,调参、建立流程、监控、数据挖掘过程都是可视的,融合工作流和调度流技术.在性能上,该平台相应算法的性能优于Hive和MLlib.最后,举例说明大数据挖掘平台的应用场景.可以对电网线路故障和气象数据进行预处理,从而对故障进行预测和分类,可以通过视频挖掘组件,对数据分类.  相似文献   

2.
本论述针对协同过滤算法的局限性,为顾客购买频度较高的商品设计一种基于Web挖掘的推荐系统,它综合利用朴素Bayesian分类法,基于点击流分析的偏好Web使用挖掘,商品关联规则等各种Web数据挖掘技术,为顾客购物提供智能商务推荐.在数据挖掘技术的基础上,结合智能Agent技术,对系统进行设计和实现.实验结果表明,该系统...  相似文献   

3.
应用模糊关联规则分析农业信息中的数值型数据,为了解决数值型数据的模糊集转换问题,定义了基于SOM算法的模糊集梯形隶属函数自适应转换方法,设计了挖掘系统的功能及体系结构.基于FDMA算法,开发了农业信息模糊关联规则挖掘系统.结合农业生产实际,对农业信息数据进行预处理,使用开发的系统实施了数据挖掘,并对挖掘结果进行了分析,结果表明:农业信息模糊关联规则挖掘系统具有一定的应用价值.  相似文献   

4.
对气象数据挖掘和ARIMA预测算法进行分析,构建了基于Hadoop的气象数据挖掘平台,并在该平台上设计实现了基于ARIMA算法的气象预测系统.实验结果表明,该气象预测系统具有易扩展性、易维护性和对海量气象数据的高效管理特性,实现了气象预测功能.  相似文献   

5.
挖掘最大频繁项目集是许多数据挖掘中的关键问题.为克服早期基于Apriori的最大频繁项目集算法中的缺点,相继有多种挖掘最大频繁项目集方法被提出.其中对基于FP-tree的最大频繁项目集挖掘算法比较多,但对FP-tree中的结点的频度计数关注的很少.通过对FP-tree结构进行了仔细分析后,在FP-tree中结点的频度计数和集合理论的基础上,提出了一种新的最大频繁项目集挖掘算法USDMFIA(using set to discover maximum frequent itemsets algorithm).通过分析比较,显示此算法是有效的.  相似文献   

6.
为了提升数据挖掘效率,为众多空间数据应用领域提供数据支撑,提出基于Hadoop云平台的空间属性数据挖掘技术:利用分布式编程模型MapReduce和Hadoop分布式文件系统构建Hadoop云平台,在云平台中实现分布式计算、数据挖掘、业务响应以及用户交互;其中数据挖掘层利用归一化变换将空间数据与属性数据调整为正态分布并统一量纲后,采用快速独立成分分析算法去噪处理变换后数据;依据贝叶斯分类理论以及极大后验和似然假设构建朴素贝叶斯分类器,将去噪处理后的数据作为分类器输入,完成空间属性数据挖掘。试验结果表明该技术应用在农业生产中,可以增加经济效益,数据经去噪后峰值信噪比与结构相似性较高,可有效挖掘城市空间属性数据,且具有较高数据挖掘速度。  相似文献   

7.
关联规则挖掘在农业产值分析中的应用   总被引:1,自引:0,他引:1  
简述了数据挖掘技术及其在农业中的应用.针对农业普查数据,分析了数据挖掘系统结构,并详细描述了农业数据的预处理.利用关联规则FP-Tree算法从农业产值的大量相关历史数据中挖掘农作物数据的各种属性与其农业产值之间的关联关系, 为农民及时有效的对农业生产做出规划和调整提供科学依据.  相似文献   

8.
为具体挖掘任务选择合适的挖掘算法需要用户对挖掘任务、各种挖掘算法和数据特征都非常熟悉,一般用户是很难达到这个要求的.针对以往研究的系统存在实现困难、不能适应动态添加算法等不足,文中形式化表示数据挖掘算法的适用知识,并基于此设计算法选择交互问题和选择逻辑,实现了一个易于实现的数据挖掘算法选择交互系统.实例验证了系统的有效性.  相似文献   

9.
分析了大数据环境下的O2O电商用户数据特征,提出O2O电商用户数据挖掘框架,并探讨数据挖掘流程和主要的数据挖掘方法,分别从O2O电商平台、O2O用户和O2O商家三者角度探讨了O2O电商用户数据挖掘的应用问题.研究认为:O2O用户数据挖掘框架包括数据来源层、数据收集层、数据组织层、数据分析层与数据应用层等层级;数据挖掘流程主要包括数据收集、数据预处理、数据挖掘及数据应用4个过程;O2O电商用户数据的挖掘应用包括精准营销、平台网站优化、欺诈分析与防范、个性化推荐、增值服务开发与产品创新等方面.  相似文献   

10.
为更好地解决大数据集多实例、多属性、多分类给数据挖掘带来的困难,构建了一种基于CS约简和FGR决策的挖掘方法,首先寻找原始数据集合的核心实例,根据核心实例去除数据集合中的冗余,再采用FGR决策完成分类挖掘任务,通过与两种典型方法的比较实验发现,所构建的方法可以有效地压缩数据集合规模、精简挖掘过程的规则,以较高的效率完成准确的挖掘分类.  相似文献   

11.
一种用于数据挖掘算法的数据生成方法   总被引:1,自引:0,他引:1  
由于受到保密性、时间和数据多样性等一些原因的限制,测试数据集的获取一直困扰着数据挖掘算法的研究.因此,提出一种基于遗传算法和熵的测试数据集的模拟生成方法,生成方法利用遗传算法具有继承性的特性对采集到的少量的真实数据进行扩充和模拟,用熵衡量生成数据与真实数据的相似程度,最终生成规模大的测试数据集,并给出了描述型数据的生成算法.使用此方法,可以生成同真实数据集具有相同的属性,相同的属性取值区间和属性值分布,类似属性关联关系的测试数据集,加速数据挖掘算法的研究进程.  相似文献   

12.
因初始项集中的数据特征相关,使关联规则Apriori算法的数据挖掘结果存在误差.为了解决这个问题,结合粗糙集理论(RST),提出一种改进的关联规则数据挖掘算法;然后,将该算法应用到软件工程风险因素和风险缓解因素管理分析中,提出一种新的软件工程适应性结构.仿真结果表明,该改进算法提高了挖掘数据的效率.  相似文献   

13.
数据挖掘中并行离散化数据准备优化   总被引:2,自引:0,他引:2  
在海量数据挖掘中,针对元数据的离散化数据准备处理能有效提高数据挖掘效率.本文提出了一种并行比较并获得最优离散化的数据准备算法(AOA),针对不同数据集,先进行数据集的特性检测以获得数据集分布特性,按照分布特性进行数据集的异常值检测和剔除,并行完成与分布特性适配的离散化方法处理,通过比较不同离散化方法的熵、方差指数、稳定性参数的最小欧氏距离,根据三个参数自动化比选,获得最优离散化的预处理成果.仿真表明,对不同样本数据库进行关联规则挖掘结果中,比较四种固定的离散化数据预处理方法,在使用AOA数据准备算法并行比选出最优的离散化来数据预处理后,在不同最小支持度阈值情况下,挖掘得到关联规则数都更少,因此效率得到提高.  相似文献   

14.
基于FP-tree最大频繁模式超集挖掘算法   总被引:1,自引:0,他引:1  
数据挖掘应用中的最大频繁项集挖掘算法大多存在候选项目集冗余问题,造成时间和空间的浪费.针对此问题,通过构造条件FP-tree,对不符合要求的项目进行剪除并对MFIT算法进行改进,提出一种基于FP-tree的最大频繁模式超集挖掘算法.此算法无需产生大量的候选集,同时减少数据集扫描次数,降低数据库遍历时间,提高算法效率.实验证明,此算法在降低候选项目集冗余度的同时有效减少了算法运行时间.  相似文献   

15.
随着人们对隐私权的越来越重视,隐私保护数据挖掘成为当前研究热点.分类算法作为一个重要的数据挖掘方法被应用到各个领域,其中支持向量机(SVM)是分类算法中一个重要方法.并且数据的隐私性和安全性是人们关注的重点.本文对SSP协议进行扩展提出了一个基于垂直分布数据的隐私支持向量机算法,这个算法具有更高的效率和更好的安全性.  相似文献   

16.
数据挖掘领域中的聚类方法   总被引:4,自引:0,他引:4  
聚类算法是数据挖掘中的核心技术,随着对聚类算法广泛深入的研究,产生了许多不同的适用于数据挖掘的聚类算法;文章从算法的角度论述了如何在数据挖掘中进行聚类分析,并通过基于评价聚类算法好坏的8个标准,对数据挖掘中近几年提出的常用聚类方法作了比较分析,以利于人们更容易、更快速的找到一种适用于特定问题的聚类算法.  相似文献   

17.
分析经典ID3型决策树挖掘算法中存在的问题,对其熵值计算过程进行改进,构建一种改进的ID3型决策树挖掘算法.重新设计决策树构建中的熵值计算过程,以获得具有全局最优的挖掘结果,并针对UCI数据集中的6类数据集展开挖掘实验.结果表明:改进后的挖掘算法在决策树构建的简洁程度和挖掘精度上,都明显优于ID3型决策树挖掘算法.  相似文献   

18.
分析了全断面掘进机复杂的故障机理和运行参数,研究了将粗糙集和决策树应用到数据挖掘中的方法.以全断面掘进机刀盘的一些实时数据为例,采用MATLAB 7.0对数据进行离散化处理,结合粗糙集属性约简的算法对故障样本进行冗余属性的约简;然后,利用决策树算法对约简后的故障样本集进行规则提取,利用数据挖掘工具Clementine实现了C4.5算法和改进的C4.5算法,对其结果进行了对比分析;最后,运用VB编程对全断面掘进机采集的部分数据进行测试,结果表明该融合算法是一种快速、有效、可靠的故障检测与诊断的新途径.  相似文献   

19.
无线传感器网络的生存周期将直接影响其在物联网中的应用价值,针对该问题进行了深入研究,最终实现生存周期的有效延长.通过组建简单稳定路由,为MAC层提供鲁棒通信路径的基础,从低功耗和减少数据包冲突概率两个角度出发,设计了周期性唤醒机制和FHPR算法.周期性唤醒机制使节点可以长期处于超低功耗状态;FHPR算法包括跳频列表和数据包重组机制两部分,前者有效减少冲突概率,后者在减少冲突概率的同时有效降低功耗.实验结果表明:由自主研发的节点组建成的无线传感器网络可以稳定运行,生存周期被有效延长.  相似文献   

20.
基于模糊数据挖掘技术的入侵检测算法与应用   总被引:2,自引:0,他引:2       下载免费PDF全文
基于数据挖掘技术的入侵检测技术是近年来研究的热点,目前有不少入侵检测系统中都采用了关联分析的数据挖掘方法,现有的关联分析算法只能够解决数据中分类属性的挖掘,对于数值属性则不能直接使用,然而网络流量数据中包含了许多反映入侵状况的数值属性,已有学者提出了将数值属性先进行分类而后再进行关联分析的挖掘方法,然而这种方法带来的问题是在进行异常和正常划分时存在明确的界限,即“尖锐边界问题”,由于网络安全概念自身具有一定的模糊性,因此明确的界限可能会导致误报和漏报的情况产生,从而影响检测效果,文中提出了一种基于模糊关联挖掘技术的入侵检测算法,并采用遗传算法确定划分模糊集合的隶属度函数参数,最后的实验结果说明了该算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号