首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
讨论基于数据规约的近似挖掘技术,在数据预处理阶段对海量数据集进行数据规约.近似数据挖掘的工作流程包括任务定义、数据准备与预处理、数据挖掘建模、结果的解释与评估、模型发布与应用5个阶段.同时,提出使用属性选择和实例选择方法实现近似挖掘的方案,并对该方案进行挖掘效率和结果模型准确性的分析评估.该方案能满足对企业级大数据集进行高效挖掘的需要.  相似文献   

2.
R软件的数据挖掘应用   总被引:1,自引:0,他引:1  
开源R软件集成了各种的数据分析和可视化方法,具备强大的数据分析功能和良好的可扩展性,适用于数据挖掘;结合城市主要经济指标的数据挖掘案例,给出了R软件在挖掘过程中各主要阶段的应用方法;数据准备阶段包括数据抽取、数据选择与统计分析应用;挖掘建模阶段给出了聚类和分类的典型挖掘应用;模型评估阶段给出了决策树的评估方法;从简洁的R语言脚本设计和良好的分析效果,展示了R软件的基本特点和在数据挖掘应用中的优势。  相似文献   

3.
基于SOA的数据挖掘服务整合研究与设计   总被引:1,自引:1,他引:0  
数据挖掘过程与挖掘工具的紧密结合影响了数据挖掘应用和数据挖掘工具的广泛使用,而SOA这种体系架构却可以实现服务提供者与服务消费者之间的松散耦合。Web Services实现了服务消费者动态绑定不同的服务提供者,从而实现了在数据挖掘应用中数据挖掘服务的整合。在整合过程中JDM可以为访问各种不同数据挖掘工具提供统一的标准。这种模型通过将原有的数据挖掘工具封装成可共享的Web服务,实现了对原有数据挖掘应用的复用。系统中的数据挖掘服务层利用Web Services与JDM将各种不同挖掘工具封装成标准服务,服务单元层通过UDDI将这些服务进行注册,业务流程层则根据数据挖掘任务查找服务单元层然后通过SOAP实现服务的调用。  相似文献   

4.
研究探讨了基于支持向量机的空间数据挖掘工作流程与工作框架,以及基于分类或回归功能的空间数据挖掘实现方法和基于核函数工具实现空间数据结构拓扑关系挖掘的方法。阐述了挖掘工作的重点和关键步骤。  相似文献   

5.
数据挖掘与数据库的集成方法   总被引:5,自引:0,他引:5  
数据挖掘的研究主要集中在挖掘算法上,但在数据库领域至关重要的数据挖掘系统与数据库的有效集成研究却很少,为此,在详细研究了数据挖掘耦合数据库的主要方法(通过SQL(Structured Query Language)游标接口读取数据、保存数据至本地磁盘cache进行挖掘、用存储过程封装挖掘算法、采用用户自定义函数表达挖掘算法以及通过扩展SQL直接操作挖掘模型)的基础上,指出在实现数据挖掘同数据库无缝集成的发展过程中,在现有的DB/DW中集成数据挖掘系统并提供应用程序和自定义挖掘算法的接口、研究推出标准数据挖掘语言是实现数据挖掘系统与数据库有效集成的关键技术。  相似文献   

6.
综合集成方法与专家挖掘   总被引:2,自引:0,他引:2  
我们面临的一些科学和实际问题越来越复杂需要运用各种知识的综合和技术的集成,其中知识的综合尤其是将专家的活的经验和智慧挖出来更是人们所关注的.数据挖掘、文本挖掘和网上挖掘能依靠计算机和一些人工智能方法可以从大量数据、文本和网上信息中找出一些有用的规则和知识,但是对于样本较少、知识隐含的活的专家经验如何去挖掘就是专家挖掘要研究的内容.作者及其同事们在近10年的研究中形成了一些概念、方法,并在一些社会问题、中医专家经验传承等进行了应用和探索.  相似文献   

7.
动态取证势必会产生大量的杂乱无章数据.如何对大量繁杂的数据进行有效的分析,成为动态取证的关键问题.提出了基于本体的数据挖掘模型,利用此模型实现了高精度的语义挖掘,根据挖掘结果提供了预警防范服务,利用关联规则具体说明了基于本体的数据挖掘的过程,并用贝叶斯网络模型简单计算了实例本体间的关联程度,实现了关联挖掘.应用实例表明基于Ontology的数据挖掘提高了对攻击源定位追踪的准确性和实时性.  相似文献   

8.
数据挖掘在智能交通系统中的应用   总被引:2,自引:0,他引:2  
目的将数据挖掘技术应用于智能交通系统中,利用挖掘得到的模式对交通管理决策提供有效支持。方法针对交通数据库系统中数据的特点,提出了基于概化的数据预处理方法,并在此基础上,采用基于树模型的关联规则挖掘算法进行关联规则挖掘。结果获得了良好的挖掘模式。实际应用说明了挖掘结果的有效性及可行性。结论数据挖掘技术在智能交通系统中的成功应用,为交通管理决策提供了有效支持,且提出的方法易于实现,便于推广。  相似文献   

9.
杨盛泉 《科学技术与工程》2011,11(17):3941-3945
为实现梭式窑燃烧控制运行的空燃气优化配比以及温度控制科学决策,研究并设计出一种基于关联规则数据挖掘的专家系统。详细地论述了数据挖掘基础知识以及使用关联规则理论挖掘的方法。重点设计并介绍了燃烧控制专家系统的各个部分详细组成。最后还给出了基于关联规则的燃烧控制专家推理算法并进行了实际应用举例。实践表明,该专家系统模型适应性好,推理结果可靠稳定,具有比较好推广应用价值。  相似文献   

10.
介绍了数据挖掘的基本概念、挖掘技术常用算法及挖掘模型等,讨论数据挖掘在电力系统中的主要应用。  相似文献   

11.
谷建伟  周鑫  王硕亮 《科学技术与工程》2020,20(26):10759-10763
随着油田的不断开采,油田的产量预测也变得越来越重要。目前有许多基于机器学习的预测方法,但大多数都不能给出具体的预测模型。本文提出了一种基于Lasso算法的预测方法,结合现场生产数据,选取一系列相关特征参数,通过对参数数据的初步分析,初步选取各个参数的函数形式,然后利用Lasso算法得到最终的预测模型,最终达到预测产量的目的。现场试验表明:该方法得到的预测模型比较准确,可解释性强,且预测精度高,可以应用于矿场产量预测。  相似文献   

12.
利用审计程序提取了一个能够描述每个网络连接或者主机会话的扩展的属性集 ,并利用数据挖掘程序学习那些可以精确描述入侵行为和正常活动的规则 .这些规则可以用于滥用检测和异常检测 .并且提出了一个数据挖掘在构建可扩展的入侵检测系统时的框架 ,针对不同方式的入侵 ,该框架采用不同的模式进行检测 ,并形成最后的结论  相似文献   

13.
针对选择Gap Statistic(GS)方法估计聚类数能够得到数据集的粗略分类,但不能进一步对数据集进行细分类这一问题,对GS方法进行改进;将Gap统计量引入到ISODATA算法中,提出了IGS模型;实证表明,IGS模型不仅可以实现数据的细分类,而且通过IGS模型估计数据集的最佳分类数准确率明显高于原GS模型。  相似文献   

14.
传统的关联规则的挖掘,只考虑某商品是否出现在交易数据中,得不到商品的数量信息.改造关联规则的挖掘方法从交易库中挖掘某商品的最佳打包组合,可以为决策支持系统提供更好的服务.  相似文献   

15.
互联网等信息技术的迅猛发展使网络中积累了大量半结构化和非结构化的文本数据,如何从这些海量电子文档中获取需要的信息并以高效直观信息图的形式展现,成为统计分析工作者的一项主要任务。文字云是信息图表达的一种新型文本显示方式,利用文字云和主题模型文本挖掘方法,对文本进行移除数字、去除停用词等预处理操作,然后执行中文分词,构建语料库,建立文档-词条矩阵,最后以文字云和主题模型的形式呈现挖掘结果。实验中主要利用R语言,以多年粗糙集会议纪要为实验数据进行了相关统计分析,并对比了 Tagxedo文字云生成器,结果表明,从文字云中比较容易获取文本的重要信息如主题模型等,挖掘效果较好。  相似文献   

16.
观点挖掘能自动对网络上大量的非结构化文本进行分析,得到有价值的观点态度,因为中文在机器语言处理中存在一些自身的特点和难点,相关研究进展较缓慢。本文提出了中文依赖语法的观点挖掘模型,介绍了文本爬取和文本预处理技术;采用了向量空间模型表示文本向量,介绍了基于中文依赖语法的特征抽取方法,在此基础上加入了评价对象提取的思想;采用知网情感词典作为判别主观字极性的基础,并对主观字极性评估方法做了相关改进。以建立一个全面、准确的中文观点分析模型为目标。  相似文献   

17.
应毅  任凯  曹阳 《科学技术与工程》2013,13(5):1205-1209
基于单一服务器的Web挖掘系统在处理海量数据集时计算能力不足,针对该问题,提出了一种基于云计算的挖掘方法。将大数据集和挖掘任务分解到多台计算机上并行处理。实现了一个基于Hadoop开源框架的并行Web挖掘平台,同时提出了一种改进的MapReduce模型——MapReduce-LP。并通过对电子商务系统中Web日志的挖掘工作验证了系统的有效性和新模型的高效性。实验表明,在集群中使用云计算技术处理大数据集,可以明显提高挖掘效率。  相似文献   

18.
针对目前大多数中医药数据挖掘研究中使用单一且基础的算法而出现的问题,设计并实现一种通过策略模式智能优选中医药数据挖掘方法的平台(TCM data strategy model analysis platform, TCMDP)。根据策略模式的思想,集成以下4个数据挖掘模块,统计学分析模块可对药物、药物种类、四气五味归经和药物功效进行统计学分析;关联规则挖掘模块可以分析处方中的药物关联性;聚类分析模块可获取药物组合得出聚类新方,通过分析结果来探讨肺癌处方的配伍规律;证型分类模块以电子病历的中医症状和四诊信息作为输入,将相关证型作为输出,构建证型分类模型。综上实现了基于策略模式的中医药数据智能挖掘平台,并运用该平台对中医临床治疗肺癌的中药处方进行用药规律和证型分类研究。结果表明:以痰瘀互结证肺癌病例为例,关联规则挖掘模块中WD-Get Rule算法的运行时间最少仅为0.038 s。聚类分析模块中CMC-DD算法分析时间略长但精确率高达87%。肺癌证型分类分析模块中PSO-ELM运行时间短为88.98 s,且模型平均精确率达88.44%,具有一定的临床参考价值。而本平台所采用的改进算法均优于...  相似文献   

19.
防空信息战效能模糊评估的一种新算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为了实现防空信息战效能的模糊评价,清除指标隶属度中对目标分类不起作用的冗余值,用基于熵的数据挖掘方法,通过挖掘隐藏在各指标隶属度中关于目标分类的知识信息,理清目标分类与指标隶属度之间的关系,定义区分权清除指标隶属度中对目标分类不起作用的冗余值,并提取有效值计算目标隶属度.防空信息战效能模糊评价的事例分析表明:具有多指标属性的决策问题,为了排除冗余值的干扰,则隶属度转换模型可作为有效的方法.基于熵的数据挖掘方法有效解决了模糊评价中冗余数据的干扰,从而解决了一大批多指标的决策问题.  相似文献   

20.
特征构造的难题在数据挖掘过程中一直存在,传统固化的特征工程对于业务场景千变万化的数据挖掘任务所带来的效益十分有限,因此解决特征工程的特征构造问题已经成为数据挖掘的瓶颈之一;尤其在机器学习算法快速发展的情况下,特征逐渐成为模型中急需重视的部分。基于电商平台的用户行为数据,在原有特征群的基础上提出了二次组合统计特征的构建方法。利用二次交叉衍生出丰富而又切合业务场景的特征群,同时结合两种滑动窗口的方法,分别是定长滑动窗口获取更多的训练样本,变长滑动窗口获取具有时间权重的训练特征,以此来最大限度地还原出用户真实的行为习惯。最后,使用不同的特征组合结合降维的方法建立对照检验模型;并利用线性的逻辑回归模型、线性支持向量机以及树模型极端随机森林与XGBoost对模型进行交叉验证。结果表明,组合特征在树模型的算法中得到了非常好的表达效果;而且无论在线性模型还是树模型中衍生特征群模型的F1值都优于基础特征群。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号