共查询到20条相似文献,搜索用时 125 毫秒
1.
讨论基于数据规约的近似挖掘技术,在数据预处理阶段对海量数据集进行数据规约.近似数据挖掘的工作流程包括任务定义、数据准备与预处理、数据挖掘建模、结果的解释与评估、模型发布与应用5个阶段.同时,提出使用属性选择和实例选择方法实现近似挖掘的方案,并对该方案进行挖掘效率和结果模型准确性的分析评估.该方案能满足对企业级大数据集进行高效挖掘的需要. 相似文献
2.
R软件的数据挖掘应用 总被引:1,自引:0,他引:1
陈荣鑫 《重庆工商大学学报(自然科学版)》2011,28(6):602-607
开源R软件集成了各种的数据分析和可视化方法,具备强大的数据分析功能和良好的可扩展性,适用于数据挖掘;结合城市主要经济指标的数据挖掘案例,给出了R软件在挖掘过程中各主要阶段的应用方法;数据准备阶段包括数据抽取、数据选择与统计分析应用;挖掘建模阶段给出了聚类和分类的典型挖掘应用;模型评估阶段给出了决策树的评估方法;从简洁的R语言脚本设计和良好的分析效果,展示了R软件的基本特点和在数据挖掘应用中的优势。 相似文献
3.
基于SOA的数据挖掘服务整合研究与设计 总被引:1,自引:1,他引:0
数据挖掘过程与挖掘工具的紧密结合影响了数据挖掘应用和数据挖掘工具的广泛使用,而SOA这种体系架构却可以实现服务提供者与服务消费者之间的松散耦合。Web Services实现了服务消费者动态绑定不同的服务提供者,从而实现了在数据挖掘应用中数据挖掘服务的整合。在整合过程中JDM可以为访问各种不同数据挖掘工具提供统一的标准。这种模型通过将原有的数据挖掘工具封装成可共享的Web服务,实现了对原有数据挖掘应用的复用。系统中的数据挖掘服务层利用Web Services与JDM将各种不同挖掘工具封装成标准服务,服务单元层通过UDDI将这些服务进行注册,业务流程层则根据数据挖掘任务查找服务单元层然后通过SOAP实现服务的调用。 相似文献
4.
5.
数据挖掘与数据库的集成方法 总被引:5,自引:0,他引:5
数据挖掘的研究主要集中在挖掘算法上,但在数据库领域至关重要的数据挖掘系统与数据库的有效集成研究却很少,为此,在详细研究了数据挖掘耦合数据库的主要方法(通过SQL(Structured Query Language)游标接口读取数据、保存数据至本地磁盘cache进行挖掘、用存储过程封装挖掘算法、采用用户自定义函数表达挖掘算法以及通过扩展SQL直接操作挖掘模型)的基础上,指出在实现数据挖掘同数据库无缝集成的发展过程中,在现有的DB/DW中集成数据挖掘系统并提供应用程序和自定义挖掘算法的接口、研究推出标准数据挖掘语言是实现数据挖掘系统与数据库有效集成的关键技术。 相似文献
6.
7.
动态取证势必会产生大量的杂乱无章数据.如何对大量繁杂的数据进行有效的分析,成为动态取证的关键问题.提出了基于本体的数据挖掘模型,利用此模型实现了高精度的语义挖掘,根据挖掘结果提供了预警防范服务,利用关联规则具体说明了基于本体的数据挖掘的过程,并用贝叶斯网络模型简单计算了实例本体间的关联程度,实现了关联挖掘.应用实例表明基于Ontology的数据挖掘提高了对攻击源定位追踪的准确性和实时性. 相似文献
8.
数据挖掘在智能交通系统中的应用 总被引:2,自引:0,他引:2
目的将数据挖掘技术应用于智能交通系统中,利用挖掘得到的模式对交通管理决策提供有效支持。方法针对交通数据库系统中数据的特点,提出了基于概化的数据预处理方法,并在此基础上,采用基于树模型的关联规则挖掘算法进行关联规则挖掘。结果获得了良好的挖掘模式。实际应用说明了挖掘结果的有效性及可行性。结论数据挖掘技术在智能交通系统中的成功应用,为交通管理决策提供了有效支持,且提出的方法易于实现,便于推广。 相似文献
9.
为实现梭式窑燃烧控制运行的空燃气优化配比以及温度控制科学决策,研究并设计出一种基于关联规则数据挖掘的专家系统。详细地论述了数据挖掘基础知识以及使用关联规则理论挖掘的方法。重点设计并介绍了燃烧控制专家系统的各个部分详细组成。最后还给出了基于关联规则的燃烧控制专家推理算法并进行了实际应用举例。实践表明,该专家系统模型适应性好,推理结果可靠稳定,具有比较好推广应用价值。 相似文献
10.
11.
12.
利用审计程序提取了一个能够描述每个网络连接或者主机会话的扩展的属性集 ,并利用数据挖掘程序学习那些可以精确描述入侵行为和正常活动的规则 .这些规则可以用于滥用检测和异常检测 .并且提出了一个数据挖掘在构建可扩展的入侵检测系统时的框架 ,针对不同方式的入侵 ,该框架采用不同的模式进行检测 ,并形成最后的结论 相似文献
13.
针对选择Gap Statistic(GS)方法估计聚类数能够得到数据集的粗略分类,但不能进一步对数据集进行细分类这一问题,对GS方法进行改进;将Gap统计量引入到ISODATA算法中,提出了IGS模型;实证表明,IGS模型不仅可以实现数据的细分类,而且通过IGS模型估计数据集的最佳分类数准确率明显高于原GS模型。 相似文献
14.
传统的关联规则的挖掘,只考虑某商品是否出现在交易数据中,得不到商品的数量信息.改造关联规则的挖掘方法从交易库中挖掘某商品的最佳打包组合,可以为决策支持系统提供更好的服务. 相似文献
15.
互联网等信息技术的迅猛发展使网络中积累了大量半结构化和非结构化的文本数据,如何从这些海量电子文档中获取需要的信息并以高效直观信息图的形式展现,成为统计分析工作者的一项主要任务。文字云是信息图表达的一种新型文本显示方式,利用文字云和主题模型文本挖掘方法,对文本进行移除数字、去除停用词等预处理操作,然后执行中文分词,构建语料库,建立文档-词条矩阵,最后以文字云和主题模型的形式呈现挖掘结果。实验中主要利用R语言,以多年粗糙集会议纪要为实验数据进行了相关统计分析,并对比了 Tagxedo文字云生成器,结果表明,从文字云中比较容易获取文本的重要信息如主题模型等,挖掘效果较好。 相似文献
16.
观点挖掘能自动对网络上大量的非结构化文本进行分析,得到有价值的观点态度,因为中文在机器语言处理中存在一些自身的特点和难点,相关研究进展较缓慢。本文提出了中文依赖语法的观点挖掘模型,介绍了文本爬取和文本预处理技术;采用了向量空间模型表示文本向量,介绍了基于中文依赖语法的特征抽取方法,在此基础上加入了评价对象提取的思想;采用知网情感词典作为判别主观字极性的基础,并对主观字极性评估方法做了相关改进。以建立一个全面、准确的中文观点分析模型为目标。 相似文献
17.
18.
针对目前大多数中医药数据挖掘研究中使用单一且基础的算法而出现的问题,设计并实现一种通过策略模式智能优选中医药数据挖掘方法的平台(TCM data strategy model analysis platform, TCMDP)。根据策略模式的思想,集成以下4个数据挖掘模块,统计学分析模块可对药物、药物种类、四气五味归经和药物功效进行统计学分析;关联规则挖掘模块可以分析处方中的药物关联性;聚类分析模块可获取药物组合得出聚类新方,通过分析结果来探讨肺癌处方的配伍规律;证型分类模块以电子病历的中医症状和四诊信息作为输入,将相关证型作为输出,构建证型分类模型。综上实现了基于策略模式的中医药数据智能挖掘平台,并运用该平台对中医临床治疗肺癌的中药处方进行用药规律和证型分类研究。结果表明:以痰瘀互结证肺癌病例为例,关联规则挖掘模块中WD-Get Rule算法的运行时间最少仅为0.038 s。聚类分析模块中CMC-DD算法分析时间略长但精确率高达87%。肺癌证型分类分析模块中PSO-ELM运行时间短为88.98 s,且模型平均精确率达88.44%,具有一定的临床参考价值。而本平台所采用的改进算法均优于... 相似文献
19.
为了实现防空信息战效能的模糊评价,清除指标隶属度中对目标分类不起作用的冗余值,用基于熵的数据挖掘方法,通过挖掘隐藏在各指标隶属度中关于目标分类的知识信息,理清目标分类与指标隶属度之间的关系,定义区分权清除指标隶属度中对目标分类不起作用的冗余值,并提取有效值计算目标隶属度.防空信息战效能模糊评价的事例分析表明:具有多指标属性的决策问题,为了排除冗余值的干扰,则隶属度转换模型可作为有效的方法.基于熵的数据挖掘方法有效解决了模糊评价中冗余数据的干扰,从而解决了一大批多指标的决策问题. 相似文献
20.
特征构造的难题在数据挖掘过程中一直存在,传统固化的特征工程对于业务场景千变万化的数据挖掘任务所带来的效益十分有限,因此解决特征工程的特征构造问题已经成为数据挖掘的瓶颈之一;尤其在机器学习算法快速发展的情况下,特征逐渐成为模型中急需重视的部分。基于电商平台的用户行为数据,在原有特征群的基础上提出了二次组合统计特征的构建方法。利用二次交叉衍生出丰富而又切合业务场景的特征群,同时结合两种滑动窗口的方法,分别是定长滑动窗口获取更多的训练样本,变长滑动窗口获取具有时间权重的训练特征,以此来最大限度地还原出用户真实的行为习惯。最后,使用不同的特征组合结合降维的方法建立对照检验模型;并利用线性的逻辑回归模型、线性支持向量机以及树模型极端随机森林与XGBoost对模型进行交叉验证。结果表明,组合特征在树模型的算法中得到了非常好的表达效果;而且无论在线性模型还是树模型中衍生特征群模型的F1值都优于基础特征群。 相似文献