共查询到20条相似文献,搜索用时 46 毫秒
1.
为了弥补基于集中式处理的分布式数据挖掘方法的不足,有效地实施分布式数据挖掘(DDM)任务,需要一种能从分布式数据源中获取多样化代表性取样集的技术.提出了一种新的适用于分布式数据挖掘环境的数据取样算法(OptiSim-DDM方法),算法核心是基于最优K相异性进行数据选择,采用移动Agent技术和扩展的最优K相异性数据多样化代表性子集选择方法,能在各分布式数据场地中轮转选择出全局数据集的多样化代表性取样集.该方法通过降低所挖掘的数据集的数据规模来降低数据挖掘算法的时空复杂度,降低网络通讯代价,提高数据挖掘的执行效率,适合于各场地数据是互相关联和互相依赖的分布式数据挖掘任务.实验结果证实该方法是可行、有效的. 相似文献
2.
《南京理工大学学报(自然科学版)》2021,45(4)
特征选择技术是数据降维的一种关键技术,由于采集到的数据样本标签信息缺失,无监督特征选择受到了更多人的关注。现有的无监督特征选择算法普适性及稳定性很低,受数据集结构的影响很大,因此很多研究者一直热衷于提高算法的稳定性。该文尝试从数据集的预处理出发,采用区间的方式来对数据集进行近似,得到与数据集相关联的几个数据集,通过实验验证新的区间数据集的优劣性,并思考从全局的角度对数据集进行处理,进一步提出了一种新的模型——基于邻域区间扰动融合的无监督特征选择算法框架(Unsupervised feature selection algorithm framework based on neighborhood interval disturbance fusion, NIDF)。该模型可实现对特征的最终得分和近似数据区间的联合学习,通过与原始无监督特征选择方法以及现有的几种特征选择框架的对比,体现出该文提出的模型的优越性。 相似文献
3.
陈荣鑫 《重庆工商大学学报(自然科学版)》2011,28(6):602-607
开源R软件集成了各种的数据分析和可视化方法,具备强大的数据分析功能和良好的可扩展性,适用于数据挖掘;结合城市主要经济指标的数据挖掘案例,给出了R软件在挖掘过程中各主要阶段的应用方法;数据准备阶段包括数据抽取、数据选择与统计分析应用;挖掘建模阶段给出了聚类和分类的典型挖掘应用;模型评估阶段给出了决策树的评估方法;从简洁的R语言脚本设计和良好的分析效果,展示了R软件的基本特点和在数据挖掘应用中的优势。 相似文献
4.
5.
对学院教务管理系统的学生成绩库进行数据挖掘、数据预处理,生成学生成绩训练集,采用改进的ID3算法递归创建学生综合技能评估决策树.决策者通过该模型,分析专业核心课程间的相互支撑关系,易于决策者对学生综合技能分析评估.对提高教学整体质量,科学地构建和整合专业核心课程体系,有一定的理论价值和实践意义. 相似文献
6.
目前统计分析面临的数据大多不再是预先设定的样本数据,而是杂乱、不规范的大规模的海量数据,所以统计分析之前进行数据预处理是非常必要的。采用数据挖掘技术,对存在空缺值、噪声数据等不规范的数据集进行清理,对海量数据进行维规约和自动产生概念分层处理,以缩小数据集的规模。经过预处理的数据集能更好地适应原有统计方法,并提高了统计质量。 相似文献
7.
数据挖掘中并行离散化数据准备优化 总被引:2,自引:0,他引:2
在海量数据挖掘中,针对元数据的离散化数据准备处理能有效提高数据挖掘效率.本文提出了一种并行比较并获得最优离散化的数据准备算法(AOA),针对不同数据集,先进行数据集的特性检测以获得数据集分布特性,按照分布特性进行数据集的异常值检测和剔除,并行完成与分布特性适配的离散化方法处理,通过比较不同离散化方法的熵、方差指数、稳定性参数的最小欧氏距离,根据三个参数自动化比选,获得最优离散化的预处理成果.仿真表明,对不同样本数据库进行关联规则挖掘结果中,比较四种固定的离散化数据预处理方法,在使用AOA数据准备算法并行比选出最优的离散化来数据预处理后,在不同最小支持度阈值情况下,挖掘得到关联规则数都更少,因此效率得到提高. 相似文献
8.
Web日志挖掘中数据预处理技术研究 总被引:2,自引:0,他引:2
Web日志挖掘的基本思想是将数据挖掘技术应用于Web日志数据源。在数据挖掘研究领域中,数据预处理起着至关重要的作用。Web日志挖掘的数据源最主要的是Web日志,根据Web日志的特点,在预处理过程中的会话识别阶段给出一种基于过滤框架网页与页面访问时间阈值相结合的会话识别方法,实验数据验证说明该方法可以显著地提高Web日志挖掘结果的兴趣性。 相似文献
9.
10.
基于SVM分类算法和Web服务框架,提出了一种医疗数据分析与疾病预测模型,改进了医疗数据分析系统与医院数据库之间的数据传输协议.采用该模型与长春某三级甲等医院合作,获取了总共1 695条病人电子病历数据与病人疾病信息作为实验数据,并在医疗数据分析系统中进行数据挖掘分析.通过数据条数的变化和对属性的控制来测试设计的数据分析模型和改进的数据传输协议的传输效率.实验表明,在传输数据之前对数据进行预处理并且通过特征选择算法进行降维处理有助于提高整个系统的医疗数据传输效率和预测准确度. 相似文献
11.
数据仓库中的数据模型技术 总被引:2,自引:0,他引:2
王孝成 《湖南工程学院学报(自然科学版)》2002,12(3):55-59
概括分析了数据仓库的数据特征;介绍了实体关系模型和多维模型,重点分析了其建模技术的基本原理;简要分析了两种数据模型的特点,对两的优劣进行了总结和对比;最后,对数据仓库环境中宜选择哪种数据模型进行了一般性的讨论。 相似文献
12.
Web日志挖掘是Web使用挖掘一个最重要研究领域,数据预处理是Web日志挖掘中的关键技术之一。论述了数据预处理各主要步骤的方法和技术,重点研究了用户识别和会话识别。 相似文献
13.
14.
16.
17.
19.
数据仓库中的数据不是传统数据库中数据的简单堆积,其数据的组织必须方便基于数据仓库基础之上的数据挖掘和商业智能工作,为决策者提供访问、分析及共享信息的能力,从而发挥数据仓库的真正功效。成功构造一个数据仓库的关键在于自始至终理解用户需要,紧紧围绕用户目标这一主题进行数据的搜集和存储。首先分析数据仓库的特点及拥有的数据类别及组成,重点介绍如何从现有数据库中有效地将数据引导至数据仓库的方法和策略,具体给出了数据仓库中5种不同类别数据的加载方法。 相似文献
20.
首先提出了数据仓库中数据集成的一个总体框架;然后探讨了数据集成在数据仓库设计方案中的作用、所要解决的问题、工作流程等;最后,介绍作者依据这一框架所开发的"铁路货票信息综合利用系统数据仓库解决方案"的数据集成工具DWE-DI. 相似文献