首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
为了弥补基于集中式处理的分布式数据挖掘方法的不足,有效地实施分布式数据挖掘(DDM)任务,需要一种能从分布式数据源中获取多样化代表性取样集的技术.提出了一种新的适用于分布式数据挖掘环境的数据取样算法(OptiSim-DDM方法),算法核心是基于最优K相异性进行数据选择,采用移动Agent技术和扩展的最优K相异性数据多样化代表性子集选择方法,能在各分布式数据场地中轮转选择出全局数据集的多样化代表性取样集.该方法通过降低所挖掘的数据集的数据规模来降低数据挖掘算法的时空复杂度,降低网络通讯代价,提高数据挖掘的执行效率,适合于各场地数据是互相关联和互相依赖的分布式数据挖掘任务.实验结果证实该方法是可行、有效的.  相似文献   

2.
特征选择技术是数据降维的一种关键技术,由于采集到的数据样本标签信息缺失,无监督特征选择受到了更多人的关注。现有的无监督特征选择算法普适性及稳定性很低,受数据集结构的影响很大,因此很多研究者一直热衷于提高算法的稳定性。该文尝试从数据集的预处理出发,采用区间的方式来对数据集进行近似,得到与数据集相关联的几个数据集,通过实验验证新的区间数据集的优劣性,并思考从全局的角度对数据集进行处理,进一步提出了一种新的模型——基于邻域区间扰动融合的无监督特征选择算法框架(Unsupervised feature selection algorithm framework based on neighborhood interval disturbance fusion, NIDF)。该模型可实现对特征的最终得分和近似数据区间的联合学习,通过与原始无监督特征选择方法以及现有的几种特征选择框架的对比,体现出该文提出的模型的优越性。  相似文献   

3.
R软件的数据挖掘应用   总被引:1,自引:0,他引:1       下载免费PDF全文
开源R软件集成了各种的数据分析和可视化方法,具备强大的数据分析功能和良好的可扩展性,适用于数据挖掘;结合城市主要经济指标的数据挖掘案例,给出了R软件在挖掘过程中各主要阶段的应用方法;数据准备阶段包括数据抽取、数据选择与统计分析应用;挖掘建模阶段给出了聚类和分类的典型挖掘应用;模型评估阶段给出了决策树的评估方法;从简洁的R语言脚本设计和良好的分析效果,展示了R软件的基本特点和在数据挖掘应用中的优势。  相似文献   

4.
现阶段数据挖掘模型的选择与专家的经验密切相关,有经验的专家就会选择良好的,优质的模型,使得挖掘工作高效、准确;反之,就会浪费时间,或得不到理想的结果,因此数据挖掘模型的设计和选择是挖掘工作的关键。本文要建立一个模型,实现挖掘目标的特征集与挖掘算法集合间的对应关系。应用该模型,用户可以得到最佳的挖掘方法,应用这种挖掘方法就可最好地实现挖掘目标。  相似文献   

5.
对学院教务管理系统的学生成绩库进行数据挖掘、数据预处理,生成学生成绩训练集,采用改进的ID3算法递归创建学生综合技能评估决策树.决策者通过该模型,分析专业核心课程间的相互支撑关系,易于决策者对学生综合技能分析评估.对提高教学整体质量,科学地构建和整合专业核心课程体系,有一定的理论价值和实践意义.  相似文献   

6.
目前统计分析面临的数据大多不再是预先设定的样本数据,而是杂乱、不规范的大规模的海量数据,所以统计分析之前进行数据预处理是非常必要的。采用数据挖掘技术,对存在空缺值、噪声数据等不规范的数据集进行清理,对海量数据进行维规约和自动产生概念分层处理,以缩小数据集的规模。经过预处理的数据集能更好地适应原有统计方法,并提高了统计质量。  相似文献   

7.
数据挖掘中并行离散化数据准备优化   总被引:2,自引:0,他引:2  
在海量数据挖掘中,针对元数据的离散化数据准备处理能有效提高数据挖掘效率.本文提出了一种并行比较并获得最优离散化的数据准备算法(AOA),针对不同数据集,先进行数据集的特性检测以获得数据集分布特性,按照分布特性进行数据集的异常值检测和剔除,并行完成与分布特性适配的离散化方法处理,通过比较不同离散化方法的熵、方差指数、稳定性参数的最小欧氏距离,根据三个参数自动化比选,获得最优离散化的预处理成果.仿真表明,对不同样本数据库进行关联规则挖掘结果中,比较四种固定的离散化数据预处理方法,在使用AOA数据准备算法并行比选出最优的离散化来数据预处理后,在不同最小支持度阈值情况下,挖掘得到关联规则数都更少,因此效率得到提高.  相似文献   

8.
Web日志挖掘中数据预处理技术研究   总被引:2,自引:0,他引:2  
Web日志挖掘的基本思想是将数据挖掘技术应用于Web日志数据源。在数据挖掘研究领域中,数据预处理起着至关重要的作用。Web日志挖掘的数据源最主要的是Web日志,根据Web日志的特点,在预处理过程中的会话识别阶段给出一种基于过滤框架网页与页面访问时间阈值相结合的会话识别方法,实验数据验证说明该方法可以显著地提高Web日志挖掘结果的兴趣性。  相似文献   

9.
在机器学习任务中,特征选择是重要的数据预处理,可为获得较好的特征数据集,有利于训练产生精确度、可靠性等适应能力较强的学习模型.通过不同的评估策略,应用多种特征选择方法挖掘出有利学习模型的特定数据集,提出了基于单信息特征评估策略作为搜索特征子集的初始方法,并结合典型特征选择方法进行比较研究,实验结果表明该方法可提高分类的运行效率和准确度.  相似文献   

10.
基于SVM分类算法和Web服务框架,提出了一种医疗数据分析与疾病预测模型,改进了医疗数据分析系统与医院数据库之间的数据传输协议.采用该模型与长春某三级甲等医院合作,获取了总共1 695条病人电子病历数据与病人疾病信息作为实验数据,并在医疗数据分析系统中进行数据挖掘分析.通过数据条数的变化和对属性的控制来测试设计的数据分析模型和改进的数据传输协议的传输效率.实验表明,在传输数据之前对数据进行预处理并且通过特征选择算法进行降维处理有助于提高整个系统的医疗数据传输效率和预测准确度.  相似文献   

11.
数据仓库中的数据模型技术   总被引:2,自引:0,他引:2  
概括分析了数据仓库的数据特征;介绍了实体关系模型和多维模型,重点分析了其建模技术的基本原理;简要分析了两种数据模型的特点,对两的优劣进行了总结和对比;最后,对数据仓库环境中宜选择哪种数据模型进行了一般性的讨论。  相似文献   

12.
Web日志挖掘是Web使用挖掘一个最重要研究领域,数据预处理是Web日志挖掘中的关键技术之一。论述了数据预处理各主要步骤的方法和技术,重点研究了用户识别和会话识别。  相似文献   

13.
白冰  张晶  苏勇 《科学技术与工程》2007,7(18):4741-47454749
收视率是衡量电视节日质量的重要指标,而质量不高的收视调查数据将导致收视率指标计算的不准确。为解决基于数据挖掘的电视收视率分析的数据问题,就调查数据进行了有效的前期处理,其中涉及原始数据的正确录入,对存入数据库的原始数据实施的数据清理、数据变换、数据归约技术和应用的模糊集理论。实验结果表明在预处理后的收视率资料库中能够挖掘出知识,为收视率应用提供了有力支持。  相似文献   

14.
数据     
《信息化建设》2008,(3):62-62
教育部将投资10亿用于教育电子政务的应用;公安部等13部门整治网络秩序;深圳市今年实现行政项目100%网上申请;去年电子信息业增加值增长18%  相似文献   

15.
数据     
《信息化建设》2006,(11):62-62
浙江省16个省直单位实行网上值班制度,3年之内长沙市80%以上政府职能网上公开  相似文献   

16.
数据     
《信息化建设》2008,(12):60-60
我国各级政府网站拥有比例已超过86% 据国家发展和改革委员会透露,我国国家电子政务外网目前已初步具备了向政务部门提供网络接入、应用支撑和安全保障等服务能力,已有12项国家政务部门业务在政务外网上运行,20多个省区市已建省级政务外网,部分已覆盖到地县基层政务部门。  相似文献   

17.
数据     
《信息化建设》2008,(4):64-64
信产部:信产行业实利用外资负增长,500强企业电子商务销售比率上升到31.03%,1-2月南京市26万件次行政权力事项实现网上办理,广西建设服务型政府平均提速32.7%  相似文献   

18.
数据     
《信息化建设》2008,(8):64-64
沈阳:政府信息公开不晚于20个工作日;全球在线购物网民达85%;中国网民数量达2.53亿。  相似文献   

19.
数据仓库数据加载技术   总被引:2,自引:0,他引:2       下载免费PDF全文
数据仓库中的数据不是传统数据库中数据的简单堆积,其数据的组织必须方便基于数据仓库基础之上的数据挖掘和商业智能工作,为决策者提供访问、分析及共享信息的能力,从而发挥数据仓库的真正功效。成功构造一个数据仓库的关键在于自始至终理解用户需要,紧紧围绕用户目标这一主题进行数据的搜集和存储。首先分析数据仓库的特点及拥有的数据类别及组成,重点介绍如何从现有数据库中有效地将数据引导至数据仓库的方法和策略,具体给出了数据仓库中5种不同类别数据的加载方法。  相似文献   

20.
首先提出了数据仓库中数据集成的一个总体框架;然后探讨了数据集成在数据仓库设计方案中的作用、所要解决的问题、工作流程等;最后,介绍作者依据这一框架所开发的"铁路货票信息综合利用系统数据仓库解决方案"的数据集成工具DWE-DI.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号