首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
刘伟 《松辽学刊》2006,27(4):25-26,33
由于经典的粗糙集理论不能处理原始数据资料中,含有连续属性的数据,需要对这些数据进行连续属性离散化才能用于知识获取,因此数据预处理是粗糙集理论应用中非常重要的一环,其结果将直接影响到粗糙集理论应用的效率,准确度.所以有关基于粗集理论的数据挖掘中数据预处理的方法研究具有非常重要的意义。本文对目前主要的离散化算法进行分析和评价,以中值序列分割点集为基础,提出了一种连续、离散混合离散化改进算法,保证划分后决策表一致性,获得合理的划分点.  相似文献   

2.
针对传统粗糙集理论难以处理数值型数据的特点,提出基于邻域熵的决策表特征约简方法.该方法通过引入邻域关系进行信息粒化,定义邻域熵概念,用来度量数值型数据的不确定性,证明邻域熵的单调性原理,提出基于邻域熵与分类精度加权的特征重要度概念,基于邻域熵单调性原理设计了两种启发式特征约简算法.理论分析与实例表明该方法是有效可行的.  相似文献   

3.
基于Web Log的数据预处理研究   总被引:4,自引:0,他引:4  
Web日志文件是进行Web挖掘的重要数据来源,对Web日志的数据预处理是Web挖掘过程中关键的一步,首先介绍了Web日志挖掘的体系结构,然后详细地分析了Web日志文件,并对基于Web日志文件的数据预处理进行了较深入的研究,提出了包括数据净化、数据抽取、数据转换和数据集成等过程的具有实际应用价值的数据预处理的实现方法。  相似文献   

4.
SDD 1改进算法在Hive中应用   总被引:1,自引:0,他引:1  
针对Hive在处理连接查询时所存在的执行时间长和带宽资源消耗大等问题,提出了一种基于数据预处理和双半连接的SDD-1改进算法.首先,引入预处理技术,在各分布节点对原始数据进行归并排序,以减少汇聚节点的数据映射次数,加快数据处理执行速度;其次,采用基于行和列的双半连接技术,进一步缩减在不同节点间的数据传输量,减少带宽资源消耗.仿真实验表明,相比原始的Hive连接算法,改进算法在元组数达到5 000和8 000时,可使查询速度提升10%,有效缩短查询的处理和响应时间,该改进算法可方便地应用到其他云计算平台上.  相似文献   

5.
基于相似关系的变精度粗糙集的数据约简   总被引:1,自引:0,他引:1  
基于最大相似类的变精度粗糙集模型.此模型把变精度粗糙集的基础由等价关系拓展到条件更弱的相似关系,更好地利用数据间的相关信息,扩大了粗糙集理论的应用范围.讨论了相似变精度粗糙集的性质与属性约简,举例说明了相似的变精度粗糙集在大学生体质检测数据约简中的应用.  相似文献   

6.
采用粗糙集的理论思想,将传统数据库转换成更容易处理的基于属性的决策系统.无需产生候选项集,克服了Apriori算法频繁扫描数据库的缺陷,并采用分割思想.大大提高了算法的执行效率.  相似文献   

7.
由于KNN(K Nearest Neighbor)文本分类器的待分类文本数据维数和计算次数较高,其耗费的时间和空间成本也很高,故引入粗糙集的属性约简算法对待分类的数据进行预处理。提出了基于属性序的处理方法和算法,解决粗糙集属性约简中的NP-hard问题。降低算法计算量从算法本身和运算技巧两个层面出发:在粗糙集区分矩阵的关键环节正区域计算上提出递减式计算方法,减少等价类的计算工作量;运用去停止词的查表法、位置信息在属性序中的引入及倒排索引的检索方法等来进一步降低系统的运行时间和空间成本。通过实验验证,经过粗糙集约简处理的KNN分类系统在分类的准确度、召回率与F值上与没有约简的KNN分类器效果相当,但是系统的时间和空间成本大幅降低。  相似文献   

8.
不完备信息系统粗糙集拓展模型是近几年来粗糙集理论研究的重要内容.该文以基于相容关系、非对称相似关系及限制容差关系的粗糙集模型为特例,提出了基于一般二元关系的可变粗糙集模型,它是基于各种具体的二元关系(如相容关系、非对称相似关系、限制容差关系、量化容差关系等)粗糙集模型的推广,也是不完备信息系统变精度粗糙集模型的一般情形.文中还进一步研究了不完备信息系统可变粗糙集模型的性质.  相似文献   

9.
人工神经网络BP算法密集型数据的预处理   总被引:11,自引:0,他引:11  
针对误差反向传播算法密集数据输入问题,提出一种数据预处理方法。模拟实验表明,采用这种预处理技术可以极大地改善密集型数据输入时网络的学习效率。  相似文献   

10.
属性约简是粗糙集理论的热点研究内容之一,从信息论出发,提出一种新的信息熵定义.约简算法从条件信息熵出发,迭代选择属性重要性最大的属性,得到信息系统的约简.在此基础上,构造基于条件信息熵的不完备信息系统的动态属性约简算法.在删除单个对象的情况下,新算法通过新的数据集有无删除对象的不可区分对象来判断是否更新原有约简.通过实例说明算法的有效性和可行性.  相似文献   

11.
天地图的广泛应用是电子地图配图快速发展的标志。本文使用了ArcGIS10.2平台对"天地图·驻马店"的地理数据进行基础数据的处理,地图配图以及服务的发布和地图的切图。对"天地图·驻马店"公众版矢量电子地图的制作方法进行了研究和探讨,并详细阐述了对点抽稀问题的解决方法。希望最终能为矢量电子地图的制作、更新提供技术路线以及解决有关问题的新思路。  相似文献   

12.
数据挖掘中数据预处理技术综述   总被引:17,自引:0,他引:17  
数据挖掘是数据库系统和信息决策领域的前沿研究方向。论述了数据预处理在数据挖掘中的重要地位,介绍了数据预处理所包含的内容和采用的方法。  相似文献   

13.
介绍了城市坐标系统GPS点位遭到破坏后的恢复方法.首先将不同时期、不同品牌GPS接收机采集的数据纳入网中,然后进行数据检核、基线处理、平差解算,可获得被破坏GPS点的数据.通过对比1980西安坐标系、1954北京坐标系、城市坐标系统的成果,可以看出补测后的坐标与原坐标非常接近,有相同的精度,说明GPS点恢复方法是可行的.  相似文献   

14.
本文论述了机读分类数据标引的作用、规划和方法。  相似文献   

15.
图书资料管理信息系统的设计与实现   总被引:1,自引:0,他引:1  
通过对高校系级资料室图书资料管理信息需求的分析 ,讨论了图书资料管理信息系统的结构与主要功能 ,并对系统的功能实现和特点做了介绍  相似文献   

16.
过程数据压缩研究是流数据管理中的一个重要课题,现有的流数据压缩方法都强调其动态性、持续性与海量性,没有考虑到过程数据的具体特性.为了有效利用过程数据采样的局部特性,在对过程数据进行采样时,只要采样区间不大,则相邻样本数据值之差比较少,该文提出了一种基于误差传播的压缩方法.实验表明,该方法具有高效率与低误差等优点.  相似文献   

17.
探讨如何从数据集成、电子文档及web网页三种数据源中获取描述数据半结构化特性的有向标注图 (OEM图 ) ,并例举了半结构化数据的实际应用  相似文献   

18.
通信计费数据采集与传输融合的研究   总被引:1,自引:0,他引:1  
网络与通信的迅速发展,要求计费数据采集与传输要适应计费的发展.越来越多的网络、交换机种类、业务类型、服务要求和用户终端,要求计费数据采集与传输能够融合多个网络,支持多种类的交换机和业务类型,满足尽可能多的服务要求,兼容尽可能多的操作系统以用来满足不同终端的用户.针对这些要求,对计费数据采集与传输模型及计费数据的采集方式、交换机对数据采集提供的支持进行了研究和探讨.  相似文献   

19.
介绍 Excel2000文档录入编辑的一些使用技巧,以提高工作效率.  相似文献   

20.
张素芳  袁勇  吴锡尊 《松辽学刊》2006,27(1):19-20,31
本文主要探讨依据较低电势扫描速率条件下的[ip,v]数据集而定量获取电活性物质的表面超额等参数的新的信息处理方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号