共查询到20条相似文献,搜索用时 62 毫秒
1.
由于经典的粗糙集理论不能处理原始数据资料中,含有连续属性的数据,需要对这些数据进行连续属性离散化才能用于知识获取,因此数据预处理是粗糙集理论应用中非常重要的一环,其结果将直接影响到粗糙集理论应用的效率,准确度.所以有关基于粗集理论的数据挖掘中数据预处理的方法研究具有非常重要的意义。本文对目前主要的离散化算法进行分析和评价,以中值序列分割点集为基础,提出了一种连续、离散混合离散化改进算法,保证划分后决策表一致性,获得合理的划分点. 相似文献
2.
3.
基于Web Log的数据预处理研究 总被引:4,自引:0,他引:4
Web日志文件是进行Web挖掘的重要数据来源,对Web日志的数据预处理是Web挖掘过程中关键的一步,首先介绍了Web日志挖掘的体系结构,然后详细地分析了Web日志文件,并对基于Web日志文件的数据预处理进行了较深入的研究,提出了包括数据净化、数据抽取、数据转换和数据集成等过程的具有实际应用价值的数据预处理的实现方法。 相似文献
4.
SDD 1改进算法在Hive中应用 总被引:1,自引:0,他引:1
针对Hive在处理连接查询时所存在的执行时间长和带宽资源消耗大等问题,提出了一种基于数据预处理和双半连接的SDD-1改进算法.首先,引入预处理技术,在各分布节点对原始数据进行归并排序,以减少汇聚节点的数据映射次数,加快数据处理执行速度;其次,采用基于行和列的双半连接技术,进一步缩减在不同节点间的数据传输量,减少带宽资源消耗.仿真实验表明,相比原始的Hive连接算法,改进算法在元组数达到5 000和8 000时,可使查询速度提升10%,有效缩短查询的处理和响应时间,该改进算法可方便地应用到其他云计算平台上. 相似文献
5.
基于相似关系的变精度粗糙集的数据约简 总被引:1,自引:0,他引:1
柴造坡 《哈尔滨师范大学自然科学学报》2009,25(4):18-21
基于最大相似类的变精度粗糙集模型.此模型把变精度粗糙集的基础由等价关系拓展到条件更弱的相似关系,更好地利用数据间的相关信息,扩大了粗糙集理论的应用范围.讨论了相似变精度粗糙集的性质与属性约简,举例说明了相似的变精度粗糙集在大学生体质检测数据约简中的应用. 相似文献
6.
采用粗糙集的理论思想,将传统数据库转换成更容易处理的基于属性的决策系统.无需产生候选项集,克服了Apriori算法频繁扫描数据库的缺陷,并采用分割思想.大大提高了算法的执行效率. 相似文献
7.
《黑龙江大学自然科学学报》2015,(3)
由于KNN(K Nearest Neighbor)文本分类器的待分类文本数据维数和计算次数较高,其耗费的时间和空间成本也很高,故引入粗糙集的属性约简算法对待分类的数据进行预处理。提出了基于属性序的处理方法和算法,解决粗糙集属性约简中的NP-hard问题。降低算法计算量从算法本身和运算技巧两个层面出发:在粗糙集区分矩阵的关键环节正区域计算上提出递减式计算方法,减少等价类的计算工作量;运用去停止词的查表法、位置信息在属性序中的引入及倒排索引的检索方法等来进一步降低系统的运行时间和空间成本。通过实验验证,经过粗糙集约简处理的KNN分类系统在分类的准确度、召回率与F值上与没有约简的KNN分类器效果相当,但是系统的时间和空间成本大幅降低。 相似文献
8.
不完备信息系统粗糙集拓展模型是近几年来粗糙集理论研究的重要内容.该文以基于相容关系、非对称相似关系及限制容差关系的粗糙集模型为特例,提出了基于一般二元关系的可变粗糙集模型,它是基于各种具体的二元关系(如相容关系、非对称相似关系、限制容差关系、量化容差关系等)粗糙集模型的推广,也是不完备信息系统变精度粗糙集模型的一般情形.文中还进一步研究了不完备信息系统可变粗糙集模型的性质. 相似文献
9.
人工神经网络BP算法密集型数据的预处理 总被引:11,自引:0,他引:11
针对误差反向传播算法密集数据输入问题,提出一种数据预处理方法。模拟实验表明,采用这种预处理技术可以极大地改善密集型数据输入时网络的学习效率。 相似文献
10.
11.
12.
13.
15.
图书资料管理信息系统的设计与实现 总被引:1,自引:0,他引:1
通过对高校系级资料室图书资料管理信息需求的分析 ,讨论了图书资料管理信息系统的结构与主要功能 ,并对系统的功能实现和特点做了介绍 相似文献
16.
过程数据压缩研究是流数据管理中的一个重要课题,现有的流数据压缩方法都强调其动态性、持续性与海量性,没有考虑到过程数据的具体特性.为了有效利用过程数据采样的局部特性,在对过程数据进行采样时,只要采样区间不大,则相邻样本数据值之差比较少,该文提出了一种基于误差传播的压缩方法.实验表明,该方法具有高效率与低误差等优点. 相似文献
17.
探讨如何从数据集成、电子文档及web网页三种数据源中获取描述数据半结构化特性的有向标注图 (OEM图 ) ,并例举了半结构化数据的实际应用 相似文献
18.
通信计费数据采集与传输融合的研究 总被引:1,自引:0,他引:1
网络与通信的迅速发展,要求计费数据采集与传输要适应计费的发展.越来越多的网络、交换机种类、业务类型、服务要求和用户终端,要求计费数据采集与传输能够融合多个网络,支持多种类的交换机和业务类型,满足尽可能多的服务要求,兼容尽可能多的操作系统以用来满足不同终端的用户.针对这些要求,对计费数据采集与传输模型及计费数据的采集方式、交换机对数据采集提供的支持进行了研究和探讨. 相似文献
19.