共查询到10条相似文献,搜索用时 185 毫秒
1.
基于Web Log的数据预处理研究 总被引:4,自引:0,他引:4
Web日志文件是进行Web挖掘的重要数据来源,对Web日志的数据预处理是Web挖掘过程中关键的一步,首先介绍了Web日志挖掘的体系结构,然后详细地分析了Web日志文件,并对基于Web日志文件的数据预处理进行了较深入的研究,提出了包括数据净化、数据抽取、数据转换和数据集成等过程的具有实际应用价值的数据预处理的实现方法。 相似文献
2.
3.
为解决虚拟环境底盘测功机试验系统数据量大且传递频繁,在实时性、数据吞吐量等方面存在局限性问题,将数据分发服务(data distribution service,DDS)技术应用于虚拟环境底盘测功机试验系统。在分析虚拟环境底盘测功机试验原理及数据传输需求的基础上,通过对DDS的技术及应用研究,构建了基于DDS技术的虚拟环境底盘测功机试验系统,建立了各域成员发布订阅模型,注册了数据类型,定义了主题,设计了DDS接口类,实现对DDS接口的封装,解决了试验系统中DDS数据传输关键技术问题。对试验系统的数据传输时延和吞吐量进行了测试分析,结果表明:当数据量达到4 000 kB时,时延为9.4 ms,数据传输吞吐量接近20 Mbit/s,满足车辆底盘测功机虚拟试验系统指标要求。 相似文献
4.
姜晶波 《哈尔滨师范大学自然科学学报》2007,23(5):69-72
如何更加有效地组织、处理海量数据是数据仓库研究的一个热点问题.本文对海量数据仓库的压缩进行了研究和探讨,提出了一种基于压缩的属性划分存储结构.利用对维属性文件进行编码,来压缩整个数据集合.分析表明该压缩方法与存储结构可以获得很高的数据压缩比和操作效率. 相似文献
5.
利用数据空间动态网格划分的方法,对数据流空间的数据分布密度情况进行模拟,并在此基础上提出了一种基于密度的偏倚抽样方法.为验证该抽样方法的有效性,将其应用到数据流中的聚类挖掘,实验结果表明该算法具有良好的适用性和有效性. 相似文献
6.
由于传感误差、传感噪声、传输错误等因素的影响,同一个传感区域内多个传感器节点的传感数据具有一定程度的差异,这种差异导致的区域不确定性传感数据给查询、预测等后续深层次的数据处理提出了严峻挑战.针对这类传感数据的预测问题,提出一种基于多变量主元分析(multiple variable principal component analysis,MVPCA)的不确定性传感数据预测方法. 通过MVPCA的特征提取这一预处理手段获得不确定性传感数据的本质特征,然后采用基于相关分析的多元回归方法对这些数据进行建模和预测. 实际传感数据的实验结果表明,该方法能有效解决不确定性传感数据的预测问题. 相似文献
7.
8.
数据流管理与分析的研究是目前国际数据库领域的一个研究热点,数据流上回归分析是一项非常必要而有意义的工作.结合数据流的特征,研究了时间序列数据流的回归分析与预测技术,以及一元线性回归方程的聚集技术,给出了时间序列数据流上的一元线性回归分析模型.在此基础上,提出了一种数据流上的预测模型.最后,试验分析展示了研究结果能够有效地产生时间序列数据流的回归模型和实现数据流未来数据的预测. 相似文献
9.
在临床重症病人的连续观测中,医疗设备及其上的传感器会产生数量庞大的流式数据,传统的数据库管理方式无法适应这一不确定性强、实时处理要求高的数据流.本文提出一个适合医疗设备数据处理的数据流模型,并分析其系统结构、查询计划、查询语言以及网络适应性. 相似文献