首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
指出了数据预处理在Web使用挖掘中的重要性,详细分析了Web使用挖掘数据预处理过程,在每个数据预处理的每个阶段给出了一些规则并针对这些规则设计和实现了相应的预处理算法.实验结果证明这些算法是有效的.  相似文献   

2.
分析数据挖掘领域的聚类分析方法及代表算法,比较这些算法的性能,对数据挖掘中的谱系聚类进行举例说明.实践证明谱系聚类是一种有效的可用于数据预处理的离散化方法,可以快速和合理的解决粗糙集数据挖掘中数据预处理的问题.  相似文献   

3.
探讨数据挖掘过程中,数据预处理应用粗糙集理论进行属性和属性值约简的方法以及用计算机实现约简的算法.通过对医疗数据的预处理表明,利用粗糙集理论来进行数据预处理是一种十分有效的精简、求最小决策算法的有效方法.  相似文献   

4.
局部切空间排列算法(LTSA)是一种有效的流形学习方法,但该算法对孤立点的存在非常敏感.本文提出了一种快速有效的数据预处理方法-基于改进距离的孤立点检测方法来降低孤立点对LTSA算法的影响.该方法通过改进距离来度量样本点之间的距离,降低了样本点分布不均给孤立点检测算法带来的影响.实验表明,该数据预处理方法能有效地提高LTSA算法的鲁棒性,可以更好的挖掘数据集的本征特性,具有更好的数据可视化效果.  相似文献   

5.
为解决室内环境中移动机器人的自主导航问题,提出了一种基于结构化环境的线性距离特征提取算法。首先通过建立机器人运动模型,对激光雷达获得的点云数据进行预处理。然后采用聚类算法对预处理后的数据进行分割和合并。采用正交拟合算法,估算特征线段的最大角度公差,并提取竖直和水平特征线进行误差纠正。仿真实验结果表明:算法可有效提取室内环境特征线段并建立特征地图。同时调用数据集与ICP(iterative closest point)算法进行对比测试,结果表明使用该算法构建环境地图,可见使用此算法可降低建图时间复杂度,同时提高地图匹配精度。  相似文献   

6.
由于化工生产过程数据具有强非线性和非高斯性特征,提出了核主元分析与核独立元分析相结合的可用于化工过程故障诊断的双核独立元分析算法,该算法利用核主元分析的非线性核函数把数据从原空间映射到高维特征空间进行白化预处理,再用核独立元分析算法进行独立元分析,在特征空间中获得故障监控统计量,计算控制置信限,达到有效的故障诊断.提出的算法应用在连续搅拌反应釜过程中,结果表明,该算法对化工过程故障诊断能有效提高准确度、降低漏报率和误报率.  相似文献   

7.
为了提高大数据环境下高维非线性数据的处理速度和精确度,提出一种结合主成分分析(PCA)的基于t分布的随机近邻嵌入(t-SNE)算法.首先,通过主成分分析法对原始数据进行预处理,去除噪声点;然后,结合t-SNE算法,构建K最邻近(K-NN)图,以表示高维空间中数据的相似关系;最后,在Spark平台上进行并行化运算,并在BREAST CANCER,MNIST和CIFAR-10数据集上进行实验.结果表明:文中算法完成了高维数据至低维空间的有效映射,提升了算法的效率和精确度,可应用于大规模高维数据的降维.  相似文献   

8.
数据预处理在高速公路收费系统中的应用   总被引:1,自引:0,他引:1  
常博  李振伟 《科技资讯》2010,(27):103-104
本文利用数据预处理技术,将高速公路收费系统中的海量信息进行处理,去除数据中的重复、冗余以及错误信息,提高了系统的稳定性和高效性,也为系统的有效数据挖掘奠定了基础。本文基于最新的.NET技术,对数据预处理算法进行了具体实现,并结合SQL Server2005给出了实现结果。  相似文献   

9.
就基于数据预处理的入侵检测系统进行了研究,并针对数据预处理子系统,提出了一种有效的预处理方法,即将对数据源的基本处理和基于TCM-KNN算法的数据预处理聚类器相结合。实验证明,经过预处理的数据,不仅使不完整信息数量和攻击数据数量大大减少,而且使入侵检测系统的检测率得到了进一步的提高,误报率得到了进一步的降低。  相似文献   

10.
针对传统数据挖掘技术的劣势,提出一种以利润为基础的约束关联规则挖掘算法.在使用关联规则进行数据挖掘之前,算法按照商品利润的权重信息对购物篮中的原始商品交易信息实施预处理,可以使后续的数据关联规则挖掘更加的精确可靠,提升数据挖掘的效果.结果表明:基于利润的约束关联规则挖掘算法对数据库的原始数据实施了利润约束修正,增加了利润加权阈值,可有效提升数据挖掘算法的知识挖掘性能.  相似文献   

11.
在海量的动态数据流中发现有价值的知识,是数据挖掘技术研究的重要问题.研究数据流聚类,根据数据流的特点,提出了一种基于滑动窗口的一趟数据流挖掘的算法,对原有的一趟数据流聚类算法进行了改进,增强了一趟数据流聚类算法的扩展性,改进了数据流聚类的质量.  相似文献   

12.
提出了一种计算机机群环境下JOIN算法,防止数据偏斜对机群执行效率的影响.给出了数据分布树的形式化定义,构造了基于数据分布树的数据均衡分布机制、抗数据偏斜的JOIN算法.分析和实验表明,该算法适合于海量数据查询并能有效地解决机群并行环境下数据偏斜所造成的查询性能低下的问题.  相似文献   

13.
为了提高数据流的聚类质量与效率,提出了一种基于密度的数据流聚类算法,该算法采用双层聚类框架,对于历史数据的遗忘问题采用了消逝策略和粒度调整策略,消逝策略能够处理噪声,节约内存;粒度调整策略检测当前的内存消耗,提高了聚类质量。基于标准数据集和仿真数据集的实验表明,此算法是可行有效的,适合处理和分析大规模的快速数据流。  相似文献   

14.
信息时代的快速发展带来的是信息总量呈现几何级数的增加,而海量数据的存储和分析处理对计算机硬件能力和数据分析能力都是一个极大的挑战.数据挖掘算法是针对于大批量数据处理而提出并逐步发展起来的,基于完备的数据库技术,可以在云计算算法、矩阵压缩算法和并行关联算法的基础上,进行算法集成,能进一步提高数据挖掘的速度、精度和时效性,在实际海量数据的处理过程中有较好的适应性,为海量数据处理提供了新的技术分析方法.  相似文献   

15.
数据流广泛应用于现实世界的多个领域,但是不平衡数据流的存在严重影响了传统数据流分类器的性能.针对不平衡数据流问题,提出了随机平衡采样算法(RBS)处理数据流的不平衡问题,并以RBS算法为基础提出了随机平衡采样数据流集成算法(RBSSEA)旨在解决不平衡数据流的分类问题.最后,分别采用合成和真实数据集对RBSSEA算法进行验证,实验结果证明RBSSEA算法在解决不平衡数据流分类问题具有一定的优势.  相似文献   

16.
该文提出从飞行体自由飞行试验中提取空气动力系数的新方法--Marquardt改进法。Marquardt法综合了Chapmann-Kirk渚最速下降法的优点而避开了它们的缺点,是一种比较好的数据处理方法。Manquardt改进法既继承了Marquardt法的优点,又大大地减少了计算工作量,是一种收敛快的迭代算法,最后,给出了在靶道实验数据处理中的计算实例。  相似文献   

17.
Improved SDT Process Data Compression Algorithm   总被引:1,自引:0,他引:1  
Process data eompression and trending are essential for improving eontrol system perfor-mances. Swing Door Trending (SDT) algorithm is well designed to adapt the process trend while retaining the merit of simplicity. But it cannot handle outliers and adapt to the fluctuations of ac-tual data. An Improved SDT (ISDT) algorithm is proposed in this paper. The effectiveness and applicability of the ISDT algorithm are demonstrated by computations on both synthetic and real process data. By applying an adaptive recording limit as well as outliers-deteeting rules, a higher compression ratio is achieved and outliers are identified and eliminated. The fidelity of the algo-rithm is ~ improved. It can he used both in online and batch mode, and integrated into existing software lmekages without change.  相似文献   

18.
基于矢量栅格技术的矢量数据符号化方法研究   总被引:2,自引:0,他引:2  
矢量数据符号化是GIS中空间信息可视化的一种主要方法,通常是采用完全基于矢量技术的算法实现.作者通过对栅格数据和矢量数据各自优缺点的分析、比较及应用研究,提出一种基于矢量栅格技术的矢量数据符号化方法,在符号库法符号化的软件系统中采用这种方法,可以消除矢量技术产生的不良图形,降低算法的复杂程度,减少计算机的时间开销,提高符号化的整体速度。  相似文献   

19.
 空间数据库存储空间对象的相关信息,在很多实际应用中需要汇总空间数据,但这种汇总非常耗费时间而且计算代价很高.受非空间数据仓库的启发,可以建立空间数据仓库来加速空间OLAP操作.考虑星型模式且着重于空间维的概念分层,这种分层主要根据空间R-树索引来建立.提出了一个空间查询算法,并考虑了数据更新.  相似文献   

20.
数据质量问题是企业在构建商务智能系统中遇到的最重要的问题之一,在处理面向VLDB数据质量的时候,对模糊重复记录的识别和整合非常困难。文章中提出了一种改进的面向VLDB数据质量处理算法,即先通过基于聚类的N-gram的改进算法来检测相似重复记录,采用pair-wise来计算相似重复度,用一个固定大小的优先队列窗口来聚类相似重复记录,同时引入转换关闭准则生成一种多路聚类方法,提高聚类的准确度。本文的算法在语言识别和关键字检测方面获得高于90%的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号