首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
数据清理是KDD的首要步骤;没有好的数据环境,就不会有理想的挖掘结果.介绍了数据的一般特征,讨论了KDD中数据清理技术的清除空缺、噪声处理及不一致数据等问题,指出通用性和自适应性差是目前数据清理工具存在的主要问题.  相似文献   

2.
对入侵检测评测样本库的生成方法进行了介绍,给出了KDD CUP’99数据集的样本分布,探讨了httptunnel攻击在KDD CUP’99数据集中的分类情况,通过分析KDD CUP’99数据集的特征属性与SNORT特征项的关联,表明了KDD CUP’99数据集作为智能化入侵检测方法评测样本库是公正而合理的.  相似文献   

3.
针对目前数据越来越多 ,而提取有用数据越来越困难的现状 ,参照流行的观点 ,提出了解决该问题的数据挖掘 (DM)和知识发现 (KDD)的一种方法 .在DM和KDD中应用主动时态数据库技术 ,提出构造一个原型系统的模型  相似文献   

4.
KDD是基于数据的知识获取技术,作者提出的聚类调优方法给出了一种基于领域数据的获取知识的新途径,是KDD技术在质量控制应中用的一个新方法,此方法应用于实际,收到的良好效果。  相似文献   

5.
文章针对KNN存在的复杂度过高的问题,提出应用把BIRCH算法的层次聚类思想近似地计算weight的Bireh Out算法,以降低其复杂度,同时利用孤立点挖掘的思想做异常检测.通过在KDD99数据集上的实验,我们验证了算法的有效性.  相似文献   

6.
从开发真正实用的知识发现(KDD)集成系统的目的出发,指出对用户知识发现活动的全面支持是KDD系统成功的关键.通过对知识发现过程的系统分析,建立起面向用户的过程模型.实践证明,对用户工作的良好理解对于开发新型KDD集成系统具有重要的指导意义.  相似文献   

7.
针对KDD(基于数据库的知识发现)主流发展中存在的典型问题提出了用知识库去 制约与驱动数据库, 并通过数据库改善知识库结构的知识发现的新思想,形成了具有双库协同机制的KDD的开放系统KDD *,从而提高了知识发现的速度、精度和认知自主性,并使知识库在结构上具备了实时维护与自我进化的能力,同时阐述了作为双库协同基础的数据库和知识库在本质上的对应关系。  相似文献   

8.
一种新型的基于多智能体的KDD系统结构   总被引:2,自引:0,他引:2  
介绍了数据库中的知识发现(knowledge discovery in database,KDD)及数据挖掘(data mining,DM)研究领域的发展现状,分析了现有DM算法的局限性和KDD过程的复杂性,针对这些,进一步分析了多智能体系统(multi-agent system)可能给KDD系统带来的改善,最后设计了一种分层的,以控制Agent为核心的基于多智能体技术的KDD系统结构。  相似文献   

9.
本文首先介绍了遗传算法的基本原理和KDD99数据集,而后运用遗传算法,PSO算法以及QPSO算法分别对小波神经网络进行优化构建各自的模型,最后通过在KDD99数据集上分别进行各个模型的仿真实验,得出QPSO进化算法的效果明显优于另外两种算法。  相似文献   

10.
基于SVM的分布式入侵检测系统   总被引:1,自引:0,他引:1  
支持向量机(Support Vector Machine.简称SVM)具有泛化性高、全局最优、对样本的充分性要求不高等优点,在集中式的入侵检测问题中得到较好应用.文章将SVM算法推广到分布式入侵检测环境中,提出基于SVM的分布式学习算法。并在KDD Cup 99数据集上与集中式方式进行了对比实验.结果表明,该算法不仅能降低网络中的通信负载.而且取得了与集中式方式相当的检测性能.  相似文献   

11.
数据清洗是提高数据集成质量的一个重要手段. 提出了一种基于动态规则的数据清洗方案AzszpClean,这种方法对各种清洗规则进行动态编译,将数据转换和数据清洗两者结合起来,强化清洗的描述能力. 实际应用表明,AzszpClean方法可以完成硬编码的功能,具有更高的实现效率.  相似文献   

12.
当前常用的劣质数据动态清理方法规模大,需对其进行剪枝处理后才可应用于劣质数据动态清理中,不仅效率低,且清理结果不准确。因此,提出一种新的嵌入式实时系统中劣质数据动态清理方法,劣质数据主要包括错误数据、重复数据和不完整数据,利用统计学求期望方法对错误进行清理,计算得到一个可信区间的基准范围,依据该基准范围对错误数据进行清理。利用编辑距离获取两个字符串之间的相似度,通过得到的相似度对重复数据进行动态清理。对嵌入式实时系统数据库中所有记录的不完整性进行评估,依据评估结果决定是否清除相应数据。实验结果表明,所提方法针对劣质数据有很高的清理准确性。  相似文献   

13.
具有数据清理功能的交互式数据迁移及应用   总被引:7,自引:0,他引:7  
针对众多论文对数据迁移的研究多是泛泛地介绍数据迁移的方法,而没有考虑数据迁移过程中的数据清理问题,提出了一种具有数据清理功能的交互式数据迁移技术.该技术把数据迁移和数据清理紧密地结合在一起,具有开放的规则库和算法库.通过在规则库中定义规则以及从算法库中选择合适的清理算法,不仅能灵活、准确地完成数据的迁移,还能保证数据迁移后新系统的数据质量.该技术被应用于医疗保险信息系统再工程项目,取得很好的效果,从而说明这种数据迁移技术在实践中是可行的.  相似文献   

14.
基于滑动窗口的RFID数据流多标签清洗算法   总被引:1,自引:0,他引:1  
RFID数据流清洗技术主要关注的是数据的实时性、完整性和动态性.传统的适应性清洗机制针对的只是单标签的情况,且在调整窗口以保证动态性的情况下丧失了完整性.为此,首先在二项分布模型的基础上提出了一种新的单标签清洗算法,改进和完善了传统的单标签清洗算法;之后提出了基于防碰撞模型的多标签清洗算法,从而形成了一套完整的数据流清洗算法.此外,进行了大量实验,验证了算法的有效性.  相似文献   

15.
针对船联网RFID数据流因存在冗余数据而影响工作效率的问题,在传统布隆过滤器数据清洗算法的基础上构建了矩阵型布隆过滤器模型,提出了一种改进的布隆过滤器RFID冗余数据清洗算法.实验结果表明,数据流越大,算法的数据清洗效果越明显.  相似文献   

16.
针对电网中录波型故障指示器上传的海量故障数据存在着大量的重复、干扰、错误及无效波形,提出一种基于稀疏自编码(sparse auto-encoder,SAE)的故障数据聚类清洗方法,该方法首先利用稀疏自编码对故障数据进行特征学习与降维,继而用主成分分析(principal component analysis,PCA)对降维后数据再次进行降维提取,实现对不同故障数据的特征获取;最后利用基于密度峰快速搜寻聚类算法(clustering by fast search and find of density peaks,CFSFDP)对故障特征进行聚类,实现对重复、干扰、错误等故障数据的聚类清洗和真实故障数据推送.提出的海量故障数据聚类清洗方法,达到了对不同类型故障数据进行清洗去冗的效果,为故障告警智能推送提供了技术支撑,提高了运维人员获取准确故障信息的效率.  相似文献   

17.
考虑电网出现故障时,仅依靠开关量状态信息进行诊断,诊断信息冗余度低,复杂故障情况下会影响诊断结果的准确性.引入电气量信息,提出了模型预测和数据清洗方法,建立电网故障诊断系统.利用模型预测得到准确的电气量信息,建立清洗规则和逻辑推理规则,分别对开关量进行数据清洗和验证故障信息.在此基础上,利用溯因推理网络(abductive reasoning network,ARN)对故障信息进行诊断,得出候选故障.仿真结果验证了该方法的有效性和准确性.  相似文献   

18.
RFID原始数据具有海量性和不确定性的特点.通过对不确定数据时序关系的分析,提出了针对不同清洗节点的清洗算法.该类算法打破了传统的基于标签回应次数的方法,在综合考虑RFID数据时间特性的基础上,将RFID数据看成一系列时间序列数据,挖掘数据间的潜在规律.实验表明,该类算法具有很好的可扩展性,有效地提高了数据清洗的准确率.  相似文献   

19.
在XML数据清洗中,模式约束语言提供的信息不能满足准确数据清洗过程对于领域知识的需要;同时,传统的树编辑算法在对XML实例数据进行清洗时,由于缺乏对XML结构信息的语义描述,造成了大量的数据匹配错误.基于此,引入参考本体和领域本体分别对上述问题进行解决,给出了模式约束的度量指标和一个XML结构感知算法,并构建了一个基于语义的XML数据清洗框架.  相似文献   

20.
针对在使用刚性陶瓷过滤器时难以解决其脉冲喷吹清灰的问题 ,利用气体动力学和流体瞬变理论建立了脉冲喷吹系统内气体流动的动态仿真模型 ,从而解决了由于实际管路内气体为非稳态流动而按稳态方法分析其流场会产生较大误差的问题。将由模型计算出的喷吹气体质量流量与热线风速仪的测定结果进行了对比 ,确定出脉冲阀的时间特性参数。利用该模型分析了储气罐容积、管线长度、喷嘴直径等参数对喷吹气体流动特性的影响。结果表明 ,该模型可用于分析脉冲喷吹系统的结构参数和流动参数对喷吹清灰性能的影响 ,且此模型的建立对气体过滤器脉冲喷吹系统的优化设计具有参考价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号