首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
面向多数据源的数据清洗关键技术的研究   总被引:1,自引:0,他引:1  
对于各个领域的信息资源管理而言,数据质量一直是一个非常关键的问题。现实世界中的数据往往存在着各种各样的问题,从简单的拼写错误到复杂的语义不一致错误。数据清洗的目标就是检测并去除数据中存在的各种错误和不一致,提高数据的质量。该文归纳、总结了数据清洗相关研究的现状,提出一个面向多数据源的数据清洗框架的定义。框架实现了术语模型、处理描述文件和共享库等概念和技术。  相似文献   

2.
基于神经网络的多层感知器模型,结合滚动学习 预报机制,提出了一种异常数据实时检测方法.该方法在每个当前时刻通过最近的固定长度的历史数据训练神经网络,完成下一时刻的预报.通过神经网络模型残差,确定概率为P的置信区间.当下一时刻数据落入置信区间内,则该数据被判为正常;反之,则为异常.被判为异常的数据不再用作更新历史数据,而以相应的预报值代替.通过某300 MW燃煤火力电站实际过程数据的在线验证,结果证明了所提出方法的有效性.  相似文献   

3.
针对智能交通(ITS)应用系统中检测设备长期性能的健康监测问题,在海量实测交通数据的分析挖掘基础上,提出了一套定量化的诊断方法.该方法以稳定性良好的实测交通流参数——自由流车速为主要指标,采用参数估计、假设检验与置信区间分析相结合的方式,完成针对检测数据的量化分析和检测设备性能状态判断.利用浮动观测车,在上海城市快速道路交通监控系统所积累的历史和实时数据中验证了该方法的有效性.  相似文献   

4.
缺失数据下非参数模型均值估计的两个结果   总被引:1,自引:0,他引:1  
在缺失数据的情形下,用两种不同的方法讨论了非参数回归模型中,反映变量Y的均值θ的估计及其渐近性质,得出了关于θ的基于正态逼近的渐近置信区间以及θ的基于经验似然的渐近置信区间.  相似文献   

5.
组群差异检测广泛应用于医药、社会网络等领域.现有的组群差异检测都是建立在数据集没有缺失的情况下,因此讨论并给出了在数据集缺失的情况下进行组群差异检测的方法.首先,使用一种新颖的缺失数据填充方法填充缺失数据,然后在半参环境下使用经验似然方法对得到的完全数据集估计出置信区间,进而进行组群差异检测.  相似文献   

6.
基于无监督学习的数据清洗算法   总被引:2,自引:0,他引:2  
为了解决数据仓库中相似重复记录的数据问题,提出了基于无监督学习的数据清洗算法.该算法采用基于Hebbian假设的自适应学习方法,并通过相似度确定奖励和惩罚等级.在学习过程中根据需要增加新的聚类,在学习结束后,通过分析聚类情况删除错误的聚类,从而避免了死神经元问题并使聚类更加准确.实验表明,该算法能准确地完成实体识别.  相似文献   

7.
一种基于SVM的网络入侵检测模型   总被引:1,自引:0,他引:1  
针对传统机器学习方法在检测网络入侵时存在的问题,给出一种基于支持向量机(SVM)的网络入侵检测模型.大量实验证明:提出的网络入侵检测模型具有较高的检测率,避免了基于传统机器学习检测方法的局限性.在训练数据的过程中,考虑不同的网络数据特征对入侵检测结果的影响程度,还提出一种新的特征加权分类方法,并通过实验数据说明该方法可使检测精度有所提高.  相似文献   

8.
针对轨迹数据发布中的隐私保护和数据可用性问题,结合统计学的概念,提出一种基于扰动的轨迹数据隐藏发布方法.首先定义一种隐私泄露检测机制,当该检测机制发现攻击者依赖所掌握部分轨迹能以较大概率推测出某隐私节点时,基于统计方法,寻找出现频率最低的同类隐私节点,若存在且用其替换有隐私泄露风险的隐私节点后不会出现新的隐私泄露,则执行替换操作;否则在拥有该隐私节点的所有轨迹中,选择最佳的那条轨迹,将该隐私节点移除.这样,就能降低隐私节点的隐私泄露概率,保证发布后的轨迹数据满足用户的隐私需求.理论分析和实验结果表明,所提出的方法能有效避免基于部分轨迹推测剩余隐私节点的攻击,有效保持原有轨迹数据中不同种类节点间连接关系的可用性.  相似文献   

9.
模拟电路错误检测问题,即重点是检测出模拟电路芯片存在错误后确定错误元件或参数的问题,对于进一步明确错误产生原因,在设计或制造中加以改进,有重要的意义.经典做法是通过预先设置错误,并仿真得到其对应的响应数据,构造"错误字典",然后将测试信号与错误字典进行比对,识别其属于哪一类错误类型.本文提出一种基于数据稀疏表示方法来进行错误类型识别的新方法,它计算属于不同错误类型的数据在所有类型的数据构成的空间中的展开向量,根据得到的稀疏向量来判断其所属错误类型.对于稀疏表示方法无法进行准确分类识别的情况,采用SVM作为二级分类器进行修正.存在某些错误类型,其响应数据构成的空间之间线性相关性较强,对于稀疏表示后属于其中之一类型的数据,采用传统的SVM方法来加以辅助分类.在两个实验例子中,与SVM,Ada Boost以及没有加SVM辅助分类的单纯稀疏表示方法相比较,本文方法有更高的错误类型识别正确率.  相似文献   

10.
冷泳林  张清辰  鲁富宇 《河南科学》2014,(11):2259-2262
数据采集过程中存在大量缺失数据,即不完整数据.传统方法在聚类不完整数据时采用填充或丢弃缺失数据方式实现数据的聚类.依据不完整信息系统理论提出一种基于K-means的不完整数据聚类算法,算法首先将数据集划分成完整数据集和非完整数据集两部分,对完整数据集采用K-means算法进行聚类,然后将不完整数据依据设计的相似度度量方法划分到对应的簇中,实现数据集的聚类.实验结果表明,提出的方法能够高效、精确地实现不完整数据聚类.  相似文献   

11.
分析了科技论文中常见的数据差错,如数据不一致及由单位错误、计算错误、统计方法不当等引起的差错,提出了编辑应高度重视,增强责任意识、数据意识,及使用各种方法审核数据的措施。  相似文献   

12.
智能电网中信息技术的广泛使用为攻击者提供了更多的途径入侵和攻击电力系统,这已成为智能电网安全的最大隐患之一。提出了一种基于异常数据融合的智能电网攻击检测方法,通过入侵检测系统发现信息网络中的异常流量,利用标准化残差方法检测电力系统中的异常量测数据,通过关联信息网络和物理系统的异常报警数据来检测智能电网攻击事件。仿真实验表明该方法可以消除入侵检测与标准化残差检测产生的大量错误报警,显著提高智能电网攻击的检测精度。  相似文献   

13.
 当前大数据在多个领域广泛存在,大数据的质量对其有效应用起着至关重要的作用,因而需要对大数据进行质量管理.尽管数据质量管理方面已经有一些研究成果,但由于大数据具有规模大、速度快和多样性高的特点,现有的方法难以适用于大数据质量管理.本文针对错误发现、错误修复和劣质数据查询处理,综述了大数据质量管理的问题与挑战,认为大数据质量管理的挑战主要有计算困难、错误混杂和缺少知识3 个方面.本文依据这3 个方面的解决方法,对大数据质量管理目前的研究进展进行了综述,并展望了大数据质量管理未来的研究方向.  相似文献   

14.
提出了一种基于SOM-BMU距离度量的网络异常检测方法,该方法通过t分布,构建了被测样本到BMU距离的置信区间,当被检测样本与BMU之间的距离不在该置信区间内时,认定网络异常发生.此外,为了提高该方法的自适应性,引入了滑动窗口的操作.实验阶段,对比了基于OC-SVM的网络异常检测方法.实验表明,该方法具有较高检测率、低误报率和自适应性的特点.  相似文献   

15.
针对传感器网络中对事件/异常检测的研究在一定程度上忽略了区分数据样本的重要性问题,依据传感器数据的不确定性分析了事件样本和错误样本的相似点和不同点,设计了系统化区分框架,通过节点级时域处理、邻居级空间处理、聚簇级权重排序和网络级决策融合的方法逐层过滤,将原始样本集划分为正常样本集、错误样本集和事件样本集.真实数据集的实验结果显示,所提框架在不同网络质量下对样本的辨识率均在97%以上,可将误报率降低到传统事件/异常检测方法的1/10,且漏报率不超过传统方法.  相似文献   

16.
企业投入大量资源,对企业数据进行分析,将分析的结果作为企业决策的主要参考依据,而不真实、不及时、不满足决策需要的数据可以视为企业数据中的“假冒伪劣”产品,属于不安全数据,基于这样的数据得出的结论,很难保证正确性。对一家企业而言,错误的信息无异于致命的毒药。在现实情况中,企业数据里必然存在一些不安全数据,要确保数据分析的正确性,  相似文献   

17.
以整合银行数据为例,提出了数据处理的二级架构形式。指出数据处理的概念模型设计、数据源分析和数据抽取转换的方法策略。以目标数据为依据,针对数据源中存在的冗余数据和语义冲突数据、不完整数据和错误数据以及格式或定义不一致的数据分别给出清洗的业务规则,使用SQL Server的DTS工具予以实现并上线使用。  相似文献   

18.
为了分析电路容差对继电保护装置可靠性的影响,提出以正确响应率作为可靠性指标,以系统实际输出信号幅值是否超出标称输出信号幅值的容差范围作为系统失效的可靠性判据,并确定了可靠性指标的置信区间估计.将OrCAD/PSpice软件的电路仿真功能与蒙特卡罗法相结合,基于点估计法和区间估计法求取可靠性指标及其置信区间.最后以数字保护装置的数据采样系统为算例,对其电路参数进行灵敏度分析,证实了所提出方法的正确性.  相似文献   

19.
迄今为止,基于日志的异常检测研究已经取得了很多进展,然而,在现实条件下仍旧存在两个挑战:(1) 是日志数据通常以“数据孤岛”形式储存在不同的服务器上,单一公司或组织的日志数据中异常样本量不足,且异常模式较为固定,很难通过这些数据训练出一个准确率高的检测模型. 为了解决这个问题,将不同来源的日志数据整合成更大的数据集可以提高模型训练的效果但可能会在数据传输过程中产生日志数据泄露问题;(2) 是不同应用系统类型的日志数据通常在结构和语法上存在差异,简单地整合并用于训练模型效果不佳. 基于以上原因,本文提出一种基于联邦迁移学习的日志异常检测模型训练框架LogFTL,该框架利用基于匹配平均的联邦学习算法,在保证客户端数据隐私安全的前提下于服务器聚合客户端的模型参数形成全局模型,再将全局模型分发给客户端并基于客户端的本地数据进行迁移学习,优化客户端本地模型针对自身常见异常行为的检测能力. 经过实验表明,本文提出的LogFTL框架在联邦学习场景下效果超过了传统的日志异常检测方法,同时也证明了该框架中迁移学习的效果.  相似文献   

20.
针对目前大多数的网络入侵检测方法存在模型泛化能力较弱以及训练数据集类别不平衡等问题,考虑到网络流量同时具有时间性与空间性的特点,提出了一种基于多任务联合学习的入侵检测方法.首先对数据流量进行预处理,并将数据通过注意力层初始化其权重分布;然后通过胶囊网络(CapsuleNet)与简单循环单元(SRU)分别提取流量数据的空...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号