首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
面向多数据源的数据清洗关键技术的研究   总被引:1,自引:0,他引:1  
对于各个领域的信息资源管理而言,数据质量一直是一个非常关键的问题。现实世界中的数据往往存在着各种各样的问题,从简单的拼写错误到复杂的语义不一致错误。数据清洗的目标就是检测并去除数据中存在的各种错误和不一致,提高数据的质量。该文归纳、总结了数据清洗相关研究的现状,提出一个面向多数据源的数据清洗框架的定义。框架实现了术语模型、处理描述文件和共享库等概念和技术。  相似文献   

2.
基于神经网络的多层感知器模型,结合滚动学习 预报机制,提出了一种异常数据实时检测方法.该方法在每个当前时刻通过最近的固定长度的历史数据训练神经网络,完成下一时刻的预报.通过神经网络模型残差,确定概率为P的置信区间.当下一时刻数据落入置信区间内,则该数据被判为正常;反之,则为异常.被判为异常的数据不再用作更新历史数据,而以相应的预报值代替.通过某300 MW燃煤火力电站实际过程数据的在线验证,结果证明了所提出方法的有效性.  相似文献   

3.
针对智能交通(ITS)应用系统中检测设备长期性能的健康监测问题,在海量实测交通数据的分析挖掘基础上,提出了一套定量化的诊断方法.该方法以稳定性良好的实测交通流参数——自由流车速为主要指标,采用参数估计、假设检验与置信区间分析相结合的方式,完成针对检测数据的量化分析和检测设备性能状态判断.利用浮动观测车,在上海城市快速道路交通监控系统所积累的历史和实时数据中验证了该方法的有效性.  相似文献   

4.
缺失数据下非参数模型均值估计的两个结果   总被引:1,自引:0,他引:1  
在缺失数据的情形下,用两种不同的方法讨论了非参数回归模型中,反映变量Y的均值θ的估计及其渐近性质,得出了关于θ的基于正态逼近的渐近置信区间以及θ的基于经验似然的渐近置信区间.  相似文献   

5.
组群差异检测广泛应用于医药、社会网络等领域.现有的组群差异检测都是建立在数据集没有缺失的情况下,因此讨论并给出了在数据集缺失的情况下进行组群差异检测的方法.首先,使用一种新颖的缺失数据填充方法填充缺失数据,然后在半参环境下使用经验似然方法对得到的完全数据集估计出置信区间,进而进行组群差异检测.  相似文献   

6.
基于无监督学习的数据清洗算法   总被引:2,自引:0,他引:2  
为了解决数据仓库中相似重复记录的数据问题,提出了基于无监督学习的数据清洗算法.该算法采用基于Hebbian假设的自适应学习方法,并通过相似度确定奖励和惩罚等级.在学习过程中根据需要增加新的聚类,在学习结束后,通过分析聚类情况删除错误的聚类,从而避免了死神经元问题并使聚类更加准确.实验表明,该算法能准确地完成实体识别.  相似文献   

7.
针对轨迹数据发布中的隐私保护和数据可用性问题,结合统计学的概念,提出一种基于扰动的轨迹数据隐藏发布方法.首先定义一种隐私泄露检测机制,当该检测机制发现攻击者依赖所掌握部分轨迹能以较大概率推测出某隐私节点时,基于统计方法,寻找出现频率最低的同类隐私节点,若存在且用其替换有隐私泄露风险的隐私节点后不会出现新的隐私泄露,则执行替换操作;否则在拥有该隐私节点的所有轨迹中,选择最佳的那条轨迹,将该隐私节点移除.这样,就能降低隐私节点的隐私泄露概率,保证发布后的轨迹数据满足用户的隐私需求.理论分析和实验结果表明,所提出的方法能有效避免基于部分轨迹推测剩余隐私节点的攻击,有效保持原有轨迹数据中不同种类节点间连接关系的可用性.  相似文献   

8.
一种基于SVM的网络入侵检测模型   总被引:1,自引:0,他引:1  
针对传统机器学习方法在检测网络入侵时存在的问题,给出一种基于支持向量机(SVM)的网络入侵检测模型.大量实验证明:提出的网络入侵检测模型具有较高的检测率,避免了基于传统机器学习检测方法的局限性.在训练数据的过程中,考虑不同的网络数据特征对入侵检测结果的影响程度,还提出一种新的特征加权分类方法,并通过实验数据说明该方法可使检测精度有所提高.  相似文献   

9.
模拟电路错误检测问题,即重点是检测出模拟电路芯片存在错误后确定错误元件或参数的问题,对于进一步明确错误产生原因,在设计或制造中加以改进,有重要的意义.经典做法是通过预先设置错误,并仿真得到其对应的响应数据,构造"错误字典",然后将测试信号与错误字典进行比对,识别其属于哪一类错误类型.本文提出一种基于数据稀疏表示方法来进行错误类型识别的新方法,它计算属于不同错误类型的数据在所有类型的数据构成的空间中的展开向量,根据得到的稀疏向量来判断其所属错误类型.对于稀疏表示方法无法进行准确分类识别的情况,采用SVM作为二级分类器进行修正.存在某些错误类型,其响应数据构成的空间之间线性相关性较强,对于稀疏表示后属于其中之一类型的数据,采用传统的SVM方法来加以辅助分类.在两个实验例子中,与SVM,Ada Boost以及没有加SVM辅助分类的单纯稀疏表示方法相比较,本文方法有更高的错误类型识别正确率.  相似文献   

10.
冷泳林  张清辰  鲁富宇 《河南科学》2014,(11):2259-2262
数据采集过程中存在大量缺失数据,即不完整数据.传统方法在聚类不完整数据时采用填充或丢弃缺失数据方式实现数据的聚类.依据不完整信息系统理论提出一种基于K-means的不完整数据聚类算法,算法首先将数据集划分成完整数据集和非完整数据集两部分,对完整数据集采用K-means算法进行聚类,然后将不完整数据依据设计的相似度度量方法划分到对应的簇中,实现数据集的聚类.实验结果表明,提出的方法能够高效、精确地实现不完整数据聚类.  相似文献   

11.
无线传感器网络资源有限,传感器节点之间节点的能量消耗不均衡,使得整体网络生命周期缩短.针对无线传感器网络数据收集过程中能量消耗不均衡的问题,给出一种基于能耗均衡高效的数据收集算法.该算法将网络部署区域划分为大小不等的栅格,并根据节点剩余能量以及采用簇首轮换的方式,然后采用数据融合技术,可以有效提高节点能量消耗均衡度且可以大大延长网络寿命.仿真与性能分析结果表明:与典型数据收集算法相比,该算法在能耗均衡度和网络生命周期方面具有更好的性能.  相似文献   

12.
信息网络中基于节点间情感关系分析的链路情感倾向预测在商业营销、内容推荐等领域应用广泛,是网络分析的一个研究重点.传统的链路情感倾向预测方法对于数据信息的挖掘不够充分,忽略了对数据深层语义以及节点属性等信息的利用,预测准确度有待提升.针对以上问题,提出了异质网络中融合多种类型信息的链路情感倾向预测模型.模型首先引入预测基值作为特定节点间情感关系的粗略评估,然后结合节点的相似关系以及节点的属性等信息完成预测.其中,在捕获网络中具有相似情感倾向的节点用于预测任务时,提出了一种基于限制路径类型元路径的遍历游走方法.在5个公共数据集上的实验结果验证了所提模型的有效性及对于稀疏矩阵、冷启动问题的处理能力,并揭示了模型各组成部分在预测过程中的作用.  相似文献   

13.
D-S证据理论数据融合方法在目标识别中的应用   总被引:52,自引:0,他引:52  
为解决车辆目标识别问题 ,采用基于推理的数据融合方法 ,分析了 Dempster- shafer证据理论用于多传感器数据融合的基本概念和理论 ,并将它应用于车辆目标识别的数据融合中 ,实验结果证明了基于融合后的识别结果较单传感器的识别结果好 ,验证了这一方法的正确性和有效性  相似文献   

14.
为解决蜜罐捕获数据分析问题,采用基于推理的数据融合方法,分析证据理论用于多检测点数据融合的基本概念和理论,提出了一个新的证据合成公式,并将它应用于数据的分析,实验结果验证了这一方法的正确性和有效性。  相似文献   

15.
为了解决网络节点在进行数据传输过程中的冲突拥塞,针对队列控制方法存在的问题,提出了一种基于经济学中边际效应全局最优的队列管理机制.在这种机制中会兼顾数据流之间的公平性和优先级,在二者中寻找到最佳的平衡点.通过在合理的范围内设定不同业务用户的满意度和结点提供的带宽之间存在边际效应,平衡公平性和优先级之间的矛盾,达到使全局满意度最高的带宽分配方案.实验结果表明,提出的分配带宽的方案能使全局满意度达到最大值.  相似文献   

16.
针对多传感器数据融合目标识别问题,基于D-S证据理论,提出了加权证据合成的时空域目标识别算法。该方法充分利用了多传感器多周期的测量数据,并根据D-S合成规则要求参与合成的各证据具有相同权重的特点,充分考虑了提供证据的信源即各个传感器的可靠性。在合成中,引入证据权的概念,解决了不同权重的多传感器数据融合问题,在一定程度上改善了目标识别系统的性能。最后通过计算实例表明算法是有效的。  相似文献   

17.
确定药物副作用发生频率是药物风险-效益评估的关键问题.随机对照临床试验方法性能有限且成本昂贵.随着药物临床试验数据的增加,基于数据驱动计算方法研究药物-副作用关系成为可能.文章提出一种基于药物-副作用协同传播模型的药物副作用发生频率预测方法.该方法基于已知的药物副作用发生频率信息构建相似网络,基于已知频率信息在网络中高阶协同传播过程预测药物副作用发生频率.此外,提出一种基于邻域学习的相似网络构建方法,进一步提升模型预测性能.在SIDER 4.1和ADReCS 3.1中获得的真实的药物-副作用频率数据集上进行实验,相较于现有最优方法,提出的方法在均方根误差和平均绝对误差指标上分别下降了6.98%、7.23%.  相似文献   

18.
 传统多传感器环境下的目标识别方法主要有两种:利用多传感器获得的数据进行数据融合、利用每个传感器信号的特征向量进行特征融合。但这两种方法均存在目标识别精度不高的问题。针对这一问题,本文提出了一种基于D-S 证据理论两次组合规则的融合方法。该方法在提出多传感器目标识别系统模型的基础上,运用D-S 证据理论对单传感器的多特征信息进行数据融合;根据传感器接收信号信噪比来确定传感器可信度,将该可信度作为D-S 证据理论组合规则中的证据权值,以此来完成目标识别。本文提出的方法综合考虑了传感器的多特征信息和传感器的可信度,克服了传统的D-S 证据理论对证据冲突处理能力有限的缺陷。实验结果表明,该方法具有较高的正确性和有效性,提高了目标识别的精度。  相似文献   

19.
 提出一种基于DS理论的co-location挖掘方法.先将数据集按照空间对象分类,然后从分类后的子数据集中依次提取该空间对象的实例,与其他空间对象数据集中的各个实例进行配对,将找到的各实例关系记录到一个新的关系表中,作为使用DS理论求解的基础.从一个新的角度来研究co-location挖掘技术,在DS理论的基础上重新定义了参与度,基于新定义的参与度来求解co-location模式.  相似文献   

20.
结合故障诊断工作的实际场景,通过计算故障信息观测值与参考值之间的差异,生成对应的故障信度分配函数。然后基于证据分类的思想,将故障证据分为可信证据和冲突证据,并定义每个证据的可信度。最后,利用证据可信度修正最初的信度分配,再利用证据融合公式得到综合的故障诊断结果。电机转子故障诊断的实例表明本文提出的方法能够准确快速地识别产品故障,基于证据分类的修正方法能够加速故障信度分配的收敛。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号