首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 453 毫秒
1.
针对目前缺失数据填充算法精度低、运行效率低、内存占用率大的特点,提出一种新的不同类别非完整大数据中缺失数据填充算法。通过2个定理阐述了缺失数据填充算法的原理,给出信息熵的计算过程。输入根据数据集构建的决策表和不同类别非完整大数据中缺失数据的最大值、最小值、填充步长。求出其他类指标和某类指标的相关性,得到数据集,求出权重系数;计算初始数据库的信息熵,通过相关理论或经验对缺失数据区间下限进行设定;用一个很小的区间数据取代缺失数据,根据给出的步长不断扩大区间范围,绘制出每一步信息熵状况,将其与初始数据库信息熵相比,实现缺失数据填充。实验结果表明,所提算法精度高、运行效率高、内存占用率低。  相似文献   

2.
基于嵌套滑动窗口的数据流缺失数据填充算法   总被引:1,自引:0,他引:1  
提出了一种基于嵌套滑动窗口的缺失数据填充算法.考虑到传感器数据流的时效特性,采用嵌套滑动窗口选取空间相关度高且距离最近的数据作为样本数据,之后分两种情况对缺失数据进行填充.算法首先通过皮尔逊相关计算对数据的空间性进行分析,应用嵌套滑动窗口对缺失数据相关的数据进行采样,得到强相关数据,之后采用MKNN算法进行精确填充.通过皮尔逊相关分析和嵌套窗口采样,极大地降低了数据样本大小,提高了缺失数据处理实时性;对于不具有强的空间相关的缺失数据,考虑到短时间内采集数据间强的时间相关性,采用线性相关法对数据进行填充,降低算法复杂度.实验表明,该算法能够实时、精确地对数据流缺失数据进行填充.  相似文献   

3.
针对目前缺失数据填充算法精度低、运行效率低、内存占用率大的特点,提出一种新的不同类别非完整大数据中缺失数据填充算法。通过2个定理阐述了缺失数据填充算法的原理,给出信息熵的计算过程。输入根据数据集构建的决策表和不同类别非完整大数据中缺失数据的最大值、最小值、填充步长。求出其他类指标和某类指标的相关性,得到数据集,求出权重系数;计算初始数据库的信息熵,通过相关理论或经验对缺失数据区间下限进行设定;用一个很小的区间数据取代缺失数据,根据给出的步长不断扩大区间范围,绘制出每一步信息熵状况,将其与初始数据库信息熵相比,实现缺失数据填充。实验结果表明,所提算法精度高、运行效率高、内存占用率低。  相似文献   

4.
在采用协同过滤算法构建个性化推荐的系统中,经常面临用户评价数据稀疏问题,这将严重降低个性化推荐的准确度.针对此问题,提出了一种混合加权预测填充算法,从用户访问的资源特征以及该资源在整个用户群体中被访问的热度出发,对用户访过的但未给出评价的数据进行预测并填充,从而降低了由于用户评价数据缺失所造成的评价矩阵稀疏程度,提高推荐准确度.在MoiveLense数据集上的试验结果表明,该算法能够明显地提高推荐准确度.  相似文献   

5.
为了衡量网络数据演化过程中产生的"涌现现象",从涌现性特征的宏观分析出发,建立信息熵与网络数据演化涌现性之间的关联关系,基于概率估计提出1种可行的信息熵值计算方法,用信息熵对网络数据演化涌现性进行度量,并对演化行为和系统层次可能引入的误差进行校正,使度量方法更贴近实际情况.用实验分析说明该方法的合理性和有效性.  相似文献   

6.
针对缺失数据的有效填充问题,提出利用模糊C-均值聚类(FCM)算法的隶属度矩阵作为待填数据的加权权重.首先使用同一属性均值对缺失数据作预填充,再进行FCM以得到每个类别的隶属度矩阵,最后用该矩阵作为权重去乘以每个类别的属性均值,得到最终的填充数据.在UCI数据实验中,将FCM填充算法与k近邻(KNN)填充算法作对比分析,结果表明,FCM填充得到的均方根误差总体小于KNN填充.  相似文献   

7.
利用MapReduce编程模型,提出一种并行的加权k近邻与离群检测方法 WKNNOM-MR.该算法首先对输入数据随机均匀采样,在样本数据集中采用信息熵计算各个属性的权值;然后在集群中的数据节点上对输入数据进行加权,并将其映射到Z-order空间填充曲线,给出了一种基于Z-order的加权k近邻查询方法;根据每个对象与其加权k近邻之间的距离计算离群因子,在兼顾最小距离与平均距离的基础上,给出离群点检测算法;最后在具有5个节点的Hadoop集群上实现该算法,并采用人工合成数据集、UCI标准数据集进行实验,结果验证了该算法的有效性、可扩展性和可伸缩性。  相似文献   

8.
提出加权壳近邻填充缺失数据数学模型,充分利用壳近邻填充选取近邻数据的特性,侧重于被重复选择到的近邻点,有效提高了填充效果. 还提出一种称为goodness的新评价方法,克服了均方根误差(RMSE)的弱点. 实验结果表明,提出的加权壳近邻填充数学模型比一般的近邻填充的效果好,而且goodness评价方法比RMSE更能分辨出填充算法的性能.  相似文献   

9.
从提高监测精度的角度阐述了数据融合技术在瓦斯气体安全监测系统中的应用.介绍了数据融合的基本知识和一般的融合方法,对直接取平均值的加权融合方法进行了改进,并通过仿真实验证明了改进的加权融合方法比直接取平均值融合方法更接近于实际值.  相似文献   

10.
组群差异检测广泛应用于医药、社会网络等领域.现有的组群差异检测都是建立在数据集没有缺失的情况下,因此讨论并给出了在数据集缺失的情况下进行组群差异检测的方法.首先,使用一种新颖的缺失数据填充方法填充缺失数据,然后在半参环境下使用经验似然方法对得到的完全数据集估计出置信区间,进而进行组群差异检测.  相似文献   

11.
实际测井数据由于数据规模大、维数高等特点,在采集、传输、存储中很有可能会发生数据的缺失或损坏。为了提高数据质量,采用压缩感知中的基追踪算法对测井中的缺失数据进行恢复。先使用过完备字典对原始数据进行稀疏分解,采用基追踪算法将L0范数优化问题转化为L1范数问题;然后采用线性规划算法——内点法求解,从而实现数据恢复。通过实验与对比分析,结果表明基于基追踪的测井数据恢复方法精度高;且优于基于正交匹配追踪的数据恢复方法。  相似文献   

12.
针对缺失数据的有效填充问题,提出利用模糊C-均值聚类(FCM)算法的隶属度矩阵作为待填数据的加权权重.首先使用同一属性均值对缺失数据作预填充,再进行FCM以得到每个类别的隶属度矩阵,最后用该矩阵作为权重去乘以每个类别的属性均值,得到最终的填充数据.在UCI数据实验中,将FCM填充算法与k近邻(KNN)填充算法作对比分析,结果表明,FCM填充得到的均方根误差总体小于KNN填充.  相似文献   

13.
在宏观层面的循环经济评价体系中的废物排放指标评价中引入信息熵理论,用熵度量法对评价指标体系进行约简.在此基础上,应用未确知测度模型对废物排放进行综合评价,利用信息熵算法确定评价指标的权重,排除人为因素的干扰,使识别结果更精确.最后通过辽宁省2001~2007年的数据验证了评价模型的可行性与有效性.  相似文献   

14.
In order to extract the defect edge information on the magnetic tile surface with low contrast and textured background,an edge detection algorithm based on image weighted information entropy and wavelet modulus maxima is proposed.At first,a new Butterworth high pass filter(BHPF) with adaptive cutoff frequency is produced,because the clarity and complexity of the textured background are described by the weighted information entropy of the image gradient variance quantitatively,and the filter can change its parameters through matching the non-linear relationship between the information entropy and the cutoff frequency.And then,the best decomposition scale is obtained by the level determination function to prevent edge information from missing.At last,edge points are got by double threshold after obtaining the wavelet modulus maxima,and then the edge image is linked by the edge points to ensure the edge continuity and veracity.Experiment results indicate that the proposed algorithm outperforms the conventional Canny and Sobel algorithm,and the edge detection algorithm can also detect other defects,and lays the foundation for defecting auto- recognition.  相似文献   

15.
针对数据预处理中的遗失值填充问题,运用策略模式设计了一种可扩展的遗失值填充算法;构造了SimpleImputation,KNNImputation和DTBImputation 3个具体的策略类,分别封装了简单遗失值填充算法、KNN遗失值填充算法以及DTB遗失值填充算法.实验结果表明:简单填充算法执行速度最快但精度最低,DTB算法执行速度较慢但精度较高,KNN算法执行速度最慢但精度最高.该算法允许用户根据自身对速度和精度的需求来选取相应的填充算法,并通过添加新策略类的方式来扩展其遗失值填充功能,从而解决了遗失值造成的数据质量问题,提高了数据预处理程序的通用性和可扩展性.  相似文献   

16.
去噪算法在图像处理的过程中占有极其重要的地位。为了对含有高斯白噪声和脉冲噪声的图像进行去噪,在Donoho提出的小波阈值去噪算法的基础上,提出一种基于最大信息熵的小波去噪算法,根据最大信息熵的理论确定了改进型阈值和改进型加权阈值函数中的加权因子。仿真结果表明,该算法能够同时抑制高斯白噪声和脉冲噪声,可以更好地保留图像的边缘细节,与Donoho提出的小波阈值去噪算法的去噪效果相比,具有更好的去噪性能。  相似文献   

17.
逆向物流供应商选择是典型的多属性决策问题.针对逆向物流供应商选择问题的特点,提出一种基于直觉模糊熵的逆向物流供应商选择问题的直觉模糊多属性决策方法.在回顾相关基础理论知识基础上,建立了逆向物流供应商评价指标体系,给出了基于直觉模糊熵的评价指标权重的确定方法,然后运用直觉模糊加权平均算子对二级指标信息集结,得到逆向物流供应商选择问题的直觉模糊决策矩阵,提出了基于直觉模糊熵和TOPSIS法(逼近理想解的排序方法)的逆向物流供应商评价方法.最后通过数值分析验证了该方法的可行性与有效性.  相似文献   

18.
基于非负矩阵分解模型, 提出一种新的数据补全算法. 该算法通过循环遍历确定最佳构造矩阵和rank值, 解决了单细胞转录组测序(RNA-seq)数据中存在缺失值的问题,  避免了由于单细胞测序深度不足对细胞分型分析的影响. 在慢性粒细胞白血病单细胞测序数据上的实验结果表明, 由补全算法恢复缺失值后的细胞分型更清晰, 验证了该算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号