排序方式: 共有17条查询结果,搜索用时 15 毫秒
1.
缺失值插补(missing value imputation,MVI)作为数据挖掘领域的重要研究分支,旨在为机器学习算法的训练提供高质量的数据支持。不同于现有的以算法性能提升为导向的MVI算法,为对大规模数据的缺失值进行有效插补,该文提出一种以数据结构还原为导向的数据分布一致MVI(distribution consistency-based MVI, DC-MVI)算法。首先,DC-MVI算法基于概率分布一致性原则构建了用于确定最优插补值的目标函数;其次,利用推导出的可行缺失值优化规则获取与原始完整值保持最大分布一致性且方差最为接近的插补值;最后,在分布式环境下,针对大数据的随机样本划分(random sample partition, RSP)数据块并行训练DC-MVI算法,获得大规模数据缺失值对应的插补值。实验结果表明:DC-MVI算法不仅能生成与原始完整值保持给定显著性水平下概率分布一致的插补值,还具有比另外5种经典的和3种最新的MVI算法更快的插补速度和更好的插补效果,进而证实DC-MVI算法是一种可行的大规模数据MVI算法。 相似文献
2.
S.多罗费伍 《国外科技新书评介》2007,(2):3-4
在社会和商业等调查中所采用的样本通常并不如人们想象的那么随机,这种非随机性可能会影响由调查数据中得出的结论。 相似文献
3.
针对一类生产过程中存在严重非线性的系统,基于系统运行中积累的可靠的输入/输出数据,提出了一种新的多模型建模方法.根据对各种指标的满意要求,对数据进行二次聚类,不仅得到了更有效的系统多模型,而且得到了每个模型的适用域.与模糊聚类和建立T—S模型方法相比,本方法不依赖系统的先验知识和预先定义模糊隶属度,具有良好的泛化性.以pH中和过程为例进行了仿真研究,验证了该方法简单易用,有很高的建模精度,并对存在的数据不确定性具有一定的鲁棒性. 相似文献
4.
在实际工程中,大样本的岩土体参数实测值往往不易获取,以抗剪强度参数为例,给出了一种相关变量样本重构方法。首先简要介绍了Ilich算法和Copula函数,基于实际的初始数据,生成了具有指定边缘分布的相关变量样本;并借助Copula函数研究了样本重构前后的联合分布模型,认为与初始样本具有相同最优联合分布的重构样本能更大程度地继承初始数据的信息。以一简单的算例将重构样本应用于可靠性分析中,通过对比分析基于重构样本的Monte Carlo法与设计验算点法,验证了计算结果的合理性。给出的重构方法所得到的样本将与初始样本具有相同的边缘分布信息、相关结构及联合分布模型。 相似文献
5.
唐干武 《广西师范大学学报(自然科学版)》1999,17(3):56-59
给出了“组内差”E正定的充要条件,推广了有关文献的结论,明确了Wilks统计量和距离判别函数存在性及其应用范围。 相似文献
6.
陆海霞 《沈阳师范大学学报(自然科学版)》2010,28(2):154-156
重复抽样和不重复抽样是有限总体抽样中常考虑的两种抽样规则,重复抽样得到的样本独立同分布,是简单随机样本;而不重复抽样下的样本同分布但不独立,因而不是简单随机样本。然而,在实际抽样时,绝大多数使用不重复抽样。给出并证明了在重复抽样和不重复抽样两种不同抽样方式下样本均值的数学期望和方差公式,并将这些公式进行比较,在理论上解释了不重复抽样的合理性,即当总体容量很大而样本容量较小时,不重复抽样可以看作是重复抽样,此时得到的样本可以近似看作简单随机样本。 相似文献
7.
分析了基于随机样本(Ak)的主分量分析算法的收敛性。与前人的工作相比,在较弱的条件下证明了算法a,s,收敛到矩阵A=EAk的特征向量和特征值。 相似文献
8.
梁志彬 《南京师大学报(自然科学版)》2003,26(4):33-36
对总体的部分子总体的标志值均值及总量进行估计时,[1]中讨论了3种方法:简单估计法(SE),部分估计法(PE),比率估计法(RE),并分别比较了SE与PE,PE与RE的优劣关系.本文则是在此基础上,比较了SE与RE的优劣关系,并得出在一定条件下,SE优于RE的很好结论. 相似文献
9.
10.
针对距离依赖的相位梯度自聚焦(phase gradient autofocus, PGA)算法中样本选择的问题,本文提出了一种新的基于随机样本选择的距离依赖PGA(range-dependent PGA, RDPGA)算法。不同于传统算法利用固定门限对特显点样本进行硬剔除的选择方式,该算法利用样本的信杂比(signal to clutter ratio, SCR)构造了样本选择概率密度函数,在每次PGA迭代估计过程中,利用该概率密度函数对样本进行随机选择。随机样本选择方法不仅通过增加距离依赖样本的丰富性保证了RDPGA的估计精度,同时还保证了高质量样本在模型参数估计中提供较高贡献,在保持高效性的同时进一步提升了算法的稳健性。实测数据处理结果表明所提算法具有较高的估计精度和稳健性。 相似文献