首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 375 毫秒
1.
交叉验证策略广泛应用于分类问题的模型比较和模型选择中.文章提出一种均衡7×2交叉验证并给出了相应的构造方法.文章以分类回归树(CART)为考察模型,对比了采用均衡7×2交叉验证、组块3×2交叉验证、标准5折和10折交叉验证在模型选择中的性能.模拟结果表明,在小规模数据集上,均衡7×2交叉验证方法选择到真模型的概率明显高于其余三种交叉验证的选择方法.  相似文献   

2.
交叉验证被广泛应用于模型的泛化误差估计,特别是2折交叉验证在分类模型比较中得到广泛的应用.主要针对Logistic分类回归模型采用2折交叉验证的不同切分方法且特征(自变量)取值均为0,1时对模型性能的影响进行了模拟.结果表明,当2折交叉验证的两份数据中的类别分布相同或相近时,准确率、召回率、F值及精确率的2折交叉验证估计的偏差最小,且估计的偏差随着2折交叉验证中类别的差异增加而增加.当2折交叉验证中数据的类别分布相差较大时,模型性能的估计明显地变差.因此,采用交叉验证切分数据时,应尽量保持每份数据的类别分布与总体一致.  相似文献   

3.
文章基于UCI数据库中10个常用的数据集对用于算法性能对照时五种交叉验证检验方法的可重复度量进行了比较研究,实验结果表明K折交叉验证(K=2,5,10)t检验随着折数的增大可重复性增大,在相同的计算复杂度下5×2交叉验证F检验和10折交叉验证t检验在大多数情形下有比5×2交叉验证t检验更高的可重复性.  相似文献   

4.
在模型选择中,常用5折、10折交叉验证方法.文章给出一种基于3×2交叉验证的模型选择方法,并通过模拟实验证明了在Logistic模型中,3×2交叉验证要比5折和10折交叉验证选到真模型的概率更大.  相似文献   

5.
将组块3×2交叉验证方法用于高维回归中的调节参数选择.首先通过ISIS方法把模型的维数降低到样本个数以内,然后使用AENET方法对降维后的模型进行进一步的降维和参数估计,使用组块3×2交叉验证方法选择最佳的调节参数.综合考虑模拟实验中各种调节参数选择方法(AIC、BIC、EBIC、HBIC、5折交叉验证、组块3×2交叉验证)的EMSE值、方差以及计算复杂度,结果表明基于组块3×2交叉验证的方法是有其优势的.  相似文献   

6.
超高维线性回归中的方差估计问题是超高维回归分析中需要解决的关键问题。针对在超高维线性回归中普通最小二乘法得到的方差估计存在有偏性的问题,有学者基于标准二折交叉验证提出了一种新的方差估计方法RCV。但发现方差的RCV估计依赖于数据的切分,稳定性差。为此,文章提出用组块3×2交叉验证的方法进行方差估计,并通过模拟实验将其与RCV方法进行了比较,验证了组块3×2交叉验证估计比RCV估计更为稳定。  相似文献   

7.
针对句法分析中细粒度和粗粒度组块识别模型的冲突问题, 为解决句法分析中词语搭配规则多、减少搭配优先级变动的影响, 提出一种结合条件随机场(CRF)和多元规则的层次化句法分析模型. 先利用CRF算法识别细粒度语句的组块标记序列, 然后结合统计和多元规则识别粗粒度组块, 在识别出的组块中层层引入不同优先级的二元、三元规则. 该模型实现了同时进行细粒度和粗粒度组块的识别, 可更好地服务于句法分析. 在Chinese TreeBank8.0(CTB8.0)语料上采用5-折交叉验证, 结果表明, 相比于仅使用二元、 三元规则及使用CRF+二元规则的句法分析, 该模型的正确率分别约提高12%,3%,5%, 验证了该模型有效性和稳定性.  相似文献   

8.
针对句法分析中细粒度和粗粒度组块识别模型的冲突问题, 为解决句法分析中词语搭配规则多、减少搭配优先级变动的影响, 提出一种结合条件随机场(CRF)和多元规则的层次化句法分析模型. 先利用CRF算法识别细粒度语句的组块标记序列, 然后结合统计和多元规则识别粗粒度组块, 在识别出的组块中层层引入不同优先级的二元、三元规则. 该模型实现了同时进行细粒度和粗粒度组块的识别, 可更好地服务于句法分析. 在Chinese TreeBank8.0(CTB8.0)语料上采用5-折交叉验证, 结果表明, 相比于仅使用二元、 三元规则及使用CRF+二元规则的句法分析, 该模型的正确率分别约提高12%,3%,5%, 验证了该模型有效性和稳定性.  相似文献   

9.
针对管道运行参数不确定性引起的总传热系数预测误差较大的问题,对与管道总传热系数密切相关的起点温度、油品物性、流速、环境温度及蜡层厚度等多种因素进行分析,提出4种确定总传热系数的无量纲量,建立了基于量纲分析法的总传热系数预测模型。通过共线性诊断方法简化模型,并确定各无量纲量的物理意义。运用十折交叉验证理论对模型进行优化求解,并应用于现场输油管道的温降预测。与反算法相比,代入模型求得的温降平均相对误差降低2.88%,预测误差更加符合正态分布,且模型具有较高的稳定性及泛化性。  相似文献   

10.
高红 《科技信息》2011,(25):I0149-I0149,I0141
交叉验证技术在分类器的性能评价方面占有重要地位.本文首先介绍了交叉验证的错误率估计,之后利用Friedman&Nemenyi检验方法分析了交叉验证错误率估计的偏差和方差,最后提出了在利用交叉验证进行分类器评价过程中的一些有效的措施.  相似文献   

11.
极限学习机的快速留一交叉验证算法   总被引:4,自引:0,他引:4  
针对回归和分类问题,提出一种极限学习机(Extreme Learning Machine, ELM)的快速留一交叉验证算法,并从理论和数值仿真两方面说明其有效性.结果表明,该算法避免了以训练样本数量N次的ELM模型的显式训练,其计算复杂度与N仅呈线性趋势增长,即O(N).即使在处理大型数据集建模问题时,该算法仍然可以快速地进行ELM模型的选择和评价.通过人工和实际数据集上的仿真实验,验证了该快速留一交叉验证算法的有效性.  相似文献   

12.
基于角度分布的高维数据流异常点检测算法   总被引:1,自引:0,他引:1  
为了有效检测高维数据流中的异常点,提出一种基于角度分布的高维数据流异常点检测(DSOD)算法.运用基于角度分布的方法准确识别高维数据集中的正常点、边界点以及异常点;构造了基于正常集、边界集的小规模数据流型计算集,以降低算法在空间以及时间上的开销;建立了正常集、边界集的更新机制,以解决大数据流的概念转移问题.在真实数据集上的实验结果表明,所提出的DSOD算法的效率高于Simple VOA算法与ABOD算法,并且适用于大数据流上的异常点检测.  相似文献   

13.
土壤盐分是评价土壤质量的重要指标,也是影响辽河口滨海湿地盐地碱蓬生长的主要环境因素之一,提出一种实时、准确、大尺度监测碱蓬群落及周围滩涂土壤盐分的算法十分必要.为了减少大气对模型的影响,该文利用地面高光谱数据模拟Landsat 8 OLI卫星反射率,采用基于交叉验证的逐步回归分析方法构建土壤盐分反演模型.结果表明:1) 碱蓬样本的土壤盐分明显低于裸滩,海南三区域土壤盐分在总体上低于鸳鸯沟和笔架岭区域,而植株高度和生物量普遍均高于鸳鸯沟和笔架岭区域,在一定程度上说明了土壤盐分对盐地碱蓬生长的影响;2) 模拟卫星反射率构建的多光谱指数与土壤盐分的相关性相较于单波段在整体上有所提高,其中植被指数NDVI和RVI与土壤盐分的相关性较高,相关系数达到了-0.689和-0.683;3) 利用基于交叉验证的逐步回归分析法构建土壤盐分反演模型,模型的自变量为RVI、SAVI和SI3,模型的建模集决定系数R2为0.684,均方根误差(RMSE)为3.45,验证集RMSE为1.88,相对分析误差(RPD)为2.28,表明模型的反演精度和反演能力较好;为了进一步验证模型的精度,对比分析基于逐步回归分析法筛选的指数因子构建的多元线性回归反演模型,发现交叉验证的逐步回归模型的R2、RMSE均优于多元线性回归反演模型,同时土壤盐分反演值和实测值散点图更接近1∶1线,为辽东湾北部碱蓬群落及裸滩土壤盐分因子的反演提供技术及数据支持.  相似文献   

14.
信息增益率倾向于取值数较少的属性和产生不平衡的划分,GINI指数偏向于取值数较多的属性且区间趋于平衡的划分.基于此,该文提出融合GINI指数的C4.5改进算法,首先计算候选属性的信息增益率和GINI指数,其次计算信息增益率和GINI指数的比值,最后筛选出比值最大的属性作为划分结点,改进了C4.5算法的不足.以10次10折交叉验证准确率和运行时间为评价指标,通过5组UCI数据测试改进算法性能,并与ID3、C4.5和CART算法对比实验.实验结果表明:融合GINI指数的C4.5算法减轻了属性取值多少对划分结点选择的影响,并且缓和了划分区间的不平衡,提高了分类准确率和运行效率,算法更加稳定,可行有效.  相似文献   

15.
利用锥理论和非对称迭代方法,研究了半序Banach空间一类不具有连续性和紧性条件的非线性算子方程A(x,x) u0=Bx解的存在唯一性,并给出迭代序列收敛于解的误差估计,所得结果是某些已有结果的本质改进和推广。非对称迭代方法是解决微积分方程的又一有效方法,它能够解决半序空间中对称迭代法无能为力的问题。  相似文献   

16.
参照跨理论模型的理论基础和国内外研究实况,旨在建立适合我国青少年群体的锻炼行为变化过程量表.经过2轮次测试的1314份数据的一系列严谨程序分析,形成10个相关因素的青少年锻炼变化过程量表.分析显示:量表具有良好的建构信度、项目信度和Cronbach’sα水平,满意的因素效度、聚合效度、区别效度、实证效度以及复核效化.修订后量表显示了良好的信、效度,可为作为青少年锻炼行为研究的测量工具.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号