首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 359 毫秒
1.
大数据背景下,基于罚函数的正则化方法是高维数据变量选择的重要方法.Lasso估计是常用的变量选择方法,而Lasso正则化参数的取值直接影响选择模型的性能,是正则化方法成败的关键.针对Lasso估计,提出一种新的L曲线(LC)准则选择正则化参数.数值模拟和实际应用表明:相比CV,GCV,BIC等准则,LC准则能够以较高的...  相似文献   

2.
针对高维稀疏线性回归问题,相关变量的数量远远少于不相关变量.相关变量的变量选择问题对于传统的频率论正则化方法是一大挑战.现有的贝叶斯惩罚置信区域法通过将模型拟合与变量选择分离,在联合后验置信区域内搜索最稀疏解,从而得到稀疏模型解.且该方法在高维变量选择效果上优于常用的变量选择方法.在此基础上,针对高维稀疏模型,将原方法中依赖的共轭正态先验替换成针对"稀疏信号勘测问题"提出的Horseshoe+先验,利用Horseshoe+先验对小系数"重"压缩与大系数几乎零压缩的理论特性,实现对稀疏回归系数的稳健估计.通过数据仿真模拟不同稀疏程度下的高维稀疏线性回归,并将基于Horseshoe+先验的惩罚置信区域法分别与基于正态先验以及Laplace先验的该方法进行比较,结果表明基于Horseshoe+先验的惩罚置信区域法在高维稀疏线性回归问题具有更好的变量选择效果与预测效果.  相似文献   

3.
在研究存在异常值的logistic回归模型时,发现如果使用极大似然估计(MLE)方法进行参数估计,那么异常值引起的偏差不是造成参数估计过大而是导致参数向量内爆即参数向量收缩为零向量,此时如果进行群组变量选择很可能会忽略一些重要变量.因此针对具有组结构的logistic回归模型,为处理解释变量存在异常值时的群组变量选择问题,将基于最小距离法的稳健估计(L2E)方法与已有的3种群组变量选择方法和3种双层变量选择方法结合,在此基础上利用Majorization-Minimization(MM)算法对目标函数进行求解.通过数值模拟比较了基于L2E方法和MLE方法在模型具有组稀疏和双层稀疏的情况下,6种变量选择方法在不同维数下的有限样本表现,结果不仅验证了L2E方法在存在异常值的logistic回归模型参数估计中的稳健性,而且指出了在这6种变量选择方法中使用Group Bridge方法进行变量选择的准确度更高.  相似文献   

4.
作者提出了潜半参数回归模型及其估计方法.该方法应用双重判罚,使得在估计非参数的同时可以对参数部分进行参数估计和变量选择.在分析过程中作者还得到了潜变量的估计值.  相似文献   

5.
针对样本和高维数据,研究基于支持向量机的特征选择算法及其在高校就业预测中的应用.利用采集的就业数据,使用SVM方法对数据集进行特征选择,再利用SVM分类器对数据进行已就业和未就业学生的分类,得到了较好的预测结果,为高校就业指导提供了一定的依据.  相似文献   

6.
针对高维数据中的特征选择问题,提出一种有监督的特征选择方法。首先基于非线性相关度量标准作为对离散型特征进行选择,先后做选相关、去冗余两种相关分析,并采用向前方式搜索,最后用邻近算法作为分类器对所选择的特征进行实验。结果表明,该方法能选出有用的特征来提高分类准确率,并降低数据的维度。  相似文献   

7.
针对高维数据的特点并基于线性回归模型,利用变量选择降维技术,提出了一种新的、有效的变量选择(或称特征提取)的正则化估计方法.新的正则化估计方法主要考虑了数据的噪声(方差)对正则化估计的影响,在寻找估计的正则化路径时能对方差进行有效估计,且基于凸优化问题的KKT条件和坐标算法思想给出了正则化估计算法的实施细节.实验结果表明,该方法能够提高高维数据集进行估计和变量选择的准确性,是高维数据挖掘中新的、有效的特征提取方法.  相似文献   

8.
针对纵向单调缺失数据下高维部分线性回归模型的变量选择,提出了逆概率加权光滑阈估计方程变量选择方法,其中非参数分量使用样条估计.在适当正则条件下,证明了该变量选择方法具有Oracle性质,并通过模拟研究验证了所提出方法的有限样本性质.  相似文献   

9.
针对支持向量机(SVM)分类器参数选择问题,提出了基于鸟群算法(BSA)的SVM参数选择方法(BSASVM),以优化SVM惩罚参数和核参数.鸟群算法具有优化精度高、鲁棒性好等特点,将SVM参数作为鸟群算法目标函数的优化参数,在搜索到最优值的同时得到最优参数.通过8个UCI标准数据集的MATLAB仿真对比实验,验证了BSA-SVM能有效提高分类准确性.实验结果表明:BSA-SVM能更加准确地找到SVM最优参数,从而加强SVM学习与泛化能力,是一种有效的SVM参数优化方法.  相似文献   

10.
针对纵向数据下的部分线性模型, 建立基于经验似然方法的变量选择的信息准则, 证明新变量选择方法的渐近性质, 并模拟研究比较参数信息准则与基于经验似然的信息准则的有限样本性质. 结果表明, 基于经验似然方法的信息准则克服了参数似然函数有时较难得到的困难, 模型选择效果较好.  相似文献   

11.
针对高维数据集,提出一种利用预测变量之间的图结构信息来改进稀疏逻辑回归模型的方法。该方法通过利用高维图结构数据或者重叠组结构来进行逻辑回归建模,即使预测变量的图结构未知,该方法仍适用,当图结构为某些特殊形式时,目前流行的方法,如Adaptive Lasso,(Overlapping) Group Lasso和岭回归都可以看作是该模型方法的特例。数值模拟和实例分析应用表明:该方法能有效地利用预测变量图结构信息,提高模型在估计、预测以及变量选择等方面的表现,并且该模型在有限样本情形下是有效的;该模型方法克服了数据集的维数问题,利用高维数据的图结构提高了稀疏逻辑回归模型的性能,可广泛应用于高通量基因数据集的疾病分类研究中。  相似文献   

12.
针对高维数据的建模分析问题,提出一种基于弹性网络法和复合分位数回归相结合的稳健估计方法。 在该 估计方法中,所提出的模型能够有效进行变量选择与系数压缩,并处理数据间的多重共线性与群组效应问题,在大 数据时代下具有较广的适应性。 同时,与已有的惩罚最小二乘估计和惩罚分位数回归估计相比,该估计方法不仅 放宽了对模型误差项的分布要求,而且综合考虑了多个分位点的损失,在面对离群值或呈现尖峰、厚尾分布数据时 能够保持更强的稳健性和抗干扰性。 在一定条件下,对所构建模型估计的相合性与稀疏性进行了理论分析,结果 表明:所提出的模型能够将不相关的变量完全压缩至零,且估计量和真实系数以趋于 1 的概率相同。 此外,在数值 模拟方面,设置了 5 种误差项分布条件,根据设定的 4 项指标,通过与其他惩罚函数模型以及损失函数模型进行比 较,结果表明新提出的方法具备更好的稳健性与有效性。  相似文献   

13.
非参数回归方法在短时交通流预测中的应用   总被引:1,自引:0,他引:1  
为了提高短时交通流预测的准确性,提出了应用改进的非参数回归方法进行短时交通流预测。利用反馈机制动态调节系统变量和输入变量集是对非参数回归方法的主要改进之处。将建立的模型用于北京实际大规模路网的交通流预测预报,实例分析结果表明,应用非参数回归方法的5m in交通流预测结果明显优于神经网络方法;有反馈调节机制的非参数回归方法优于有固定输入变量集的非参数回归方法。  相似文献   

14.
非参数计量经济联立模型的局部线性工具变量估计   总被引:10,自引:0,他引:10  
发展了一种非参数联立方程计量经济模型的估计方法。将非参数单方程计量经济模型的局部线性估计方法与传统联立方程计量经济模型的工具变量估计方法相结合 ,在随机设计下 ,提出了非参数联立方程计量经济模型的局部线性工具变量估计方法 ,并利用大数定律和中心极限定理等在内点处研究了该方法的大样本性质。结果表明 :该方法在内点处具有一致性和渐近正态性 ,其收敛速度达到了非参数模型估计的最优收敛速度  相似文献   

15.
对高危人员的犯罪风险评估是主动式警务中一项重点和核心的工作。如何基于大数据技术构建高危人员犯罪分析评估模型是其中的研究重点与难点。针对高危人员犯罪风险评估模型中的高维特征选择问题,本文设计了结合过滤式(Filter)与包裹式(Wrapper)方法的两阶段特征选择方法框架。在第一阶段Filter 方法中,本文分别使用卡方检验值与KS检验值作为离散型与连续型属性的筛选指标选择了候选特征集。在第二阶段Wrapper 方法中,本文设计了基于随机森林的序列后向特征选择方法进一步优选了特征集。本文使用了某地的吸毒人员数据进行了实证分析以验证方法的有效性。实验结果表明本文的方法可以有效地从高维特征集中选择出较优的特征子集,并且有较快的计算效率和良好的可解释性。  相似文献   

16.
在陆上油田,受地表障碍物限制,常规的基于规则采样理论的地震数据采集越来越难以实现,同时为了解决越来越复杂的地质问题,需要更密集的空间采样,造成地震勘探成本急剧上升。为了适应复杂的地表条件和节省勘探成本,本文研究基于压缩感知理论设计随机地震观测系统,利用高维空间低秩约束算法完成随机地震数据的高密度规则化重建,通过理论模型对方法进行了验证,结果表明在同样采样密度下,该方法能获得比规则采样更好的成像效果,为当前东部老油区的高效高密度地震勘探探索一条新途径。  相似文献   

17.
在已有研究的基础上,提出一种新的基于t函数的稳健变量选择方法.该方法通过惩罚估计方程中的惩罚函数达到变量选择的效果,方程中的权重矩阵和有界得分函数对自变量和因变量中的异常值有很好的限制作用,可同时达到稳健的变量选择和稳健估计.通过分析3种不同自由度的t函数性质,选取自由度为2的t函数,并与基于Huber函数的稳健变量选择方法进行比较.数值模拟结果表明,基于t函数的稳健变量选择方法在2种污染力度、3种污染方式的数据污染情况下,其稳健性均明显优于基于Huber函数的稳健变量选择方法.与参数估计效果相比,基于t函数的稳健变量选择方法优势更明显.  相似文献   

18.
本文研究纵向数据分析中变系数模型的变量选择及效应估计问题。模型允许变量的效应随时间改变。本文方法在进行变量选择的同时,也估计变系数函数,避免了传统的变量选择方法极其复杂的计算。将本文方法用于股票价格分析,能够快速地在众多公司财务变量中挑选出对股票收益率有显著影响的变量,并估计了这些变量的时变效应,很好的解释了股票收益率的变化。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号