首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
线性模型作为一种经典的回归模型,具有简洁的表达形式和较强的可解释性。然而,传统的线性模型是基于样本独立假设的,并不能有效地处理网络数据问题。为了有效地表达网络数据之间的关联信息,本文利用网络结构图,构建了包含样本邻近信息的回归模型。进一步,为了合理估计回归模型参数,并提高处理强相关变量数据的能力,本文提出了一种能够有效处理网络数据的Elastic Net回归模型。具体地,该模型由平方损失和Elastic Net正则项组成,其中平方损失项既包含数据的属性变量信息,又包含响应变量的网络结构信息,能够更好地提高模型学习的准确性;Elastic Net正则项不仅可以保证模型的稳定性和稀疏性,而且具有变量分组效应,能够将强相关性变量组全部剔除或保留。最后采用坐标下降和交替迭代算法对目标函数进行求解。在实验过程中,分别采用Scale-free网络、Hub网络以及Erd?s-Renyi网络进行了大量实验,实验结果显示模型的预测误差能够降低到0.006 6,0.010 3,0.009 7,表明了所提模型的有效性。真实数据集上的实验结果也表明Elastic Net模型具有更高的准确性,能够更加有效地适用...  相似文献   

2.
在多元线性回归模型的异方差检验中,当解释变量较多且两两之间相关系数较低时,会导致传统White检验构造的辅助回归函数参数增多、计算量增大、检验效果不明显。针对这一问题,基于异方差检验原理,建立残差平方与解释变量之间的回归模型,筛选出系数显著的解释变量,利用残差平方与筛选出的解释变量构建辅助回归模型进行异方差检验。数值模拟及实证分析表明该方法有良好的检验效果及简单的步骤。  相似文献   

3.
林泳昌  朱晓姝 《广西科学》2020,27(3):276-283
针对在数据样本不均衡时,K近邻(K-nearest Neighbor,KNN)方法的预测结果会偏向样本数占优类的问题,本文提出了一种基于合成少数类过采样方法(SMOTE)的KNN不均衡样本分类优化方法(KSID)。该方法过程为:首先使用SMOTE方法将不均衡的训练集均衡化,并训练逻辑回归模型;然后使用逻辑回归模型对训练集进行预测,获取预测为正样本的数据,通过使用SMOTE方法均衡化该正样本,并训练KNN模型;最后把测试集放入该结合逻辑回归方法的KNN模型进行预测,得到最终的预测结果。围绕6个不均衡数据集,将KSID与逻辑回归、KNN和支持向量机(SVM)决策树等方法进行对比实验,结果表明,KSID方法在准确率、查全率、查准率、F1值这4个性能指标上均优于其他3种方法。通过引入SMOTE,KSID方法克服了KNN模型遇到样本不均衡数据集时,产生分类偏向的问题,为进一步研究KNN方法的优化和应用提供参考。  相似文献   

4.
偏标记学习是近几年提出的新机器学习框架,已有的逻辑回归偏标记算法尚不能解决数据不平衡问题.建立了一种可以解决数据不平衡的逻辑回归模型偏标记学习算法.基本思想是在多元逻辑回归模型中定义新的似然函数以达到处理不平衡数据的目的.算法先根据训练集中各个类别样本所占比例定义了一个新的似然函数,之后通过逼近和求导等数学手段推导得到了能够求解的光滑的逻辑回归偏标记学习模型.在UCI数据集和真实数据集上的仿真实验表明,所提算法在数据存在不平衡问题时提高了样本的平均分类精度.  相似文献   

5.
针对高维数据集,提出一种利用预测变量之间的图结构信息来改进稀疏逻辑回归模型的方法。该方法通过利用高维图结构数据或者重叠组结构来进行逻辑回归建模,即使预测变量的图结构未知,该方法仍适用,当图结构为某些特殊形式时,目前流行的方法,如Adaptive Lasso,(Overlapping) Group Lasso和岭回归都可以看作是该模型方法的特例。数值模拟和实例分析应用表明:该方法能有效地利用预测变量图结构信息,提高模型在估计、预测以及变量选择等方面的表现,并且该模型在有限样本情形下是有效的;该模型方法克服了数据集的维数问题,利用高维数据的图结构提高了稀疏逻辑回归模型的性能,可广泛应用于高通量基因数据集的疾病分类研究中。  相似文献   

6.
针对绝大部分多变量决策树只能联合数值型属性,而不能直接为带有分类型属性数据集进行分类的问题,提出一种可联合多种类型属性的多变量决策树算法(CMDT).该算法通过统计各个分类型属性的属性值在各个类别或各个簇中的频率分布,来定义样本集合在分类型属性上的中心,以及样本到中心的距离.然后,使用加权k-means算法划分决策树中的非终端结点.使用这种结点划分方法构建的决策树可用于数值型数据、分类型数据以及混合型数据.实验结果表明,该算法建立的分类模型在各种类型的数据集上均获得比经典决策树算法更好的泛化正确率和更简洁的树结构.  相似文献   

7.
将多分类有序因变量的Logistic回归分析引入到岩体质量分级问题中,以影响岩体级别的单轴抗压强度、岩体声波纵波速度、体积节理数、节理面粗糙度系数、节理面风化变异系数和透水性系数为自变量,岩体级别为响应变量,以工程实测岩体质量数据作为统计样本,建立了岩体分级公式。对模型进行了拟合优度检验、模型的有效性检验、预测能力的检验,研究结果表明:Logistic逐步回归分析得到的回归模型性能良好,回判估计的误判率为零,预测精度高。相比距离判别分析模型,回归分析模型在现场岩体分级更加方便,回判的误判率更低,另外模型能输出岩体属于各级别的概率,为工程设计人员提供更多的岩体质量信息;相比普通的回归分析,多分类有序因变量 Logistic回归更适于响应变量为有序多类别的岩体分级问题,因而岩体分级的多分类有序因变量回归模型是一种更优的岩体分级方法。  相似文献   

8.
为研究高速公路匝道车辆在交织区的汇入行为,基于梯度提升决策树(GBDT)建立了车辆汇入模型,引入超车时间T、拒绝间隙数N以及最大拒绝间隙G_(LR)来分析匝道车辆拒绝相邻间隙并超越主线前车的行为,并利用美国NGSIM项目中的车辆轨迹数据对模型进行训练和测试.结果表明:GBDT的预测精度较分类回归树和二元Logit模型分别提高5.3%和13.3%;引入变量T,N,G_(LR)使GBDT、分类回归树和二元Logit模型的预测精度分别提高6.0%,6.7%和5.3%;GBDT模型中超车时间T在所有变量中重要性值最高.GBDT模型能够准确地预测汇入行为,获得变量与汇入行为间隐藏的非线性关系;引入变量T,N,G_(LR)能够有效提高汇入模型的预测精度.  相似文献   

9.
针对半监督分类模型存在的模型复杂度高、构造正则化项难度大的问题,从丰富样本特征表示的角度出发,构造了自适应图结构的融合网络模型(AGSH)。该模型在卷积神经网络模型(CNN)基础上引入了自适应图卷积神经网络(AGCN)提取CNN模型特征间的关系。对AGSH模型泛化性能的分析证明了该模型在解决半监督相关问题时的有效性。实验结果表明:融合模型在五种图像数据集上的分类精度相比于单一CNN模型分类精度均有提升。研究结论为解决小样本分类问题的建模方法提供了参考。  相似文献   

10.
考虑响应变量随机缺失下线性模型响应变量均值的估计问题,分别获得了基于完全观测样本数据、线性回归插补后的“完全样本”和逆概率加权插补后的“完全样本”得到的响应变量均值估计,并证明了其渐近正态性.  相似文献   

11.
针对超圆盘分类器存在分类精度和分类效率较低等问题,引入松弛变量,并考虑当前类样本和异类样本的约束以避免超圆盘相交,从而得到更合理的类别区域估计,得到鲁棒超圆盘模型(Robust Hyperdisk Model,RHD),将RHD模型与最近邻分类方法结合,提出一种鲁棒最近邻超圆盘分类器(Robust Nearest Neighbor Hyperdisk Classifiers,RNNHDC). RNNHDC只需计算未知样本点到各类别RHD的距离,计算效率高,且可以直接用于多分类任务. 最后将RNNHDC应用于齿轮箱故障诊断,在2个不同的齿轮箱数据集上进行实验验证,结果表明,RNNHDC分类精度高、鲁棒性强,可有效用于齿轮箱智能故障诊断.  相似文献   

12.
在响应变量满足MAR缺失机制下,研究了随机设计情形的线性模型回归系数的估计问题.分别讨论了基于观察到的完全样本数据对、基于固定补足后的"完全样本"和基于分数线性回归填补后的"完全样本"得到的回归系数的最小二乘估计的弱相合性、强相合性及渐近正态性.  相似文献   

13.
逻辑回归模型在国际上常用于地震液化判别,但该方法难以处理过多影响因素引发的共线性问题,进而严重影响模型的预测精度.能同时进行变量筛选和参数估计的自适应LASSO在处理共线性问题上有着独特的优势.因此,本研究以国内外533组历史液化案例为样本,在综合考虑地震液化多影响因素的基础上,引入自适应LASSO估计法,对逻辑回归液化判别模型进行优化,建立了基于自适应LASSO的逻辑回归砂土液化判别模型,该模型还包括了新的液化影响因素——土壤分类指数Ic,最后对重要液化影响因素进行敏感性分析.结果表明:针对因素过多的液化判别问题时,自适应LASSO逻辑回归模型可有效地选择重要因素进行建模;相比其它逻辑模型模型和简化方法,自适应LASSO逻辑回归模型精度更高,泛化能力更强;引入了新变量土壤分类指数Ic后,模型性能进一步提升,验证了建立逻辑回归液化判别模型时考虑Ic的重要性;敏感性分析发现重要影响因素的排序为:修正尖端阻值、峰值加速度、土壤分类指数、水位、细粒含量、侧壁摩阻值.  相似文献   

14.
由于肺腺癌早期病征不够明显,传统的检测方法难以达到早期临床诊断的要求.目前,基于甲基化分子标记进行癌症的早期诊断则展现出很好的发展前景.本研究在训练集中筛选出在肺腺癌与正常样本中甲基化差异度最大的10个甲基化探针,并基于此构建广义线性诊断模型,同时引入Lasso方法进行模型的变量选择.最终得到由4个探针(分别对应于基因TRIM58、HOXA9、HOXB4、PRAC)作为变量的诊断模型,并提供了合理的分类阈值区间.在3个测试集使用该模型都表现出很好的诊断效果,ROC曲线的AUC均在0.99以上.  相似文献   

15.
针对DNN回归模型难以应用于小样本空间的问题,将DNN的特征学习和决策树模型相结合,提出了一种融合DNN特征学习和决策森林的级联回归模型,采用一种"概率"随机森林代替单一决策树进行训练,使其可用少量样本获得较好的特征表达学习能力,并完成在小规模数据集下的图像分类任务.为了验证该模型的有效性,将此模型应用于两种不同的数据集上,并与其他几种模型算法进行了对比.实验结果表明,此回归模型在整体上优于其他模型,能够较好的完成小样本空间的目标检测及分类.  相似文献   

16.
现有LASSO回归方法尚未解决回归关系式中冗余特征和无关特征的去除问题,提出一个决定系数与相关系数辅助的LASSO回归方法。设给定响应变量Y和备选解释变量集X,首先设计结合决定系数的LASSO回归正则化路径求解方法,找出X中的主解释变量;然后,设计结合决定系数、相关系数和正则化路径的方法,在固定主解释变量条件下求解LASSO回归的正则化路径过程中,去除X中的无关变量和冗余变量。模拟数据集和真实数据集的实验结果表明,新方法解决了LASSO回归中冗余特征和无关特征的去除问题,在冗余变量和无关变量的去除效果上胜过对比方法。  相似文献   

17.
司法判决预测任务指的是根据真实的案情描述文本来预测案件的判决结果,有助于司法专业人士高效的工作,在智能司法方面具有广阔的应用前景。在实践中,易混淆罪名和少样本罪名的判别问题是目前的两大难点,普通模型很容易在上述问题上出现误判。为使易混淆罪名得到更好的区分,结合BERT(Bidirectional Encoder Representations from Transformer)和双向门控循环单元(Bidirectional Gated Recurrent Unit, BiGRU)深度学习网络,提出BGAAT(BERT BiGRU Attribute Self-Attention)网络模型。该模型引入具有区分性的罪名属性标签,通过注意力机制分别抽取属性特征与上下文特征,使用注意力分布对可解释性进行描述。为使少样本罪名更好的被识别,引入罪名分类权重,使模型在少样本罪名分类取得了更高的F1值。最后在真实的司法判决数据集上进行了实验,证明了所提出模型在该任务上有良好表现。  相似文献   

18.
采用预平滑方法研究部分函数型线性回归模型,其中模型的响应变量为标量,解释变量由有限维向量和取值于函数空间的函数型变量构成.得到了模型系数的估计量,并讨论所提出估计量的相合性.  相似文献   

19.
采用气相色谱-质谱(GC-MS)和液相色谱(LC)方法,结合主成分分析(PCA)、高斯混合模型(GMM)对49个茶叶样本进行分类判别研究.通过PCA对茶叶的GC-MS信号进行特征提取,结合LC测得的茶多酚等10个变量,运用GMM对茶叶样本进行分类,训练集正确率为99.44%,预测集正确率为90.47%,结果表明该方法适用于茶叶的分类及品质评价.  相似文献   

20.
基于邻域粗糙集的属性约简模型既受邻域半径参数值的影响,又不能评估属性与样本对象之间的内在关系.为此,本文先提出鲁棒近邻来确认对象的邻域,计算出若干个与样本对象最近同类与最近异类对象距离的平均值,然后依据分类区分函数的定义来确定近邻类的邻域半径大小,构造了鲁棒近邻粗糙集模型.最后按照其模型,基于样本对象对属性的评价准则提出了鲁棒近邻的属性约简算法.该算法模型分别在CART,KNN和LSVM三个分类器和10个样本数据集中测试运行,实验效果表明该模型不但可以筛选得到较少的属性集,而且还可以有效提高分类精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号