首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
针对高维稀疏线性回归问题,相关变量的数量远远少于不相关变量.相关变量的变量选择问题对于传统的频率论正则化方法是一大挑战.现有的贝叶斯惩罚置信区域法通过将模型拟合与变量选择分离,在联合后验置信区域内搜索最稀疏解,从而得到稀疏模型解.且该方法在高维变量选择效果上优于常用的变量选择方法.在此基础上,针对高维稀疏模型,将原方法中依赖的共轭正态先验替换成针对"稀疏信号勘测问题"提出的Horseshoe+先验,利用Horseshoe+先验对小系数"重"压缩与大系数几乎零压缩的理论特性,实现对稀疏回归系数的稳健估计.通过数据仿真模拟不同稀疏程度下的高维稀疏线性回归,并将基于Horseshoe+先验的惩罚置信区域法分别与基于正态先验以及Laplace先验的该方法进行比较,结果表明基于Horseshoe+先验的惩罚置信区域法在高维稀疏线性回归问题具有更好的变量选择效果与预测效果.  相似文献   

2.
肢带型肌营养不良一家系致病基因排除性定位   总被引:2,自引:0,他引:2  
为了定位一个常染色体显性遗传肢带型肌营养不良家系的致病基因(ADLGMD),采用13个荧光微卫星标记对收集到的一个包括4代33人的ADLGMD家系进行连锁分析,所选择的标记覆盖了3个已知ADL—GMD致病基因位点和4个已报道的致病基因定位区段.通过Linkage 5.1软件包计算连锁概率,各位点连锁分析所得的LOD值均小于-3,显示该家系致病基因与这7个位点均不连锁.该家系的肌营养不良症致病基因不在已知的位点内,很可能是一个新致病基因.  相似文献   

3.
在许多机器学习问题中,往往需要研究高维数据中各个特征之间的统计相关性.稀疏高斯图模型作为解决这一问题的有效方法之一,广泛应用于数据挖掘、生物信息、金融分析等应用问题中.由于模型参数量是数据维度的平方量级,基于高维数据的稀疏高斯图模型的参数估计一直是统计机器学习研究中的挑战性问题之一.提出了一种新颖的基于坐标下降优化的稀疏高斯图模型并行估计算法,其核心思想是根据高斯图模型结构估计等价于每个变量的稀疏近邻选择这一基本结论,采用坐标下降来求解每个近邻选择子问题.通过将样本矩阵进行分布式存储,在MPI(Message-Passing Interface)框架下实现了这些子问题的并行求解.实验结果表明,该算法具有良好的并行运算性能,在保证结构估计精度的同时,能够大幅度提升运算速度.  相似文献   

4.
确定独立筛选(SIS)方法在处理超高维稀疏线性回归模型的变量选择问题上已得到了广泛的应用,且已被推广到处理广义线性回归模型的变量选择问题.但SIS不能很好地解决非线性回归模型的变量选择问题,关于该问题的现有研究也较少,因此,如何有效地对超高维稀疏非线性回归模型进行变量选择是一个具有研究价值的问题.本文在经典的SIS方法...  相似文献   

5.
提出多种模型方法,对高维位点数据进行分析,为基因定位和复杂疾病性状遗传等方面的研究提供新的技术支持。为了实现关联位点在基因中的定位,首先建立映射模型,对每个位点的碱基对重新编码;然后,提出将质量控制模型与关联分析模型相结合的方法,确定位点的关联程度;随后利用基于随机森林的重要性排序,筛选与该遗传疾病最相关的致病位点;最后,设计出高维RBF神经网络,得到每个位点对性状的相关性系数,探索出与疾病多类性状相关的位点。结合多种检验方式,验证所建模型能够较为准确地定位与疾病相关的位点及基因。各类模型具有极强的推广性,广泛适用于筛选占有各自权值的大样本数据。  相似文献   

6.
研究了众数回归下变系数模型的统一变量选择问题.利用B样条基函数近似非参数部分,在众数回归下建立SCAD惩罚函数同时选择变系数模型中的重要变量并且识别具有常数效应的协变量,在一定条件下, 证明惩罚估计量相合性和稀疏性,通过数值模拟评估所提出的变量选择方法的有效性.  相似文献   

7.
组蛋白修饰是生物体中普遍存在的一种现象,能够以不同的调控方式影响基因表达,且随着高通量测序技术的飞速发展,大量的测序数据使得探究组蛋白修饰信号与基因表达水平之间的内在联系成为可能.由于基因表达数据存在零膨胀现象,提出了一种基于广义线性模型框架的主从模型,能够以较高精度从组蛋白修饰信号预测基因表达水平.首先通过人类全基因组注释文件中的基因位点信息,筛选出包含完整基因位点信息的表达数据;其次,根据基因位点信息,定位并提取出组蛋白修饰数据中基因特定位点的特征信息,构建设计矩阵;最后结合响应变量数据零膨胀的特点,构建主从模型,以GM12878细胞系为例,与现有的多种回归算法进行对比,验证了所提模型的有效性.  相似文献   

8.
针对高维数据集,提出一种利用预测变量之间的图结构信息来改进稀疏逻辑回归模型的方法。该方法通过利用高维图结构数据或者重叠组结构来进行逻辑回归建模,即使预测变量的图结构未知,该方法仍适用,当图结构为某些特殊形式时,目前流行的方法,如Adaptive Lasso,(Overlapping) Group Lasso和岭回归都可以看作是该模型方法的特例。数值模拟和实例分析应用表明:该方法能有效地利用预测变量图结构信息,提高模型在估计、预测以及变量选择等方面的表现,并且该模型在有限样本情形下是有效的;该模型方法克服了数据集的维数问题,利用高维数据的图结构提高了稀疏逻辑回归模型的性能,可广泛应用于高通量基因数据集的疾病分类研究中。  相似文献   

9.
在研究存在异常值的logistic回归模型时,发现如果使用极大似然估计(MLE)方法进行参数估计,那么异常值引起的偏差不是造成参数估计过大而是导致参数向量内爆即参数向量收缩为零向量,此时如果进行群组变量选择很可能会忽略一些重要变量.因此针对具有组结构的logistic回归模型,为处理解释变量存在异常值时的群组变量选择问题,将基于最小距离法的稳健估计(L2E)方法与已有的3种群组变量选择方法和3种双层变量选择方法结合,在此基础上利用Majorization-Minimization(MM)算法对目标函数进行求解.通过数值模拟比较了基于L2E方法和MLE方法在模型具有组稀疏和双层稀疏的情况下,6种变量选择方法在不同维数下的有限样本表现,结果不仅验证了L2E方法在存在异常值的logistic回归模型参数估计中的稳健性,而且指出了在这6种变量选择方法中使用Group Bridge方法进行变量选择的准确度更高.  相似文献   

10.
给出了将多位点基因型信息作为混杂因子的协变量,利用混合模型讨论在病例一对照研究中,当被研究群体中存在着分层现象时,被研究基因与疾病之间关联的一种新的方法.在子群体内部满足Hardy-Weinberg平衡时,此方法充分地利用已知信息,用基因标识物将群体分层,并估计出被研究基因与疾病之间的关联性,同时还考虑了多位点基因型数据有缺失的情况.  相似文献   

11.
复杂疾病一般由多个基因共同作用发生,单个基因的效应微小,为了更好地研究基因互作对复杂疾病的影响,提出了一种基于基因的信息增益模型。信息增益在分类系统中指变量为分类带来信息的多少,带来的信息越多,该变量对分类越重要。该模型从一个整体基因的所有单核苷酸多态性位点(single nucleotide polymorphism,SNP)出发,采用病例-对照数据来检测基因互作对疾病的影响。由于基因是功能表达的最小单位,与基于SNP的交互作用分析方法相比,该模型更能从生物学的角度解释疾病的遗传机制。最后,采用模拟数据和类风湿性关节炎疾病的真实数据进行实验,并与基于SNP的熵模型以及基于基因的核典型相关分析模型(kernel canonical corelation based U statistic,KCCU)两种模型比较,结果均验证了该模型的有效性。  相似文献   

12.
蓝藻psbA基因家族编码不同形式的D1蛋白,该蛋白是光系统II反应中心的重要组成部分.以39条念珠藻属(Nostoc)及与其同源性较高的psbA基因序列为研究对象,构建最大似然树进行系统发育分析,然后运行PAML4.9软件,使用分支模型、位点模型和分支-位点模型估测氨基酸位点ω值,进一步探讨psbA基因所受到的选择压力.结果表明:(1)系统发育树呈现出内类群中念珠藻分为2个大分支.(2)在分支-位点模型和位点模型下检测出13S,42V,75S,152R和255K为统计学上显著的正选择位点,绝大多数为负选择位点.揭示了念珠藻psbA基因所经历的正选择可能在其适应极端环境中起着重要作用.  相似文献   

13.
2.4 m×2.4 m风洞为多变量耦合系统,根据运行数据无法直接获得单个操纵变量对输出的影响.因此,提出采用多变量阶跃响应方法辨识风洞系统两输入-两输出耦合参数模型,采用三次样条插值法对阶跃响应数据进行滤波处理,再计算出单个通道的阶跃响应数据,在此基础上使用面积法获得各个通道的传递函数模型,并通过对不同阶次模型输出的均方根误差的比较,实现最佳模型阶次的选择.仿真及风洞现场测试结果验证了本文方法的有效性.  相似文献   

14.
精神分裂症(Schizophrenia)是一种遗传性复杂、多基因相关的疾病,对其相关基因的研究一直都是疾病基因研究的热点和前沿,也是遗传学领域的难题.随着目前各种组学数据(Omics Data)的产生,全基因组关联研究(GWAS)中和精神分裂症相关的单核苷酸多态位点(SNP)越来越多的公布于学界,整合这些大规模数据并利用生物信息学模型预测精神分裂症相关基因能为进一步翔实探究致病或相关基因提供基因库的富集和优选.本文首先运用已被证明预测表现优秀的随机森林模型(Random Forests)预测精神分裂症的相关基因,然后用全基因组关联研究得到的相关基因的SNP位点进行验证及进一步筛选候选基因.结果随机森林预测模型得到33个精神分裂症候选基因,其中10个基因具有58个SNP位点是精神分裂症GWAS中的显著性SNP位点,因而这10个基因为优选的精神分裂症候选基因,文献查询结果表明这10个优选相关基因与精神分裂症有密切联系.  相似文献   

15.
为实现低信噪比条件下的到达角(DOA)快速高精度估计,基于压缩感知理论,提出了一种相关域实数化快速DOA估计方法.首先,在分析相关域稀疏性的基础上,构建相关域联合实数化稀疏表示模型,并给出了相关域满足稀疏性的理论证明,通过两次奇异值分解(SVD)降低模型维度;其次采用欠定系统局部解法(FOCUSS)求解相关域联合实数化稀疏模型;最后为解决正则化参数选取困难的问题,提出采用简化的广义交叉验证思路进行最优参数选择的思想.仿真结果表明本方法在降低复杂度的同时具备更好的估计性能.  相似文献   

16.
人体的许多遗传疾病都与其基因包含的多个位点(SNPs)相关联。因此定位与遗传疾病相关联基因在染色体中的位置,能帮助研究人员了解疾病的遗传机理,预防某些遗传病的发生。利用全基因组关联分析方法,对两类样本(患病,未患病)各个位点上的碱基进行卡方检验,找出某种遗传病最有可能的致病位点,定位其所在的致病基因。利用连锁不平衡系数,得出最可能相关的致病基因,并通过聚类算法检验结论的合理性。  相似文献   

17.
确定与遗传性疾病或性状相关联的位点,是了解疾病和性状遗传机理、防止遗传疾病发生的重要手段.本文根据某种遗传疾病提供的样本数据,通过等位基因数值编码、差异性测度等方法,分析获得最有可能的致病位点或基因.并通过卡方检验,验证所提方法的有效性.  相似文献   

18.
针对汽车碰撞乘员约束系统优化设计中多参数和非线性问题,提出了基于径向基函数代理模型的优化设计方法,通过LS-DYNA分析软件建立正面碰撞乘员约束系统的仿真模型并对其进行验证.基于该模型选取对响应影响较大的设计变量作为优化变量,在LS-OPT中选择径向基函数构建代理模型,采用空间填充试验方法进行试验设计,运用自适应模拟退火算法进行优化求解.优化结果表明:人体综合损伤WIC值相比初始设计值降低了28.2%,实现了对设计目标的优化.  相似文献   

19.
为探索共享电动汽车选择行为,构建出行行为选择模型,基于南京市出行者选择行为调查数据,采用计划行为理论、技术接受理论和结构方程模型,综合考虑出行者个人社会属性、出行特征及潜变量,分别构建不包括潜变量的多项Logit模型和包括潜变量的混合选择模型,并对这些因素进行显著性和敏感性分析.结果表明:不包括潜变量的多项Logit模...  相似文献   

20.
在模型误差是时间序列时,利用B样条逼近和SCAD惩罚函数对变系数EV模型进行变量选择。选择合适的调整参数,偏差修正的变量选择能够同时选择有效的变量和估计非零的光滑系数函数。最后证明了变量选择的相合性,同时它也满足变量选择的Oracle性质---稀疏性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号