首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
构建了用于预测蛋白质序列中RNA-结合残基的分类模型.在模型的特征提取方面,除了与功能相关的结构特征和序列正交编码信息以外,还提出了一个新颖的特征PSSM-PP.该特征不仅包含蛋白质序列的进化保守特征,还包含与蛋白质和RNA结合有关的氨基酸理化特征.在设计模型时,考虑到样本数据量大的问题,选用了快速的随机森林算法.该预测模型总体预测准确率达到87.02%,特异性达到95.62%,敏感性达51.16%,Matthew相关系数为0.533 6.此外,还构建了RNA结合残基的预测平台.  相似文献   

2.
针对长短期记忆网络(LSTM)算法对时间序列预测存在的不足,考虑到样本序列如果包含线性关系或含有噪音时LSTM算法预测将不准确,同时分析了变分自编码器(VAE)对异常样本修复的原理,提出了一种改进的LSTM时间序列预测算法VAE_LSTM,将VAE网络修复样本的思想加入到传统的LSTM网络,对样本序列进行修复后再输入LSTM神经网络训练,最终建立了时间序列预测模型.阐述了模型建立的方法与步骤,详细分析了模型的原理.使用长江汉口历史水文数据序列进行仿真实验,结果表明:VAE_LSTM算法预测模型在时间序列预测方面有较好表现,满足预测精度要求,比传统LSTM时间序列预测模型的预测准确性高,尤其中短期预测更为准确;对比实验同时表明此模型准确性高于ARIMA,RNN等预测模型.  相似文献   

3.
在Du和Li构建的首个亚线粒体定位数据库基础上,将线粒体蛋白依据亚线粒体位置细分为四大类进行预测.对基于氨基酸的亲疏水特征、物理化学特征和结构特征的蛋白质序列约化信息做出讨论.给出在单肽组分和六类亲疏水约化情形下的蛋白质序列最佳分割位点,结果不仅符合真实生物学现象而且范围更加精确,可为相关实验研究提供参考.提出了最佳组合参数,该参数是ω=0.10,λ=22时亲疏水残基指数值及平行相关形式的伪氨基酸组分结合全序列单肽组分,利用支持向量机算法进行预测,达到了较好的预测结果.利用本文提出的最佳组合参数对未知蛋白序列进行检验,结果显示有一定注释作用,特别是对于Inner membrane类和Matrix类的预测精度较高.  相似文献   

4.
利用计算机技术在海量质谱数据中鉴定蛋白质序列是蛋白质组学研究最基本且重要的任务之一,诱饵序列库构建的好坏是蛋白质鉴定质量控制成功的关键之一。发展了基于注意力机制-双向长短期记忆神经网络(Attention Bi-LSTM)的诱饵序列构建方法,整体研究基于编码-解码框架,采用双向长短期记忆神经网络在解决传统循环神经网络梯度消失问题的同时,可以捕获前向后向更多依赖信息对处理序列数据更加有优势;引入注意力机制提高模型对目标序列库和诱饵序列库相关程度的关注度;并与目前常用的随机和反转算法进行比较。结果显示,基于Attention Bi-LSTM模型构建的诱饵序列库能满足理想诱饵序列库的各项特征要求;在不同大小实验数据集以及谱图、肽段、蛋白3个层面对比分析,显示构建的诱饵序列库与其他方法比具有更好的灵敏性。因此,Attention Bi-LSTM是一种很有潜力的诱饵序列库构建方法。  相似文献   

5.
一种考虑用户兴趣转移特征的协同预测模型   总被引:1,自引:0,他引:1  
大多数预测模型使用用户属性或社交关系信息来优化预测结果,然而真实系统中用户的属性或社交关系信息往往很难获得,或者取得的是虚假信息,从而导致用户行为表达不准确或模型不具有普适性.另外,几乎所有使用用户特征的模型仅考虑用户兴趣本身的度量,而忽视兴趣的变化这一重要特征.因此,本文提出一种考虑用户兴趣转移特征的协同预测模型.该模型根据用户连续行为序列构建用户兴趣转移特征和用户行为演变网络,利用用户兴趣转移特征计算用户相似性,进而搜索最近邻集合,利用用户行为演变网络筛选候选集,最后设计最频繁项提取算法来产生预测结果,从而构建用户行为的预测模型.在真实的新闻浏览日志、交互式网络电视视频访问日志和微软服务器日志上的实验表明该预测模型是有效的.  相似文献   

6.
为了提高图像信息隐藏算法的信息嵌入容量和载密图像的保真度,提出一种采用相邻像素预测的可逆信息隐藏算法.构建局部线性预测模型,以待预测像素的3个相邻像素为目标像素,通过目标像素的相邻像素建立线性方程组,求解预测模型参数.应用预测模型进行预测,计算预测误差,绘制预测误差直方图,通过直方图平移实现可逆信息隐藏.实验结果表明:文中算法可通过较少的预测像素进行预测,比其他算法具有更高的预测精度和更大的信息嵌入容量.  相似文献   

7.
PCA方法在蛋白质亚细胞定位中应用   总被引:1,自引:0,他引:1  
蛋白质的亚细胞定位与其生物功能密切相关,蛋白质数据库急剧膨胀,迫切需要设计出功能强大的高吞吐量的算法来预测蛋白质的亚细胞位置.许多预测工具都是基于伪氨基酸组成构建而成,应用一种数据分析方法——主成分分析(PCA)法,确定能反映序列次序效应的最优λ值.首先让λ取最大以包含尽可能多的序列次序信息,然后利用主成分分析法提取关键主特征.实验结果表明此方法能解决确定最优λ值困难的问题,且性能优于已有的预测工具.  相似文献   

8.
为更充分挖掘多元负荷序列间的有效信息,从而提高预测精度,提出了一种集成贝叶斯超参数优化算法、注意力机制的长期和短期时间序列网络(long and short-term time-series network with attention,LSTNet-attention)以及误差修正的短期负荷预测模型。首先,构建基于贝叶斯优化的LSTNet-attention模型进行初步预测,利用贝叶斯算法优化模型多个结构参数,降低人工设置参数的随机性,并通过注意力机制合理分配特征权重;然后,通过基于贝叶斯参数优化的极端梯度提升算法(extreme gradient boosting,XGBoost)误差修正模型来挖掘初步预测误差序列中潜在、未被利用的有效信息,进行误差预测和修正,进而得到最终的预测结果。通过使用澳大利亚某地真实负荷数据进行实证分析,实验结果表明,所提预测模型相较于其它模型具有更好的预测效果,可为负荷预测等工作提供一定参考。  相似文献   

9.
灰色预测以原始数据序列的生成为基础构建模型,原始数据序列特征直接影响预测模型精度.论文通过剖析灰色预测模型的建模机理,运用实证分析方法,揭示数据序列长度、数据序列信息、数据序列光滑度与灰色预测模型精度的关系,并据此提出灰色预测模型优化方法新思路.  相似文献   

10.
为了实现对风速范围区间的准确预测,提出一种基于模糊信息粒化和灰狼优化-支持向量机(GWO-SVM)算法的风速预测模型.该模型首先利用模糊信息粒子,从一段连续时间的风速值提取出最大值、最小值及大致的平均水平值;然后,采用时间序列风速输入模型,构建输入支持向量机模型的标签向量与特征矩阵;最后,通过灰狼算法进行支持向量机预测模型的参数寻优,实现对风速范围区间的准确预测.在实例验证阶段,将风速历史数据进行模糊粒化,采取4种不同的参数寻优方式对支持向量机预测模型进行参数寻优.结果表明:GWO-SVM算法可以有效地提高风速范围预测的精确度.  相似文献   

11.
针对从蛋白质原始序列中预测蛋白质定位及功能信息这个生物信息学中研究的热点问题,提出进化模糊K近邻算法(Evolutionary Fuzzy K-Nearest Neighbor,EFKNN)直接处理多分类问题的预测模型,用EFKNN及其集成直接从蛋白质序列中预测蛋白质亚核定位。采用5种特征提取算法从蛋白质序列中提取特征,训练了5个基于EFKNN的基分类器,并根据得票量大小原则集成每个基分类器的分类结果作为待测样本的输出。将蛋白质亚核定位预测中常用的数据集SNL9作为训练集,利用jackknife测试方法预测了数据集中每条单定位亚核蛋白,正确率为70.0%,表明该模型可以作为蛋白质亚核定位预测的工具或对现有预测模型和方法的补充。  相似文献   

12.
神经毒素是一种应用非常广泛的毒素,因此有必要提出一种能够快速、准确预测神经毒素的算法.这里基于神经毒素蛋白质序列的n肽组分和序列的亲疏水性分布信息,提出了一种离散增量结合支持向量机的ID-SVM的算法,对神经毒素和细胞毒素进行了预测.为了将ID-SVM的预测算法和其它的预测算法进行比较,将ID-SVM算法应用到Saha和Raghava构建的神经毒素和非神经毒素的数据库上.预测结果显示,ID-SVM算法的预测结果高于Saha和Raghava所用的算法的预测结果.  相似文献   

13.
为准确预测城市不同区域的共享单车需求量,解决区域间供需不平衡问题,在对上海市共享单车数据进行时空特征可视化分析的基础上,研究共享单车的出行分布规律. 针对时间出行分布的非严格周期性,提出了一种引入注意力机制的长短时记忆网络预测模型AM-LSTM. 利用Spearman相关性分析法分析特征影响因素,提取模型特征值. 分别构建不同输入序列的预测模型,与传统时序预测模型进行对比分析. 结果表明,采用30 min时间间隔的输入序列具有较高的预测精度,AM-LSTM模型能够较好地预测共享单车的出行需求量,预测精度优于单一的LSTM模型. 最后对预测曲线进行相关度分析,验证了AM-LSTM模型的预测性能,可以为城市共享单车的调度及分配提供有效信息.  相似文献   

14.
现有结合特征提取与预测模型的方法不能准确把握金融时间序列的混沌性与交互性,导致预测精度不高。针对此问题,提出一种基于二次分解与长短期记忆(long short term memory, LSTM)网络的金融时间序列预测算法。使用变分模态分解方法与集成经验模态分解方法依次解析金融时间序列数据,得到能表达数据混沌性特征的模态;将模态信息输入到融合有因子分解机(factorization machine, FM)的长短期记忆网络模型中,融合获取到的长记忆性特征与交互性特征,进而预测最终的结果;选取沪深300指数的历史数据作为实验数据集,通过多组对比实验验证算法的有效性。实验结果表明,提出的算法可以有效提升模型的预测能力,同时表达金融时间序列的混沌性、长记忆性、交互性。  相似文献   

15.
点击率预测模型是主流推荐系统中十分重要的部分.根据点击率预测的打分来调整商品的展示策略,对提高业务的转化率、改进用户体验等有着重要的意义.传统的点击率预测模型是利用用户特征和商品特征,对点击率进行预测.然而,用户行为序列的结构特征,如周期性规律、趋势等也能一定程度地体现用户行为的倾向.针对部分信息利用上的空缺,使用时间序列分析单元,将提取用户行为序列的特征作为用户特征的扩展,结合因子分解机结构将其与用户、商品特征进行交叉,能够有效提高特征质量,优化点击率预测模型的性能.实验表明,结合用户行为序列特征进行交叉优化的方法能够对点击率预测模型的表现带来很大提升,提高点击率预测的精度.  相似文献   

16.
信息时代的到来,催化了微信等通讯工具的发展,微信属于网络信息传输的核心载体,信息传输速率快,能够提升微信影响力,为此构建了基于数据挖掘技术的微信影响力预测模型。该模型使用基于粗糙集理论和BP神经网络的微信传播数据挖掘算法,采集预测微信影响力的有效数据;通过基于主成分分析的微信影响力预测模型,使用Z-Score法降低数据维度,实现数据标准化后,使用主成分分析法,提取微信数据特征,按照特征值大小设定微信影响力预测指标,将预测指标主成分特征实施归一化并设置权重后,构建影响力整体预测函数,实现微信影响力预测。预测结果显示,此模型预测的微信影响力和实际高度吻合,预测误差最大值仅有1%,且具有较高的查全率和查准率。  相似文献   

17.
运用RBF神经网络预测蛋白质相互作用位点.首先提取序列谱、保守权重、熵值、复合物可及表面积和序列变化率等一系列蛋白质相互作用位点的关键特征.然后应用RBF神经网络以及它们的集成来对这些样本集进行训练与测试.使用10次交叉验证进行训练与测试,创建了4组具有对比性的蛋白质相互作用特征组合.实验中每加入一种新的特征时正确预测率都会相应的提高,特别是加入可及表面积和序列变化率特征时正确率提高幅度更大,表明利用多特征组合,结合RBF神经网络算法进行预测蛋白质相互作用位点的方法是正确有效的.  相似文献   

18.
蛋白质的等电点 pI 是蛋白质的重要理化性质之一。了解蛋白质的 pI,对蛋白质的分离纯化,鉴定小分子肽或酶的活性位点,预测不同蛋白质之间或蛋白质与其他大分子之间的离子相互作用,判断 pI 值对测定温度的依赖关系,设计由已知顺序的 DNA 合成的肽的纯化程序等都是很有意义的。蛋白质的 pI 值通常采用等电点聚焦或层析聚焦等实验方法测定。由于实验方法的灵  相似文献   

19.
定位设备的普及产生了海量的车辆行驶数据,使得利用历史数据预测车辆行驶时长成为可能.车辆行驶数据由两部分组成:车辆行驶经过的路段序列信息和出发时段;路径总长度等外部信息.如何提取路段序列特征,以及如何将序列特征与外部特征有效地融合,成为预测行驶时间的关键问题.为解决以上问题,提出了一个基于Transformer的行驶时间预测模型,模型由路段序列处理模块和特征融合模块两部分组成.首先,路段序列处理模块使用自注意力机制处理路段序列,提取路段序列特征.该模型不但可以充分考虑各条路段与其他路段间道路速度的时空关联性,同时可保证数据并行输入模型,避免了使用循环神经网络时数据顺序输入导致的效率低下.其次,特征融合模块将路段序列特征与出发时段等外部信息相融合,最终获得预测的行驶时长.在此基础上,统计路口连接的路段数作为路段的上/下游路口特征,与路段特征结合输入模型,进一步提升了行驶时长的预测精度.在真实的数据集上与主流预测模型进行的对比实验表明,该模型在预测精度以及训练速度上均有提升,体现了所提模型的有效性.  相似文献   

20.
采用改进的氨基酸组成、SARAH1疏水尺度值、改进的二肽频率特征、间隔氨基酸对组成特征、蛋白质物理化学性质的自相关函数特征值表征给定的蛋白质序列段,然后用小波频谱来提取特征参数值,用支持向量机来预测棕榈酰化位点。模型查准率为0.880,查全率为0.859,F值为0.869,ROC曲线的面积为0.87。研究结果表明,使用多特征预测蛋白质棕榈化位点方法达到了现有预测算法的水平,能够较准确地预测蛋白质棕榈化位点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号