首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 328 毫秒
1.
针对神经网络分类模型对美国联邦运输统计局(Bureau of Transportation Statistics, BTS)航班数据集中的不均衡数据预测误差较大的问题,采用自适应合成采样算法(adaptive synthetic sampling approach, ADASYN)和合成少数类过采样算法(synthetic minority over-sampling technique, SMOTE)对航班延误类别进行平衡处理,并用随机森林(random forest, RF)模型进行训练和贝叶斯调参。结果表明:与不经过平衡采样的方法比较,该方法在权重平均下的精确率、召回率和F1评分分别提高了19%、8%和16%;分类预测准确率提升8.03%,模型拟合指数AUC(area under curve)提升5.4%。同时,采用多特征相融合的图神经网络模型Graph WaveNet对航班平均延误时间进行预测。实验结果表明:与单特征模型比较,该模型平均绝对误差和均方根误差分别降低了16%和12.45%。这些方法和结果对研究航班延误分类和预测算法研究具有参考价值。  相似文献   

2.
命名实体识别研究中常见的公开数据集普遍存在数据类别标记不平衡的问题,限制了基于统计学习模型方法性能的进一步提高.针对上述问题,提出了基于遗传算法的数据类别标记平衡方法.该方法基于原始数据集中已有的标记数据,通过修改遗传算法中的指标适应度函数和基因组合规则,合成类别分布均衡的文本用以扩充原始数据集,降低标记数据不平衡性从而改善命名实体识别的效果.为验证该方法的有效性,采用Bi-LSTM-CRF模型分别基于CoNLL 2003及JNLPBA数据集设计了该方法与平衡欠采样、随机过采样方法的对比实验.从实验中发现,提出的方法在CoNLL2003数据集上模型召回率提高3.26%,F_1值提高1.70%;在JNLPBA数据集上召回率提高2.44%,F_1值提高1.03%.实验结果表明,提出的方法能够有效地缓解类别标记失衡问题达到提高命名实体识别效果的目的.  相似文献   

3.
为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法 .该方法通过引入信息熵及修正因子,缓解了数据不平衡对分类准确率及召回率造成的不良影响.实验结果表明:所提出的分类方法在准确率及召回率上与word2vec均值模型相比,分别提高7.3%及10.5%.  相似文献   

4.
偏标记学习是近几年提出的新机器学习框架,已有的逻辑回归偏标记算法尚不能解决数据不平衡问题.建立了一种可以解决数据不平衡的逻辑回归模型偏标记学习算法.基本思想是在多元逻辑回归模型中定义新的似然函数以达到处理不平衡数据的目的.算法先根据训练集中各个类别样本所占比例定义了一个新的似然函数,之后通过逼近和求导等数学手段推导得到了能够求解的光滑的逻辑回归偏标记学习模型.在UCI数据集和真实数据集上的仿真实验表明,所提算法在数据存在不平衡问题时提高了样本的平均分类精度.  相似文献   

5.
数据流广泛应用于现实世界的多个领域,但是不平衡数据流的存在严重影响了传统数据流分类器的性能.针对不平衡数据流问题,提出了随机平衡采样算法(RBS)处理数据流的不平衡问题,并以RBS算法为基础提出了随机平衡采样数据流集成算法(RBSSEA)旨在解决不平衡数据流的分类问题.最后,分别采用合成和真实数据集对RBSSEA算法进行验证,实验结果证明RBSSEA算法在解决不平衡数据流分类问题具有一定的优势.  相似文献   

6.
针对传统重采样方法大多使用固定采样策略,无法根据模型的优化需求改变采样策略的问题,提出一种基于自适应采样的不平衡分类方法(ASIC)。该方法根据分类模型在验证集上的表现动态调整训练集上不同类别样本的采样概率,使不同类别的采样概率由当前分类模型的需求动态决定;同时,该方法对少数类给予额外的关注,在其余条件相同的情况下为少数类赋予更大的采样概率,以弥补少数类本身样本数量不足对分类模型造成的不良影响,从而提高分类模型对少数类的识别能力。实验结果表明,使用ASIC方法训练的分类模型的平均类准确率和召回率的几何平均值均比对比方法更好,且数据分布越不平衡,ASIC方法的优势越明显。  相似文献   

7.
各个社交平台的作弊问题日趋严重,欺诈检测工作越来越有必要.现有在该场景的解决办法没有同时利用用户特征和关联关系两方面重要信息或者不能应用于现实上亿规模的数据量.针对这个问题,开创性地将GraphSAGE算法应用于社交平台的反作弊场景并进行改进,提出带权采样GraphSAGE算法.改进后算法根据节点之间特征相似程度进行采样.在真实大数据集上进行了实验,线下实验中,相较于基准模型和现有主流模型,性能上有了较明显的提升,且加快了模型的收敛过程.在线上结合基础规则,达到了极高的精确率,并召回之前未察觉的两个作弊团伙.  相似文献   

8.
现实世界中的数据挖掘经常涉及从类别分布不平衡的数据集学习,少数类的数量相比于其他类较少.从包含少数类的数据集中学习,通常会产生偏向于多数类的预测分类器,但对少数类的预测精度较差.针对少数类学习提出一种新的集成算法Cost-SMOTEBoost,该算法是SMOTE算法和AdaCost算法的结合.通过实验表明,Cost-SMOTEBoost算法在不降低精确率的情况下提高了召回率,从而提高了在分布不平衡数据集上的表现.  相似文献   

9.
采用少类样本合成过采样技术(SMOTE)与二叉树多类支持向量机(BTSVM)相结合的入侵检测算法来解决实际应用中经常遇到的类别不平衡的分类问题.该方法首先对不平衡类别的训练集使用BTSVM分类,然后对求出各分类器中的支持向量使用SMOTE方法进行向上采样,最后用不平衡类别的测试集在新的分类模型中进行测试.实验结果表明本算法能够有效地提高不平衡数据集的分类性能.  相似文献   

10.
为深入挖掘驾驶人因素与交通事故之间的关系,提出一种基于SMOTENC和极端梯度提升(extreme gradient boosting, XGBoost)的驾驶人交通状态优劣分类算法。首先针对交通事故发生与否不平衡的特点,使用SMOTENC算法对数据进行上采样并在采样过程中加入随机扰动,解决了数据不平衡问题。然后使用Embedded算法结合L1正则化,通过模型评估完成对特征子集的选择。最后使用机器学习的方法将XGBoost算法用于执行数据的特征提取和分类过程。实验表明,在对驾驶人的交通状态进行综合评价的任务上,XGBoost模型的准确率为99.85%,相较于随机森林、支持向量机等对照组模型,提升了约1.12%-1.80%。除此之外,使用SMOTENC算法对数据不平衡问题进行处理后,通过混淆矩阵观察到模型对于好坏个体均具备较好的识别能力。  相似文献   

11.
对随机进程代数模型交互式马尔科夫链(IMCs)上的模拟关系进行研究,根据不动点定理和权函数的定义,给出交互式马尔可夫链模型上强互模拟等价和强模拟前序的判定算法,对算法的时间复杂度进行分析.  相似文献   

12.
面向专利文献的汉语分词技术研究   总被引:2,自引:0,他引:2  
针对专利文献专业术语多、领域广的特点, 采用基于领域词典与统计相结合的方法探讨了专利文献的汉语分词问题。利用NC-value算法抽取专业术语, 使用条件随机场模型(CRF)提高专业术语识别率, 提高分词精度。实验结果表明, 提出的方法在开放测试下分词的准确率为95.56%, 召回率为96.18%, F值为95.87%, 大大提高了专利文献的分词精度。  相似文献   

13.
基于出生性别比例的逻辑斯谛人口模型的混沌性质   总被引:1,自引:0,他引:1       下载免费PDF全文
建立了基于出生人口性别比例的逻辑斯谛人口模型,研究了该模型的混沌性质;得到了出生人口性别比例失调将导致人口规模呈混沌状态发展的结论.  相似文献   

14.
在大数据时代,正则化(惩罚)回归模型成为高维数据分析的一种有效分析工具.文中从统计模型理论和优化算法两个角度对正则化回归模型进行简要的概述,主要介绍线性回归模型、广义线性模型和分位数回归模型三种经典且重要的回归模型以及相应的正则项.对于线性回归模型,介绍最小二乘回归和l_1-正则最小二乘回归问题的优化算法;对广义线性模型和分位数回归模型,介绍逻辑回归模型和求解l_1-正则逻辑回归问题的优化算法,并展示分位数回归模型和求解相应的正则化分位数回归模型的优化算法.最后,对正则化回归模型未来的研究方向进行展望.  相似文献   

15.
网络舆情中的谣言对社会危害极大,因此有效地检测网络舆情中的谣言已是当务之急.目前,一些单一机器学习算法被相继应用到谣言检测中.针对这些单一机器学习算法在分类上的局限性,将一种融合逻辑回归与决策树的逻辑模型树方法用于谣言检测上.根据舆情分析报告上采集的数据集,实验结果表明:组合模型逻辑模型树的分类预测准确率比已应用到谣言检测的单一机器学习算法明显要高,逻辑模型树是一种有效的谣言检测方法.  相似文献   

16.
针对统计方法难以解决小样本条件下项目反应理论(IRT)项目参数问题,提出了运用广义回归神经网络(GRNN)集成对小样本条件下项目参数进行估计的方法,运用计算机模拟的方法产生项目参数的真实值,根据双参数逻辑斯蒂模型得到被试的反应矩阵。运用经典测验理论方法得到项目难度和区分度的统计量,将其作为神经网络的输入,以模拟产生IRT的项目参数作为网络的输出,对GRNN进行训练。并且对30个神经网络加以集成,将它们在测试阶段得到输出值的平均值作为IRT参数的估计值。结果表明,神经网络集成可以得到比统计方法和单个神经网络更好的参数估计结果。  相似文献   

17.
针对小微企业信用历史数据规模较小,而且类别不平衡问题较为严重,提出基于样本依赖代价矩阵的Smote XGboost-Bayes Minimum Risk(SXG-BMR)模型,对整体样本进行低倍率过采样,以弱化类别不平衡问题,降低模型过拟合的风险;模型将集成学习模型与最小风险贝叶斯决策相结合,以实现代价敏感。同时,模型中引入了样本依赖的代价矩阵,该代价矩阵不仅与类别有关,而且与样本自身属性有关,可以更为准确地表征代价。使用标准信用数据集和上海市小微企业信用数据集,进行多种算法的对比分析,结果表明,该模型性能优良。  相似文献   

18.
本文介绍用三次B样条函数来建立线框图形的几何模型.对图形的动态建模与动态处理进行讨论,并提出了相应的算法.本算法适用于各种图形设计、舞美造型设计、动画设计和服装设计等领域,也适用于线框图形的识别、分析与传送等方面的研究应用.  相似文献   

19.
针对矩阵的行列互换使得奇异值分解(SVD)后的奇异值不变,从而由奇异值直接产生水印安全性不高,以及基于SVD的图像认证水印算法把块水印嵌入本图像块的最低有效位,从而很难抵抗矢量量化攻击,提出了基于SVD和由Logistic混沌系统构成伪随机循环链的图像认证水印算法.首先通过Logistic混沌系统调制图像,使得图像矩阵唯一,然后将调制后图像块奇异值生成的块水印嵌入伪随机循环链对应图像块最低有效位.实验结果显示,该算法提高了水印的安全性,不仅能够准确定位,而且可以有效抵抗矢量量化攻击.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号