首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
超参数优化问题一直是自动化机器学习研究的重点问题,针对特定的需求建立机器学习模型,需要调整大量的超参数。其中,超参数组合形成了大规模的超参数搜索空间,从而需要大量的运行时间。然而,有效探索大量超参数组合具有一定的挑战,现有的自动化超参数优化方法时间复杂度很高。为此,利用相似数据集的最优超参数区间的历史知识,提出了一种基于数据集元特征的超参数优化方法。首先,使用自动化机器学习系统寻找最优超参数的区间范围,然后对历史数据集元特征采用递归特征消除法进行特征提取作为特征向量,将此特征向量与最优超参数区间的对应关系利用XGBoost算法建立预测模型,并使用该模型预测新数据集的最优超参数区间。对OpenML平台的数据集进行实验,结果表明该方法预测的最优超参数区间的精度达87%。同时,把此预测区间作为自动化机器学习系统的搜索空间范围,在很大程度上缩短了运行时间,且确保一定的性能。  相似文献   

2.
现阶段已有很多Android应用软件的自动化漏洞检测方法,针对现有漏洞检测方案仍然依赖于先验知识并且误报率较高的问题,本文研究了基于机器学习的Android应用软件组件暴露漏洞的分析方法.在对Android应用软件结构进行全方位分析的基础上,结合组件暴露漏洞模型,建立了相应的机器学习系统,并能够对Android漏洞特征进行提取、数据清理和向量化.结合人工分析与验证,建立了1 000个Android APK样本集,并通过训练实现了组件暴露漏洞的自动化识别,达到了90%以上的精确度.   相似文献   

3.
针对获取大规模的多跳问答训练数据集耗时耗力的问题,提出一个基于对比学习思想的多跳问题生成模型.模型分为生成阶段和对比学习打分阶段,生成阶段通过执行推理图生成候选多跳问题,对比学习打分阶段通过一个基于对比学习思想的无参考问题的候选问题打分模型对候选问题进行打分排序,并选择最优的候选问题.该模型在一定程度上缩小了无监督方法与人工标注方法的差距,有效缓解了缺少多跳问答数据集的问题.在数据集HotpotQA上的实验结果表明,基于对比学习的多跳问题生成模型能有效扩充训练数据,极大减少了人工标注数据的成本.  相似文献   

4.
数据类别不平衡问题是制约机器学习技术在入侵检测领域应用效果的重要因素。当训练数据不均衡时,训练得到模型的分类结果往往倾向多数类,从而极大影响分类效果。针对基于机器学习算法进行入侵检测时训练样本不均衡以及由于数据隐私性导致训练样本不足和更新慢的问题,提出一种基于生成对抗网络和深度神经网络相结合的入侵数据增强方法,以实现样本集的类别均衡。通过NSL-KDD数据集对模型评估,本文所提方法不仅具有较高的准确率,而且对未知攻击和只有少数样本的攻击类型具有较高的检测率。  相似文献   

5.
针对机器学习算法超参数寻优效率低的问题和参数寻优主流算法的特点,提出了一种基于参数并行机制的机器学参数寻优方法。该方法利用群启发式算法来进行机器学习算法的参数寻优,将种群转换为Spark平台特有的弹性分布式数据集,针对参数寻优耗时特点并行计算种群中个体适应度。选取随机森林和遗传算法作为实验算法设计了多组实验对所提出的学习训练方法进行验证。实验结果表明,在20万条以下的小数据量下,文中提出的基于参数并行机制的机器学习参数寻优方法与基于数据并行机制的机器学习参数寻优方法相比,运行时间最多能够减少2个小时,并具有良好的可扩展性。  相似文献   

6.
区间集是解决部分已知概念、近似不可定义或复杂概念的研究工具。概念格是机器学习、数据挖掘、知识发现和信息检索等领域的一种很有效的数据分析工具。区间集概念格是这两种方法的结合,是对于部分已知概念或不可定义概念信息系统进行机器学习、数据挖掘、知识发现和信息检索的一种有效的数据分析工具。区间集属性约简是揭示区间集概念格本质特征的一种方法。本文揭示了区间集属性约简的组成与结构:两个区间集相对必要属性不能在同一个区间集属性约简中出现;区间集约简与任何一个区间集相对必要属性等价类的交都不空;核心属性和每个区间集相对必要属性等价类中取一个属性组成的集合一定是区间集属性约简。  相似文献   

7.
给出了Lie群机器学习(LML)的学习子空间轨道生成格及相关的基本概念,包括李群机器学习中的样例数据集、轨道生成格理论及其算法,同时也给出了实例验证分析,与C4.5、N-Bayes算法在分类正确率上进行了比较,由此进一步证明了该理论的可行性以及算法的有效性.  相似文献   

8.
基于Rough集的决策树算法   总被引:1,自引:0,他引:1  
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。  相似文献   

9.
用支持向量机的机器学习是依据结构风险最小化原则,序列最小优化(SMO)是较特殊的分解算法。对高维大样本对象,支持向量机训练算法面临耗时增大与维数灾问题,利用粗糙集(RS)对不确定数据处理能力,提出一种新的粗糙集与支持向量分类机算法RS-SMO,可以对数据集做属性约简,生成类边界集作为SMO的训练子集,比原始训练集的维数与规模大小都有一定程度的减少,可构造出具有较好时空性能的算法。用两个实用数据对象做仿真,实验结果表明算法RS-SMO比SMO的性能有大的提高,实现了结构风险最小化。  相似文献   

10.
高光谱遥感信息处理自动化与智能化具有重要的理论意义和实用价值。作为有效的机器学习算法,支持向量机具有适用高维特征、小样本与不确定性问题的优越性,是一种极具潜力的高光谱遥感分类方法,但需要解决多类问题分类策略、核函数选择与优化、不确定性控制等问题。对高光谱遥感数据挖掘的若干基本问题进行了分析,在构建其框架体系与处理流程的基础上,探讨了可以发现的知识类型、典型的挖掘模式,并分析了一些主要挖掘算法和关键技术。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号