首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 562 毫秒
1.
主动学习算法可以有效减少样本标注的工作量,每次选取最有信息量的样本交由专家标注。样本的代表性与不确定性都是衡量样本信息量的重要因素,将两者综合考虑能够获得更好的综合效果,但在两者的结合方式上一直存在不少问题,导致算法的适应性不强。为解决该问题,本文提出了基于样本不同属性的鲁棒偏倚赖主动学习分类算法,通过引入偏倚赖权值系数函数,在综合考虑样本的代表性和不确定性的同时,更可以突出样本的特性。同时由于样本代表性模型的渐变,在选择样本过程中更能突出代表性样本与不确定性样本的学习层次,前期训练以代表性样本为主,后期训练以不确定性样本为主,使得算法的适应性大大提高。在UCI机器学习数据库上的仿真实验结果表明本文的思路是合理可行的,在实验所用数据集上,与所提供的对比算法相比,本文的方法只需较少的标注样本便可以达到相同的分类正确率。  相似文献   

2.
主动学习是机器学习领域的重要研究方向.现有主动学习方法通常选择不确定性的或具有代表性的样本供专家打标,然后添加到已标记的数据集中供分类器学习,但没能充分利用数据的分布信息,并且在野点采集问题上有待改进.结合邻域粗糙集理论,提出了一种基于邻域粗糙集的主动学习方法(neighhbor rough set active learn-ing,NRS-AL).实验结果表明,在加州大学数据集(university of CaliforniaIrvine,UCI)上,该算法充分利用了数据的分布信息,同时结合样本的不确定性和代表性计算,处理了野点的选择,是一种能有效解决主动学习样本选择问题的算法,在accuracy,受试者工作特征(receiver operating characteristic curve,ROC)曲线下面的面积(area under curve,AUC)指标上优于文献中的主动学习算法.  相似文献   

3.
提出了结合主动学习和自动标注的评价对象抽取方法。具体实现过程中,首先,利用少量的已标注样本训练分类器,对非标注样本进行测试,获取自动标注结果及其置信度:其次,通过置信度计算每个样本的整体置信度,挑选出低置信度即不确定性高的样本待标注:最后,对待标注样本中置信度低的词语进行人工标注,而置信度高的部分则采用自动标注结果。实验表明,该方法可以在确保抽取性能的同时有效地减小人工标注语料的开销。  相似文献   

4.
基于主动学习SVM分类器的视频分类   总被引:4,自引:0,他引:4  
提出一种基于主动学习SVM分类器的视频分类算法.该算法分为两个步骤:首先分析并提取与视频类型有关的十维底层视觉特征;然后用SVM分类器建立这些底层特征与视频类型之间的联系.在获取SVM分类器所需的训练样本时,采用主动学习的方法选择对SVM分类器最"有用"的样本提供给用户进行标注,用更少的训练样本获得与大量训练样本近似的分类效果,从而减轻用户标注负担.针对多类SVM分类的主动学习问题,提出用后验概率计算分类器对未标注样本的置信度进行样本选择.实验结果表明,主动学习算法与随机采样标注的被动学习算法相比,在相同的训练样本情况下能够获得更高的分类精度;而基于后验概率选择样本的主动学习要略好于传统的基于变型空间(version space)选择样本的主动学习.  相似文献   

5.
主动学习时向专家查询得到的标注如果带有噪声,将会影响学习的性能.为减少噪声,人们提出了基于“少数服从多数”的多专家主动学习算法,但该算法的缺点是代价往往太高.文章采用了一种自我训练(self-training)方法,对某些平均置信度高的样本,直接确定其分类标注,不必向专家查询,以节省学习代价.同时,使用置信度差异作为度量标准,选取那些最不确定的样本向专家查询,提高了学习效率.在UCI数据集上验证了本文算法的有效性.  相似文献   

6.
基于有监督机器学习算法的蛋白质相互作用关系抽取方法仍然面临一个问题:标注数据集有限,导致算法无法得到充分学习。该文首先构造了一个丰富的特征空间,包括句法、词汇、词性等特征;然后,该文对不同数据集数据分布的不一致性进行了分析,在此基础上提出了一种基于自训练的数据添加算法,通过不断从未标注数据集中选择置信度高的样本加入到已标注数据集中,扩大数据集规模,提高算法效率。实验结果表明:在5个常用的蛋白质相互作用关系数据集上,该方法均有助于提高抽取性能。  相似文献   

7.
大规模的训练集中通常含有许多相似样本和大量对分类器模型构造"无用"的冗余信息,利用全部样本进行训练不但会增加训练时间,还可能因为出现"过拟合"现象而导致泛化能力下降。针对这一问题,本文从最具代表性样本与最近边界样本两个角度综合考虑,提出一种基于改进加权压缩近邻与最近边界规则SVM训练样本约减选择算法。该算法考虑到有价值训练样本对SVM分类器性能的重要影响,引进减法聚类利用改进的加权压缩近邻方法选择最具代表性的样本进行训练,在此基础上利用最近边界规则在随机小样本池中选择边界样本提高分类精度。在UCI和KDDCup1999数据集上的实验结果表明,本文的算法能够有效地去除大训练集中的冗余信息,以较少的样本获得更好的分类性能。  相似文献   

8.
针对采用大样本离线训练的车辆识别分类器在新场景中性能显著下降的问题,提出了一种具有样本自标注能力的车辆识别迁移学习算法,并采用概率神经网络(probability neural netw ork,PNN)进行分类器训练.首先,提出一种基于多细节先验信息的样本标注策略,融合复杂度、垂直平面和相对速度等先验信息实现新样本的自动标注;然后,充分利用PNN训练速度快以及增加新样本时只需分类器进行局部更新的特点,将其引入到分类器训练模型中,取代传统机器学习算法中的Adaboost分类器.实验结果表明:该算法在新场景下的新样本标注准确率高达99.76%.通过迁移学习,新场景的车辆识别分类器性能较通用分类器在检测率和误检率指标上均有显著提升.  相似文献   

9.
针对模糊神经网络分类器设计过程中所遇到的样本采样与标注过程耗时、代价大的问题,提出了一个新颖的模糊神经网络分类器主动学习方法,以最小-最大边界法以及确定样本的不确定性闽值两个新概念为主动样本选择准则,确保选择其中信息量尽可能大的样本进行标注,使得网络设计过程中对未标注样本的标注工作量和时间大为减少.实验结果表明,该方法与模糊神经网络的被动学习模型相比,训练样本数目大为减少,训练时间大大缩短.  相似文献   

10.
社交机器人一直在应用中不断发展,并且为了逃避现有的检测方法,变得更加先进和复杂,较大地影响了原有部分社交机器人检测方法的效果.检测社交机器人成为了一项漫长而又艰巨的工作.在社交机器人检测领域中,目前存在着已公开相关数据集较少的情况,需要人工标注大量的数据.本文提出了一种结合主动学习与关系图卷积神经网络(RGCN)的检测方法——ALRGCN,用以解决人工标注大量数据成本较高的问题.其主要思路是利用主动学习方法来扩充标记数据集,以最大化人工标注的价值.主动学习利用种子选择算法构建初始训练集以及不确定性采样方法筛选出较高信息熵的样本,交由分类模型进行训练,旨在通过专业人员的经验来人工标注一些分类器难以分类的数据.鉴于社交机器人通常以集群的形式出现,本文引入了RGCN来捕捉其网络结构特征.RGCN可以有效地分析节点及其相邻节点的属性,进而帮助该节点进行分类.实验在TwiBot-20数据集上进行,通过对比进行使用的基线实验,ALRGCN在F1上取得了2.83%的提升.实验结果证明,ALRGCN在标注样本更小的情况下可以更有效地检测出社交机器人.  相似文献   

11.
当前基于机器学习的材料属性预测研究中,通常采用数据库获取的所有数据样本,通过计算其高维向量表示来训练预测模型。然而材料数据库样本的高冗余性导致了训练的模型具有很强的偏向性和过拟合的现象。为此,提出一种剔除数据集中冗余性样本的算法,从数据集中选择具有代表性样本;通过使用多种机器学习算法预测材料属性并进行比较,结果表明如果没有实行基准数据集的冗余控制,即使是随机原始数据集也可以由于高冗余样本而得到很好的预测性能指标;研究还发现使用具有代表性样本进行训练实际可以帮助训练出具有更高泛化能力和更具预测性的模型。因此,提出降低冗余度是评估材料性能预测模型的必要步骤。  相似文献   

12.
BP网络是一种典型的多层前向网络,由输入层、隐含层和输出层组成,通过学习样本训练模型后即可用于数据的预测,适用于实现网络教学系统的成绩预测功能。训练样本作为BP网络的学习数据集,对于BP网络模型的训练具有重要的作用。模型选取网络教学系统中能够影响学习成绩的相关因素作为输入数据,包括学生在线学习时间、学生学习能力、作业成绩和测试成绩,利用已有学生成绩作为训练BP网络的期望输出。将这些数据进行归一化处理即可用于训练BP网络模型。训练过程中,全局误差基本呈下降趋势,收敛效果较好。经过训练后的模型可预测出学生的成绩,并转化为相应的等级,对学生下一步学习进行指导,提出适合的教学策略。通过测试表明该模型可以用于教学系统中的学习成绩预测,获得了预期效果。  相似文献   

13.
提出了一种基于支持向量机(SVM)和条件随机场(CRF)的双层模型进行中文机构名识别的方法.第一层模型采用CRF识别简单机构名,并将识别结果传至第二层辅助下一步的识别;第二层采用基于驱动的方法,将SVM和CRF结合进行复杂机构名的识别;最后将两层的识别结果合并,并通过一个后续处理对置信度较低的识别结果进行修正.大规模真实语料的开放测试表明,精确率达到94.83%,召回率达到95.02%,证明了该方法的有效性.  相似文献   

14.
龚宇  刘迪仁 《科学技术与工程》2024,24(12):4932-4941
研究区块低阻油层发育广泛,油层和水层的电阻率相差不大,导致测井流体识别较为困难。为了有效识别低阻油层,采用少数类过采样技术(synthetic minority oversampling technique, Smote)对油水同层,油层等少数类样本进行过采样使数据集均衡;并利用门控循环单元(gated recurrent unit, GRU)网络模型进行低阻油层的流体识别。通过相关性分析确定自然伽马(GR)、深侧向电阻率(RD)、密度(DEN)等8条测井曲线数据作为输入训练模型,应用于中实际资料中,并将GRU与传统RNN和其他3种机器学习算法对比。结果表明:序列数据模型的流体识别效果比传统机器学习模型好,且基于Smote-GRU的流体识别模型的符合率达到89.5%,相对传统循环神经网络(recurrent neural network, RNN)的81.1%,取得了较好的应用效果。通过对照试验还证实了Smote算法提高了分类器对少数类样本的识别率。所提出的方法可为样本不均衡的低阻油层的流体识别提供参考。  相似文献   

15.
贝叶斯网结构学习的研究现状及发展趋势   总被引:4,自引:0,他引:4  
目前,在结构已知情况下,贝叶斯网的参数学习算法及数据完备时的贝叶斯网的结构学习算法比较成熟,但是从不完全数据中学习贝叶斯网结构比较困难;文章简要介绍前者,重点分析了在不完备数据条件下结构学习的难点,对现有的学习算法进行了深入的研究和比较,对该领域的研究趋势进行了展望。  相似文献   

16.
为了获得代表性样品的大小和其约束条件, 基于全晶质岩石结构的特征, 以理想的花岗岩成分为基础, 利用模拟统计的方法, 初步探讨了代表性样品与矿物含量和矿物粒径之间的关系, 获得了矿物含量和粒径变化时, 样品大小对矿物实际含量和真实含量间最大可能差值的影响。统计样品截面视域中斑晶数目的多少, 可以获取样品中矿物实际含量与真实含量的最大差距。利用斑晶的平均粒度可以近似获得代表性样品的大小。相同大小样品下, 粒径大的样品偏离真实含量的程度更高, 斑晶或等粒结构中的粗粒矿物含量是20% 时, 所需代表性样品最大。最后以麻棚岩体和房山岩体为实例进行了验证和应用说明。  相似文献   

17.
在支持向量机的学习过程中,有些情况下训练样本不能一次全部给出,这样当有新样本加入训练集时,支持向量集和训练样本集的等价关系将被打破.为了解决这个问题,本文提出了有新样本加入的支持向量机的学习策略.通过对新样本的分析,选出能代替原样本和新样本进行学习的样本,并给出这些样本应满足的条件,最后给出了相应的学习策略.对标准数据集的实验表明,本学习策略可以在新增样本增加后,有效压缩样本集的大小,提高分类的速度,舍弃无用的样本,同时保证了分类精度.  相似文献   

18.
为提高分类准确率, 解决城市区域社会功能标签分类难的问题, 提出了一种基于不确定抽样选择策略的半监督城市土地功能分类方法。该算法从轨迹数据中提取城市区域的特征向量, 只需对少量区域进行标签, 根据不确定抽样的主动学习选择策略, 从未标注训练样本中选取具有较多信息的数据, 利用半监督学习算法进行标注, 得到新的标注训练样本添加到训练集, 反复迭代后得到分类结果。实验结果表明, 该方法对不同社会功能的城市区域分类准确率可达90. 2%, 与传统方法相比分类准确率高, 减少了大量标注工作, 在少数标签数据上仍有较好的分类效果。  相似文献   

19.
基于数值模式的风场时空变化特征的统计分析   总被引:1,自引:1,他引:0       下载免费PDF全文
统计分析风场时空变化的特征,掌握其变化规律,可以提高风场预报的准确性。利用WRF模式对大气状态进行模拟,优化配置物理过程参数化方案,采用多层嵌套、双向反馈。以2 h为时间间隔的风场状态变化作为统计的风差样本,重点关注超过规定阈值大小的显著风差样本的分布,将风差样本标注在地图上,制作显著风差样本图。统计了显著风差样本数量在一天中的累积分布、风差样本的大小在垂直方向的分布,以及风场状态在各个高度层之间的差别。选择银川河东机场区域作为WRF模拟区域,对该区域一年的风差样本进行统计分析。结果表明:复杂地形条件下,不同区域风场变化的剧烈程度有很大的差别,但由同一因素引起的显著风差样本的变化趋势是一致的;风场时空变化的剧烈程度随着高度的增加而减弱。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号