首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 531 毫秒
1.
针对模糊神经网络分类器设计过程中所遇到的样本采样与标注过程耗时、代价大的问题,提出了一个新颖的模糊神经网络分类器主动学习方法,以最小-最大边界法以及确定样本的不确定性闽值两个新概念为主动样本选择准则,确保选择其中信息量尽可能大的样本进行标注,使得网络设计过程中对未标注样本的标注工作量和时间大为减少.实验结果表明,该方法与模糊神经网络的被动学习模型相比,训练样本数目大为减少,训练时间大大缩短.  相似文献   

2.
通过选取最有信息量的样本提交专家进行标注,主动学习算法可以有效地减少无效标注样本的工作量.在充分考虑位于分类边界的不确定样本和基于先验分布的具有代表性样本的基础上,本文构造了不确定性与代表性相结合的可控主动学习算法.首先利用样本的kNN分布状况建立不确定性置信度模型,该思路不需要知道样本分布的具体类型和参数计算;然后在样本聚集度模型的基础上进行聚类,在此基础上建立代表性置信度模型.最后将不确定性置信度模型与代表性置信度模型进行综合,构造可控的主动学习策略,使得每次主动学习选择的样本更具有"价值".在UCI机器学习数据库上的仿真实验结果表明本文的思路是合理可行的,在实验所用数据集上,当达到相同的目标正确率时,本文的方法比随机采样算法所需的样本数量少得多.  相似文献   

3.
知识图谱的构建对于信息检索、智能问答、智能推荐等下游工作具有重要意义,而抽取资料中的信息是构建知识图谱的关键。为了实现有效知识抽取,提出了一个基于深度主动学习的实体关系联合抽取框架。在该框架下,基于深度主动学习的采样方法降低文本标注成本,改进的EDA数据增强方法(EDA-RE)解决样本间的关系分类不均衡、标注资料不足等问题,“BIO-OVE/R-HT”的标注策略和ChineseBERT-BiLSTM-CRF(CBBC)联合抽取模型解决传统流水线模型存在误差累积和无法抽取重叠关系等问题。通过百度竞赛提供的数据集进行实验,验证了框架中各方法的有效性。  相似文献   

4.
社交机器人一直在应用中不断发展,并且为了逃避现有的检测方法,变得更加先进和复杂,较大地影响了原有部分社交机器人检测方法的效果.检测社交机器人成为了一项漫长而又艰巨的工作.在社交机器人检测领域中,目前存在着已公开相关数据集较少的情况,需要人工标注大量的数据.本文提出了一种结合主动学习与关系图卷积神经网络(RGCN)的检测方法——ALRGCN,用以解决人工标注大量数据成本较高的问题.其主要思路是利用主动学习方法来扩充标记数据集,以最大化人工标注的价值.主动学习利用种子选择算法构建初始训练集以及不确定性采样方法筛选出较高信息熵的样本,交由分类模型进行训练,旨在通过专业人员的经验来人工标注一些分类器难以分类的数据.鉴于社交机器人通常以集群的形式出现,本文引入了RGCN来捕捉其网络结构特征.RGCN可以有效地分析节点及其相邻节点的属性,进而帮助该节点进行分类.实验在TwiBot-20数据集上进行,通过对比进行使用的基线实验,ALRGCN在F1上取得了2.83%的提升.实验结果证明,ALRGCN在标注样本更小的情况下可以更有效地检测出社交机器人.  相似文献   

5.
基于主动学习SVM分类器的视频分类   总被引:4,自引:0,他引:4  
提出一种基于主动学习SVM分类器的视频分类算法.该算法分为两个步骤:首先分析并提取与视频类型有关的十维底层视觉特征;然后用SVM分类器建立这些底层特征与视频类型之间的联系.在获取SVM分类器所需的训练样本时,采用主动学习的方法选择对SVM分类器最"有用"的样本提供给用户进行标注,用更少的训练样本获得与大量训练样本近似的分类效果,从而减轻用户标注负担.针对多类SVM分类的主动学习问题,提出用后验概率计算分类器对未标注样本的置信度进行样本选择.实验结果表明,主动学习算法与随机采样标注的被动学习算法相比,在相同的训练样本情况下能够获得更高的分类精度;而基于后验概率选择样本的主动学习要略好于传统的基于变型空间(version space)选择样本的主动学习.  相似文献   

6.
主动学习算法可以有效减少样本标注的工作量,每次选取最有信息量的样本交由专家标注。样本的代表性与不确定性都是衡量样本信息量的重要因素,将两者综合考虑能够获得更好的综合效果,但在两者的结合方式上一直存在不少问题,导致算法的适应性不强。为解决该问题,本文提出了基于样本不同属性的鲁棒偏倚赖主动学习分类算法,通过引入偏倚赖权值系数函数,在综合考虑样本的代表性和不确定性的同时,更可以突出样本的特性。同时由于样本代表性模型的渐变,在选择样本过程中更能突出代表性样本与不确定性样本的学习层次,前期训练以代表性样本为主,后期训练以不确定性样本为主,使得算法的适应性大大提高。在UCI机器学习数据库上的仿真实验结果表明本文的思路是合理可行的,在实验所用数据集上,与所提供的对比算法相比,本文的方法只需较少的标注样本便可以达到相同的分类正确率。  相似文献   

7.
多数在线垃圾邮件识别方法未有效区分用户针对不同邮件内容的感兴趣程度,导致垃圾邮件识别精度不高.文中提出了一种基于支持向量机的垃圾邮件在线识别新方法.即结合传统增量学习及主动学习理论,先通过随机选择代表样本寻找分类最不确定的样本进行人工标注;接着引入用户兴趣度的概念,提出了新的样本标注模型和算法性能评价标准;最后结合"轮盘赌"方法将标注后样本加入训练样本集.多种对比实验表明,文中方法针对垃圾邮件识别精度高,样本训练及待标注样本选择速度快,具有较高的在线应用价值.  相似文献   

8.
提出了结合主动学习和自动标注的评价对象抽取方法。具体实现过程中,首先,利用少量的已标注样本训练分类器,对非标注样本进行测试,获取自动标注结果及其置信度:其次,通过置信度计算每个样本的整体置信度,挑选出低置信度即不确定性高的样本待标注:最后,对待标注样本中置信度低的词语进行人工标注,而置信度高的部分则采用自动标注结果。实验表明,该方法可以在确保抽取性能的同时有效地减小人工标注语料的开销。  相似文献   

9.
主动学习时向专家查询得到的标注如果带有噪声,将会影响学习的性能.为减少噪声,人们提出了基于“少数服从多数”的多专家主动学习算法,但该算法的缺点是代价往往太高.文章采用了一种自我训练(self-training)方法,对某些平均置信度高的样本,直接确定其分类标注,不必向专家查询,以节省学习代价.同时,使用置信度差异作为度量标准,选取那些最不确定的样本向专家查询,提高了学习效率.在UCI数据集上验证了本文算法的有效性.  相似文献   

10.
通过详细分析多示例主动学习的特点,提出将多示例主动学习概括为包层、示例层以及混合层次主动学习三种模式;针对包层主动学习,将示例数目统计特征作为重要度量并与样本不确定性相结合,提出一种新的样本选择策略.在Corel数据集上进行实验,与传统的主动学习方法比较表明,该算法能够有效减少学习的样本数,显著提高学习器的效率和性能.  相似文献   

11.
为了扩大人工标注数据的规模, 从而提高模型性能, 尝试充分利用已有的异构人工标注数据训练模型参数。将Li等2015年提出的耦合序列标注方法扩展到基于BiLSTM的深度学习框架, 直接在两个异构训练数据上训练参数, 测试阶段则同时预测两个标签序列。在词性标注、分词词性联合标注两个任务上进行大量实验, 结果表明, 与多任务学习方法和传统耦合模型相比, 神经耦合模型在利用词法异构数据方面更优越,在异构数据转化和融合两个场景上都取得更高的性能。  相似文献   

12.
文本情感分类领域性强,传统情感分类方法在多领域混合数据上效果不佳.为了提升多领域混合情境下文本情感分类的准确率,使用双向编码器表征模型(bidirectional encoder representations from transformers,BERT)得到短文本的初级表征;利用对抗网络提取与领域无关的情感特征;利...  相似文献   

13.
油气管道在储运过程中,沿线区域地物变化对其安全具有较大影响,特别是道路的修建、沟壑的挖掘、滑坡等。由于油气管道分布范围广、周边环境复杂,传统的人工巡检方式存在一定的局限性,因此研究了基于卫星遥感的油气管道沿线地物变化检测。在综合考虑空间信息和算法自动化程度的基础上提出一种改进的基于多特征融合和主动学习的油气管道沿线地物变化检测算法。首先利用基于自适应阈值算法选择初始训练样本,然后利用梯度提升树、k近邻和极限随机树集成结构进行未标记样本的类别判定,并基于边缘采样的主动学习算法进行未标注样本增选。在样本增选过程中为了减少噪声对训练样本的影响并且减少冗余信息,通过两方面对增选样本进行优化,首先通过分割对象约束分类器集成变化检测结果,提高增选样本的准确性,然后利用边缘采样方法选择信息量较大的未标记样本进行标注。通过两景融合后的资源三号(ZY-3)影像进行实验,结果表明该算法可以有效检测地物变化情况,并且在提高变化检测结果精度的同时,可以有效减少训练样本的标注成本。  相似文献   

14.
Successful prediction of protein domain boundaries provides valuable information not only for the computational structure prediction of multi-domain proteins but also for the experimental structure determination. A novel method for domain boundary prediction has been presented, which combines the support vector machine with domain guess by size algorithm. Since the evolutional information of multiple domains can be detected by position specific score matrix, the support vector machine method is trained and tested using the values of position specific score matrix generated by PSI-BLAST. The candidate domain boundaries are selected from the output of support vector machine, and are then inputted to domain guess by size algorithm to give the final results of domain boundary prediction. The experimental results show that the combined method outperforms the individual method of both support vector machine and domain guess by size.  相似文献   

15.
雷瑶瑶 《科学技术与工程》2024,24(11):4567-4573
射频传感器是电磁态势感知的一种重要手段,通过对射频信号进行探测和分析,为电磁态势感知提供必要的数据支撑。针对现有射频传感器存在的获取信息不全面、集成度差等问题,论文提出基于分布式架构,以时、频、空、能等多域为切入点,设计一款分布式的多域电磁态势感知射频传感器,对射频信号进行多域协同侦测,为分析和评估战场电磁态势提供重要参考。论文首先基于Zynq多进程(Zynq Multi-Processor, ZynqMP)处理器处理器和ADRV9009射频收发芯片,设计了传感器的硬件方案,并完成了系统实物制作与测试,然后在软件算法方面,从时、频、空、能四个方面入手,分别就各域的关键特征指标,设计了相应的提取算法,最后设计了相应的功能和性能对比测试内外场实验。实测结果表明,传感器在时域所获得波形的震荡次数的误差小于1.92%,频域中对信号带宽和中心频率的测量误差分别小于3.2%和0.04%,能域中对能量的计算存在小于5.6%的误差,空域中来波方向角的测量误差小于2.7%,达到了预期设计要求。  相似文献   

16.
面向装配信息数据表达与飞机零部件装配夹具协同设计问题,阐述了飞机装配对象及其夹具多域集成建模过程,该建模过程给出了多域集成模型的知识框架.其次,定义各领域信息构成,全面系统地描述了装配工艺规划的所有数据.提出了装配对象与装配夹具之间互映射机理,详细阐述了互映射过程中所需的4个关键知识点.最后以翼尖小翼为实例,证明建模方法的可行性与有效性,使夹具设计更加系统化,提高了飞机结构、装配工艺规划和工装设计的协同设计效率和响应速度.  相似文献   

17.
为解决采用表面肌电信号(surface electromyography, sEMG)进行手势识别时电极贴片位移、受试者动作变化等复杂情况下分类识别准确率下降这一问题,提出了一种基于表面肌电信号与迁移学习的手势分类模型。首先对4通道表面肌电信号进行活动段提取与降噪处理,然后提取活动段信号的四种时域特征与两种频域特征。采用流形嵌入分布对齐(manifold embedded distribution alignment,MEDA)方法将源领域和目标领域的特征矩阵嵌入到格拉斯曼流形中进行流形特征学习,减小两域之间的数据差异,消除特征退化;同时根据自适应因子执行动态分布对齐,动态调整数据不同分布差异下边缘分布和条件分布的相对重要性。对多名受试者开展实验以验证所提方法的合理性,实验结果表明:所提方法与决策树(decision tree, DT)、支持向量机(support vector machine,SVM)、k临近(k-nearest neighbor,KNN)三种传统机器学习方法相比,识别准确率分别提高了13%、21%、9%。与未执行流形学习与动态分布对齐的联合分布适配(joint distribution adaptation,JDA)迁移学习方法相比,识别准确率提高了52%,达到93%。  相似文献   

18.
针对主动学习面向大型数据集人工标记成本过高和半监督自训练算法中存在误标记点影响的问题,提出了一种主动学习与半监督自训练交替迭代训练的联合算法.算法在训练过程中奇数轮次采用主动学习算法,偶数轮次采用自训练算法,通过2种算法的交替迭代训练以弥补彼此不足.自训练算法对无标记样本的预测减轻了主动学习标记样本的负担,同时主动学习标记易变成噪声的样本,减轻了自训练算法训练过程中对样本的标记错误.提出了一种基于密度峰值聚类和隶属度的改进主动学习算法:将初始无标记样本聚类成簇,根据隶属度差值在每个簇内选取部分样本做人工标记,获得可表达样本的整体结构的均衡样本.仿真试验表明:提出的联合算法在性能上要优于2种单一算法.对比常见的主动学习算法,改进后的主动学习算法分类性能得到显著提升,将其应用于联合算法中的效果更具优势.   相似文献   

19.
为了解决不同时间采集的运动想象脑电数据之间存在的分布差异,避免跨时段使用前长时间的重校准步骤,提出了一种基于判别迁移特征学习(discriminative transfer feature learning, DTFL)的运动想象分类方法。DTFL通过联合匹配源域和目标域之间的边缘分布和类条件分布来减少域间的差异,同时最大化类间距离和最小化类内距离来保留类判别信息,从而提升对运动想象的分类性能。基于DTFL的运动想象分类方法无需目标域脑电样本的类别信息,可以有效避免长时间的校准。在脑机接口竞赛数据集上的实验结果表明,DTFL显著优于其他迁移学习方法,有效缓解跨域分布的不一致性,提高了运动想象的分类正确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号