首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
命名实体识别研究中常见的公开数据集普遍存在数据类别标记不平衡的问题,限制了基于统计学习模型方法性能的进一步提高.针对上述问题,提出了基于遗传算法的数据类别标记平衡方法.该方法基于原始数据集中已有的标记数据,通过修改遗传算法中的指标适应度函数和基因组合规则,合成类别分布均衡的文本用以扩充原始数据集,降低标记数据不平衡性从而改善命名实体识别的效果.为验证该方法的有效性,采用Bi-LSTM-CRF模型分别基于CoNLL 2003及JNLPBA数据集设计了该方法与平衡欠采样、随机过采样方法的对比实验.从实验中发现,提出的方法在CoNLL2003数据集上模型召回率提高3.26%,F_1值提高1.70%;在JNLPBA数据集上召回率提高2.44%,F_1值提高1.03%.实验结果表明,提出的方法能够有效地缓解类别标记失衡问题达到提高命名实体识别效果的目的.  相似文献   

2.
为了有效解决类间相似度高、类内差异化大、数据类别不平衡的皮肤病变识别,提出了基于改进AlexNet的可变形卷积网络皮肤病变识别算法. 构建改进的AlexNet可变形卷积网络模型,增加采样偏移量,使不同位置的卷积核采样点可根据图像内容自适应变化,自动调整不同尺度或感受野,提取比标准卷积更精细的特征. 使用交叉熵损失函数和焦点损失函数的加权损失函数,削弱易分类样本在训练中所占的权重,使模型专注于相似度高、易错分的样本,解决样本比例不平衡的问题,优化模型的识别率. 在HAM10000数据集上进行仿真实验,主客观的实验结果表明, 提出的方法在7种皮肤病变上的识别优于现有方法,具有更高的准确性、特异性和鲁棒性.   相似文献   

3.
针对毛巾织物瑕疵检测中存在的小目标瑕疵漏检率高、形变尺度大的瑕疵检测精度低以及模型检测效率不理想等问题,提出一种基于YOLOv4网络的轻量化毛巾织物瑕疵检测方法。采用轻量级网络Ghost Net重构主干特征提取网络,以降低模型运算量,提升检测速度;在深层特征提取网络中引入结合空洞卷积和SoftP ool的DS-CBAM模块,扩大感受野的同时保证特征图分辨率并提高模型对毛巾织物瑕疵特征的提取能力;根据各类毛巾织物瑕疵正负样本不平衡的数据特点,引入难易样本聚焦参数和正负样本平衡参数对损失函数进行优化,降低样本失衡对检测性能的影响;采用改进度量距离的K-means算法自适应生成适合毛巾织物瑕疵尺寸的先验框,提高先验框和毛巾织物瑕疵目标的匹配度。研究结果表明:改进后的模型在毛巾织物瑕疵数据集上的检测精度要优于原YOLOv4和其他主流检测算法,综合类别平均精度达到92.14%,检测速度达到49.98帧/s,分别比原模型提高了5.31%、22.83%,有效平衡了检测精度和检测速度之间的关系。  相似文献   

4.
通过对YOLOX-S模型引入可变形卷积神经网络和焦点损失函数(Focal loss),解决原YOLOX-S模型车窗识别准确率较低的问题.首先,通过在YOLOX-S模型的主干特征提取网络中引入可变形卷积神经网络,对卷积核中的各采样点引入偏移量,以便在原始图像中提取到更具有表征的信息,从而提高车窗识别的精准度;其次,使用Focal loss替代原模型中的二元交叉熵损失函数,Focal loss能缓解正负样本不平衡对训练的影响,其在训练过程中更关注难样本,从而提高了模型对车窗目标的识别性能;最后,为验证改进算法的性能,实验收集并标注15 627张图片进行训练和验证.实验结果表明,改进后的车窗识别算法的平均目标精度提高了3.88%.  相似文献   

5.
命名实体识别研究中,数据集内普遍存在实体与非实体,实体内部类别间边界样本混淆的问题,极大地影响了命名实体识别方法的性能.提出以BiLSTM-CRF为基线模型,结合困难样本筛选与目标攻击对抗训练的命名实体识别方法.该方法筛选出包含大量边界样本的困难样本,利用边界样本易被扰动偏离正确类别的特性,采用按照混淆矩阵错误概率分布的目标攻击方法,生成对抗样本用于对抗训练,增强模型对混淆边界样本的识别能力.为验证该方法的优越性,设计非目标攻击方式的全局、局部对抗训练方法与目标攻击全局对抗训练方法作为对比实验.实验结果表明,该方法提高了对抗样本质量,保留了对抗训练的优势,在JNLPBA、MalwareTextDB、Drugbank三个数据集上F1值分别提升1.34%、6.03%、3.65%.  相似文献   

6.
针对目前SAR(Synthetic Aperture Radar)图像中样本人工标记成本高、传统算法分类识别较低的情况,提出一种基于改进半监督阶梯网络(Semi-supervised Ladder Network,SSLN)的SAR图像分类识别方法 .首先在原SSLN模型的解码器网络中使用卷积神经网络代替全连接层,对编码器输出的每层数据进行全局深度特征提取,这样做有利于图像降噪,实现对输出数据的重构.其次,为解决SAR图像各类数据集分布不均衡的问题,同时提高网络的泛化性能,对阶梯网络训练层中各类别损失函数的权重进行优化,根据各类别样本数所占总样本数的比重,对少样本类别损失函数调高权重,对多样本类别损失函数调低权重.在公开数据集MSTAR(Moving and Stationary Target Automatic Recognition)上的实验表明,改进后的半监督阶梯网络分类的识别准确度明显优于SSLN算法,且具有更好的泛化性.  相似文献   

7.
针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低冗余词汇干扰.建立了多头注意力字词联合模型,包含字词匹配、多头注意力、融合等模块.与现有中文命名实体识别方法相比,本算法避免了设计复杂的序列模型,方便与现有基于字的中文命名实体识别模型结合.采用召回率、精确率以及F1值作为评价指标,通过消融试验验证模型各个部分的效果.结果表明,本算法在MSRA和Weibo数据集上F1值分别提升0.28、0.69,在Resume数据集上精确率提升0.07.  相似文献   

8.
针对因电动汽车故障数据样本类别不平衡引起的机器模型分类性能欠佳、故障查全率低的问题,本文提出一种以LightGBM为基学习器改进的Bagging集成电动汽车故障预测模型:在Bagging集成学习中使用Borderline_SMOTE方法对训练集重新采样,改善训练子集的数据不平衡程度,避免小类样本信息缺失;将权重系数和正则化项嵌入LightGBM基学习器的损失函数中,提高训练中小类样本的错分类代价。实验结果表明,该模型可有效提高故障查全率、宏平均和AUC值,其中AUC值达到0.898 4,故障样本的查全率为0.808 3,在电动汽车不平衡数据集上的故障分类性能显著优于传统单一模型和其他对比算法。  相似文献   

9.
张阳  张涛  陈锦  王禹  邹琪 《北京理工大学学报》2019,39(12):1258-1262
网络入侵检测已经广泛运用机器学习模型,但是研究者们多关注模型选择和参数优化,很少考虑数据不平衡的影响,往往会导致少数类入侵样本的检测效果较差.针对该问题,以SMOTE (synthetic minority oversampling technique)数据再平衡算法为研究重点,应用入侵检测数据集KDD99作为原始训练集,使用简单抽样和SMOTE算法生成再平衡训练集.采用多种机器学习模型分别在原始训练集和再平衡训练集进行5折交叉验证.实验结果表明,与原始训练集相比,使用再平衡训练集建模能够在不降低甚至提高多数类样本识别效果前提下,使少数类样本的识别准确率和召回率增强10%~20%.因此,SMOTE算法对不平衡样本下的网络入侵检测有显著的提升作用.   相似文献   

10.
为减轻电力工作人员的巡检负担,实现变电站智能巡检,对变电站设备缺陷检测算法进行了研究。首先,利用数据增强方法对有限的初始数据集进行扩充,利用多种图像处理方法增加数据集的复杂度,生成考虑复杂光照环境的数据集;然后,采用自适应空间特征融合(ASFF:Adaptively Spatial Feature Fusion)的方法缓解特征金字塔中不同尺度特征的不一致性问题,并引入Focal损失函数作为置信度损失函数以缓解正负样本不平衡的问题,利用改进的YOLOX-s(You Only Look Once X-s)网络模型设计了变电站缺陷检测算法;最后,将改进的YOLOX-s网络模型与其他深度学习算法的检测效果进行对比,实验结果表明,改进的YOLOX-s网络模型的综合检测效果较好,准确性和实时性均可以满足变电站设备缺陷检测任务。  相似文献   

11.
为了解决YOLOv3算法在手势识别中存在识别精度低及易受光照条件影响的问题,提出了一种改进的YOLOv3手势识别算法。首先,在原来3个检测尺度上新增加1个更小的检测尺度,提高对小目标的检测能力;其次,以DIoU代替原来的均方差损失函数作为坐标误差损失函数,用改进后的Focal损失函数作为边界框置信度损失函数,目标分类损失函数以交叉熵作为损失函数。结果表明,将改进的YOLOv3手势识别算法用于手势检测中,mAP指标达到90.38%,较改进前提升了6.62%,FPS也提升了近2倍。采用改进的YOLOv3方法训练得到的新模型,识别手势精度更高,检测速度更快,整体识别效率大幅提升,平衡了简单样本和困难样本的损失权重,有效提高了模型的训练质量和泛化能力。  相似文献   

12.
针对利用远程监督标注文本实体过程中存在实体类别标注错误问题导致模型难以有效区分各实体的类别特征,影响模型精准度的问题,本文提出一种利用原型网络过滤训练语料中标注错误样本的远程监督命名实体识别方法,利用预训练的原型网络编码正确标注实体生成类别原型表示,过滤语料中距类别原型较远的样本.实验表明,使用原型网络有效地提高了语料的标注质量,提升了模型性能.  相似文献   

13.
针对传统虹膜定位算法很难完成准确定位导致识别效果不稳定的问题, 提出一种基于改进YoloV4网络的虹膜定位算法. 首先利用YoloV4结合MobileNetV3对虹膜内外圆进行粗定位, 再利用瞳孔、 虹膜和巩膜的灰度差值分别对虹膜内外圆进行精定位. 同时, 使用K-means++聚类算法生成先验框; 使用快速soft-DIoU-NMS算法去除预测过程冗余框, 提高算法检测率; 使用Focal Loss作为类别损失函数. 对比实验结果表明, 该算法运行速度更快, 定位准确率更高, 识别算法的效果更明显.  相似文献   

14.
针对危险化学品实体识别及关系识别的问题,本文基于双向长短期记忆网络连接条件随机场(Bidirectional Long Short-Term Memory with Conditional Random Field, BiLSTM-CRF)模型,通过引入双向编码器表示(Bidirectional Encoder Representation from Transformers, BERT)模型结合多头自注意力机制,提出了一种预训练命名实体模型BERT-BiLSTM-self-Attention-CRF,通过对危险化学品的文本进行字符级别编码,得到基于上下文信息的字向量,增强了模型挖掘文本全局和局部特征的能力。实验结果表明,在自行构建的数据集上,本文模型优于其他传统模型,其F1值为94.57%。  相似文献   

15.
由于传统KNN算法在应用于高分辨一维距离像进行目标识别时,存在全局使用固定k值和未考虑各特征分量对分类的影响等不足,使得目标识别性能较差.提出一种改进的KNN算法:FLAKNN.通过提取目标高分辨率一维距离像的尺寸、熵、中心距、不规则度、去尺度特征、对称度等稳定特征,使用Fisher判别分析将所有特征分量投影至低维空间,使不同类别间具备最大可分性;结合相邻样本局部的分布情况和k取值的调整,最终使用少数服从多数的投票原则决定测试样本的类别.结果表明,相对传统KNN算法,该算法进一步提升了识别性能.   相似文献   

16.
针对中文司法领域信息抽取数据集中实体专业性较强、现有机器阅读理解(MRC)模型无法通过构建问句提供充足的标签语义且在噪声样本上表现不佳等问题,本研究提出了一种联合优化策略。首先,通过聚合在司法语料中多次出现的实体构建司法领域词典,将专业性较强的实体知识注入RoBERTa-wwm预训练语言模型进行预训练。然后,通过基于自注意力机制来区分每个字对不同标签词的重要性,从而将实体标签语义融合到句子表示中。最后,在微调阶段采用对抗训练算法对模型进行优化,增强模型的鲁棒性和泛化能力。在2021年中国法律智能评测(CAIL2021)司法信息抽取数据集上的实验结果表明:相较于基线模型,本研究方法F1值提高了2.79%,并且模型在CAIL2021司法信息抽取赛道中获得了全国三等奖的成绩,验证了联合优化策略的有效性。  相似文献   

17.
针对数字化主动电网中电力实体行为复杂化、攻击手段隐蔽化等问题,提出了一种基于模糊聚类的多类别归属异常检测算法。首先,对电力实体行为相似性的度量方式进行优化,并基于优化后的度量方法构建模糊聚类算法,通过多次迭代得到实体行为对应各类别的隶属度矩阵;其次,根据类别软划分隶属度矩阵,分别计算实体在各个类别内的近邻距离、近邻密度与近邻相对异常因子等参数;最后,分析实体在各类簇内的相对异常情况,判断该电力实体行为是否属于异常行为。结果表明,与LOF,K-Means和Random Forest算法相比,新方法具有更高的异常行为检出数量和更优的异常检测评价指标,解决了传统异常检测算法样本评价角度单一的问题,进一步提高了数字化主动电网抵御未知威胁的能力。  相似文献   

18.
赵振兵  丁洁涛 《科学技术与工程》2022,22(23):10169-10178
销子缺失是输电线路中常见的螺栓缺陷,及时检测出缺销螺栓对输电线路的安全运行至关重要。基于全监督检测模型的螺栓缺陷检测需要目标级标注,目标级标注会消耗大量的人力物力,为减少这种消耗,提出一种基于改进PCL(Proposal Cluster Learning)模型的输电线路缺销螺栓弱监督检测方法,仅利用图像级标注实现缺销螺栓检测。引入通道注意力机制,生成加权特征图,突出目标区域特征,有效地挖掘出螺栓的位置信息;采用加权交叉熵损失函数,控制正负样本对损失值的贡献,增大困难样本的损失比重,提高模型对螺栓目标的关注程度和识别能力;融合全监督的多任务学习思想,使模型能随着迭代次数的增加修正预先得到的边界框。实验结果表明,在测试集上,相比于基础模型,改进后的模型缺销螺栓的AP(Average Precision)值提升了25.6%,mAP(mean Average Precision)值提升了25.4%,最终验证了本文方法的鲁棒性。  相似文献   

19.
针对小样本条件下通信信号识别混淆的问题,提出了一种基于半监督生成式对抗网络的调制识别算法.首先结合半监督学习思想利用少量标签数据和大量未标签数据训练网络;其次在输出层添加辅助分类器进行结果判定,针对性设计了目标函数和损失函数,以满足网络生成虚假数据和实现信号分类的目的;最后使用不同的激活函数并用反卷积和Dropout代替池化操作,有效降低了算法复杂度并加快网络收敛速度.仿真实验表明:该算法适应性强、计算量小,较传统算法识别准确率提升了6% ~13%,有效实现了小样本条件下的调制样式识别.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号