排序方式: 共有56条查询结果,搜索用时 15 毫秒
51.
针对利用远程监督标注文本实体过程中存在实体类别标注错误问题导致模型难以有效区分各实体的类别特征,影响模型精准度的问题,本文提出一种利用原型网络过滤训练语料中标注错误样本的远程监督命名实体识别方法,利用预训练的原型网络编码正确标注实体生成类别原型表示,过滤语料中距类别原型较远的样本.实验表明,使用原型网络有效地提高了语料的标注质量,提升了模型性能. 相似文献
52.
Boosting是机器学习领域中重要的集成学习方法,以AdaBoost为代表的Boosting算法通过在组合弱学习器时不断加强对错分类样本的关注以构建性能优异的强学习器,而该训练机制对噪声点的无差别对待易引发学习器对噪声过拟合,从而削弱算法的稳健性.针对该问题,提出结合加权KNN和自适应牛顿法的稳健Boosting方法.该方法首先通过加权KNN估计样本的噪声先验概率,然后使用噪声先验概率修正Logit损失构建一种新的损失函数,最后采用自适应牛顿法进行损失函数的优化求解.提出方法引导分类器在给予错分类样本更高权重的同时,对噪声先验概率大的样本给予相应的惩罚,使噪声样本的权重得到有效的缩减.结果表明,与其他稳健Boosting方法对比,在不同噪声水平下以及真实的医疗数据集的不同评价指标下,该方法表现出更好的稳健性,具有明显的应用价值. 相似文献
53.
针对信息与通信技术(information and communication,ICT)项目及产品数据种类多、形式复杂,难以提取其语义匹配信息,且现有句子级文本匹配模型对不同长度文本无差别编码会引入噪声导致匹配效果差的问题,本文提出一种融合局部和全局特征的实体-文档级联合匹配模型,利用TextCNN编码器提取实体级招投标项目和产品名称的局部信息,消除产品描述中与招投标项目无关信息的影响,再利用卷积-自注意力编码器提取文档级产品描述的局部和全局信息,最后结合实体级和文档级匹配信息进行决策.实验结果表明,招投标项目与供应商产品匹配映射准确率92%以上,方法可直接实际应用. 相似文献
54.
针对面向实际应用场景中数据标签易残缺导致有监督多标签分类方法可用训练数据量减少,未能利用大量标签缺失数据中蕴含的样本特征空间关联知识以最大化判别间隔,限制多标签分类效果等问题,本文提出一种融合样本相似性的弱监督多标签分类方法.该方法利用标签相关性和样本相似性恢复标签以提高数据利用率,并将标签恢复嵌入到训练过程中以便挖掘标签相关性,通过近端加速梯度法进行参数优化,建立弱监督学习场景的多标签分类模型.在真实数据集上的实验结果表明,该方法能够利用样本相似性有效提升模型在标签残缺时的分类能力,实用价值大. 相似文献
55.
机器学习领域中的特征选择算法可简化模型输入,提高可解释性并帮助避免维度灾难及过拟合现象的发生.针对基于封装法进行特征选择时,评价模型通常将搜索出的特征子集直接作为输入,导致算法对特征利用和评估效果受限于评价模型的特征学习能力,限制了对更适特征子集的发现能力等问题,提出一种基于级联森林结构的子集特征预学习封装法.该方法在搜索算法与评价模型之间添加多层级联森林,重构待评价特征子集为高级特征集,降低评价模型模式识别难度,提高对子集性能的评价效果.实验对比了多种搜索算法及评价模型组合,本方法可在保证分类性能的前提下,进一步降低所选特征数量,同时维持了封装法的低耦合性. 相似文献
56.
针对基于编码-解码的生成式摘要模型不能充分提取语法知识导致摘要出现不符合语法规则的问题,循环神经网络易遗忘历史信息且训练时无法并行计算导致处理长文本时生成的摘要主旨不显著以及编码速度慢的问题,提出了一种融合序列语法知识的卷积-自注意力生成式摘要方法.该方法对文本构建短语结构树,将语法知识序列化并嵌入到编码器中,使编码时能充分利用语法信息;使用卷积-自注意力模型替换循环神经网络进行编码,更好学习文本的全局和局部信息.在CNN/Daily Mail语料上进行实验,结果表明提出的方法优于当前先进方法,生成的摘要更符合语法规则、主旨更显著且模型的编码速度更快. 相似文献