首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
针对中文产品命名实体,提出了一种基于多种特征融合的识别方法。该方法以词为标注粒度,将多种特征融合到条件随机场模型中,采用递增式学习策略选取最优的特征模板,实现了从中文自由文本中识别产品命名实体。实验表明,该方法获得了令人满意的实验效果,准确率、召回率和F值分别达到94.87%、92.50%和93.67%。  相似文献   

2.
在生物医学文献挖掘领域中,已有的BioBert采用预训练的方式在生物医学命名实体识别(BioNER)任务中表现出优秀的实体识别性能,却存在模型规模过大、速度过慢的缺点。针对BioBert网络模型如何高效压缩问题,该文提出了一种高效生物医学名称实体识别模型,命名为FastBioNER模型。该模型采用动态知识蒸馏方式对BioBert模型进行压缩,首先,通过动态权重函数模拟真实的学习行为,即在模型训练过程中动态调整各部分损失函数的重要程度;其次,采用动态知识蒸馏方式将训练后的BioBert作为教师模型,压缩到一个规模较小的学生模型中;最后,对提出的FastBioNER模型在已公开数据集NCBI疾病、 BC5CDR-chem和BC4CHEMD上进行了实验验证。实验结果表明:提出的FastBioNER模型在3个数据集中获得除BioBert外最高F1值分别为88.63%、 92.82%和92.60%,并分别以损失1.10%、 0.86%、 0.15%的F1值为代价,将BioBert的模型大小压缩了39.26%,同时推理时间缩短了46.17%。  相似文献   

3.
为了准确地从中文文本中识别出复杂体育赛事命名实体,提出了一种基于双层条件随机场模型的命名实体识别方法.该方法首先在低层条件随机场模型中识别出简单体育赛事命名实体,然后在高层条件随机场模型中识别出嵌套了简单体育赛事命名实体的复杂命名实体如赛事名、参赛球队名和比赛场馆名.在对大规模真实语料进行的开放测试中,赛事名、参赛球队名和比赛场馆名识别的F值分别达到97.09%,97.81%和98.03%.  相似文献   

4.
针对现有的中文电子简历命名实体识别任务中,模型在训练过程中出现字向量表示单一和无法较好地处理字的多义性问题,提出了一种基于BERT的中文电子简历命名实体识别模型。该模型将电子简历的文本数据通过BERT进行字符级编码,根据上下文语境丰富字的语义信息,有效解决了一词多义的问题;将得到的字向量输入到双向门控循环单元进行特征提取,获取文本的上下文特征;利用条件随机场进行解码并生成标签序列,得到命名实体。实验结果表明,该模型能够有效提高中文电子简历命名实体识别的准确率。  相似文献   

5.
针对中文命名实体识别中融合词典信息准确率提升不足的问题,使用在模型内部融合词典信息的策略,并结合预训练语言模型NEZHA增强文本的嵌入表示,提出一种基于LNBC(LE-NEZHA-BiLSTM-CRF)模型的中文命名实体识别方法.首先通过词典树匹配所有潜在的词,然后采用面向中文理解的神经语境表征模型(NEZHA)进行融合嵌入表示,将训练得到的字词融合向量输入双向长短期记忆(BiLSTM)网络进行特征提取,获取长距离的语义信息,最后通过条件随机场(CRF)层降低错误标签输出的概率.实验结果表明,该方法在MSRA数据集和Resume数据集中的F1值分别为95.71%和96.11%,较其他对比模型均有提高.  相似文献   

6.
葛金虎 《科技信息》2010,(16):89-90,93
对于基于条件随机场的中文命名实体识别,特征模板对识别的效果具有非常重要的影响。而在训练和测试过程中,应用不同的字典进行特征提取,能使识别效果有较大的提高。  相似文献   

7.
多特征中文命名实体识别   总被引:1,自引:0,他引:1  
命名实体识别任务是对文本中的实体进行定位,并将其分类至预定义的类别中.目前主流的中文命名实体识别的模型是基于字符的命名实体识别模型.该模型在使用句法特征之前,需先进行分词,不能很好的引入句子的句法信息.另外,基于字符的模型没有利用词典中的先验词典信息,以及中文偏旁部首蕴含的象形信息.针对上述问题,论文提出了融合句法和多粒度语义信息的多特征中文命名实体识别模型.实验证明论文模型相对目前主流模型有了较大的提高,同时论文还通过实验分析了各种特征对模型识别效果的影响.  相似文献   

8.
中文命名实体识别方法中采用较多的是神经网络模型,但该模型在训练过程中存在字向量表征过于单一的问题,无法很好地处理字的多义性特征.因此,提出一种基于Bert-BLSTM-CRF模型的中文命名实体识别研究方法,使用Bert预训练语言模型,根据字的上下文信息来丰富字的语义向量,将输出的字向量序列作为输入送入BLSTM-CRF模型进行训练.实验结果表明,此方法在中文命名实体识别任务上其准确率、召回率和F1值分别取得了94.80%、95.44%和95.12%的成绩,相较于其他传统方法,效果显著.  相似文献   

9.
条件随机场模型是文本信息抽取的重要方法之一,在命名实体识别方面CRF性能要明显优于隐马尔科夫模型和最大熵模型。本文以基于字一级的条件随机场模型实现了中文命名实体识别,取得了较好的识别效果。  相似文献   

10.
BERT(Bidirectional Encoder Representations from Transformers)和神经网络模型相结合的方法目前已被广泛应用于中文医疗命名实体识别领域。但BERT在中文中是以字为粒度切分的,没有考虑到中文分词。而神经网络模型往往局部不稳定,即使微小的扰动也可能误导它们,导致模型的鲁棒性差。为了解决这两个问题,提出了一种基于RoBERTa(A Robustly OptimizedBERTPre-trainingApproach)和对抗训练的中文医疗命名实体识别模型(ATRBC)。首先,使用RoBERTa-wwm-ext-large(ARobustlyOptimizedBERTPre-training Approach-whole word masking-extended data-large)预训练模型得到输入文本的初始向量表示;其次,在初始向量表示上添加一些扰动来生成对抗样本;最后,将初始向量表示和对抗样本一同依次输入双向长短期记忆网络和条件随机场中,得到最终的预测结果。在CCKS 2019数据集上的实验结果表明,AT-RBC模型的F1值达到了...  相似文献   

11.
以提高洪水资源利用率为目标,研究利用实时水雨工情及短期雨洪预报等综合信息的汛期库水位实时动态控制方法,即改进的预蓄预泄法.应用实例表明,在不降低水库上下游防洪标准的前提条件下,可使桓仁水库及梯级库群的发电效益明显增加.该综合信息的汛期库水位实时动态控制方法,对北方水资源短缺地区调节性能较高的大型水库(水电站)汛期实时调度,有较好的借鉴意义.  相似文献   

12.
词义消歧是自然语言处理领域的重点和难点问题.提出了一种基于知网中义原关系的多策略词义消歧方法.该方法利用知网中义原同最基本和最重要的部件-整体和属性-宿主关系进行词义消歧,并辅以基于值一属性关系、中文信息结构和语义相关度的消歧方法.在SENSEVAL-3汉语词义消歧任务测试文本上的实验表明,该方法与官方结果相比,具有较好的计算性能.  相似文献   

13.
针对当前新闻网页主题内容抽取方法较少利用网页块之间关联特性这一问题,提出了一种基于条件随机场(CRFs)的新闻网页主题内容自动抽取方法.该方法首先将待抽取网页解析成DOM树,经过滤、剪枝以及压缩处理后,然后按照一定的启发式规则将DOM树切割成块并转换成为一个数据序列,再定义CRFs特征函数来提取各网页块自身状态特征和相...  相似文献   

14.
随着计算机软件技术的快速发展,由软件代码缺陷引起的安全问题也日趋严重。通过对静态分析技术以及静态检测工具的深入研究,针对当前静态检测工具误报率、漏报率较高的问题,提出一个多策略的软件代码缺陷检测方法。该方法平台一方面综合运用多种静态检测工具进行检测,对比单个检测工具降低误报率,扩大检测覆盖率;另一方面,对确定性不高的静态检测结果进一步进行动态检测,不但降低静态检测的误报率,而且还能发现静态检测技术检测不到的缺陷,降低漏报率。实验结果证明,多策略检测方法是一个有效的软件漏洞检测方法。  相似文献   

15.
指关节纹比手掌特征更明显,针对这种生物特征提出一种基于Gabor-带限相位相关(Gabor-BLPOC)的指关节纹识别算法.首先,使用Gabor滤波器抑制噪声,并采用限制对比度自适应直方图均衡化对指关节纹图像进行增强;其次,使用BLPOC算法提取指关节纹图像的相位特征;然后,通过计算2幅指关节纹图像的互功率谱对指关节纹图像进行校准;最后,再次计算校准后图像的BLPOC,根据2幅图像的互功率谱峰值进行指关节纹图像的匹配.通过在Poly U FKP数据库上的实验表明,所提出算法的等错误率为1.57%,具有更加精确的匹配效果,从而验证了该算法的有效性.  相似文献   

16.
为了克服传统VQ与GMM说话人识别的缺点,提出了一种新的FVQMM说话人识别方法。该方法综合了VQ、GMM和模糊集理论的优点。通过用模糊VQ误差尺度取代传统GMM的输出概率函数,减少了建模时对训练数据量的要求,提高了识别速度。实验结果表明该方法是有效的。  相似文献   

17.
目前,高准确率的语音识别需要在大规模语料库上进行学习才能获得,然而大规模语料库的构建成本较高,某些语言很难采集到充足的语料,因此,基于小规模语料库的语音识别已成为目前挑战性的研究问题.元学习是模仿人类利用已有经验快速学习新知识的机器学习方法,在机器视觉单样本学习任务中表现出明显的优势,已成为新的机器学习研究热点.将元学习应用于单样本语音识别是解决基于小规模语料库语音识别这一挑战性问题的有效途径,在TIMIT和佤语数据库上,开展了基于Reptile元学习算法的单样本孤立词语音识别研究.实验结果表明,该算法能有效地提升模型收敛速度与泛化精度,从而提升了模型的学习能力,说明元学习方法有助于解决小规模语料语音识别这一挑战性问题.  相似文献   

18.
基于EMD的声纹特征参数提取   总被引:1,自引:0,他引:1  
提出了一种新的结合支持向量机(SVM)、经验模态分解(EMD)和短时处理技术的声纹识别方法,将EMD分解和短时处理技术相结合提取特征参数,采用SVM实现声纹识别.实验结果表明,所提出的方法比传统的短时分析+GMM方法在识别率上由92.5%提高到了95.1%.  相似文献   

19.
Web信息提取中多策略学习算法的研究   总被引:1,自引:1,他引:1  
将一种新的机器学习方法-多策略学习算法应用于Web信息提取领域,在原有的机械学习,统计学习和相关学习等三种机器学习法基础之上充分考虑各学习方法的利弊,将三者有机结合,使得结合后的新算法在提取Web信息时比结合前任一单一机器学习方法都更有效、更准确。  相似文献   

20.
当前,情感识别已经成为情感计算中一个重要研究问题。传统的情感识别方法有人工神经网络(ANN)的 情感识别、模糊集的情感识别、支持向量机的情感识别和隐马尔可夫模型(HMM)的情感识别等。将选择性集成的 方法应用到情感识别中,该方法通过训练数据集的随机数抽取、训练,得到一批候选分类器,并通过差异性计算,挑选出大于平均差异性水平的分类器用来做最终情感识别。实验表明,该方法比传统的识别方法以及bagging集成 方法的效果都好,能有效地提高情感识别的精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号