首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
人名识别是自然语言处理中具有挑战性的任务之一。该文实现了基于条件随机场的维吾尔人名识别。首先从对维吾尔语黏着性特点的分析入手,研究总结了维吾尔人名的构成特点,实现了以词形、词性、词干、后缀、首音节、最后一个音节和最近一个动词等为特征,基于条件随机场的维吾尔语人名识别方法,并设计了选取最佳特征模板的贪婪算法。实验结果表明:该方法达到了较高的性能,识别维吾尔人名的准确率、召回率和F-score分别达到了90.03%、82.96%和86.35%。  相似文献   

2.
针对化学资源文本中的命名实体,提出一种适合于化学资源文本的命名实体识别方法,旨在将化学物质、属性、参数、量值4种命名实体进行识别.该方法根据化学资源文本的语言规律及特点,建立BLSTM-CRF模型对命名实体进行初步识别,并使用基于词典与规则相结合的方法对识别结果进行校正.实验结果表明,该方法在化学资源文本中能够较好地完成命名实体识别任务,在测试语料上的F1值最高能达到94.26%.  相似文献   

3.
文本挖掘中命名实体识别是一项重要的研究内容,利用统计学原理进行命名实体识别具有较高的识别率.利用条件随机场(conditional random fields,CRF)方法,研究藏文人名识别技术,重点探讨藏文人名的内部结构特征、上下文特征、特征选择和数据预处理等内容,并通过实验分析了不同特征的有效性.首先给出了基于字(音节)和字位信息的人名识别方法;其次研究了触发词、虚词、人名词典和指人名词后缀为特征的不同特征组合与优化,并细化了不同虚词对人名识别的作用;最后,通过不同组合的实验测试,结果表明:1)触发词和作格助词特征在藏文人名识别上能够起到积极的作用;2)不同特征窗口大小对人名识别有一定影响;3)利用CRF识别藏文人名F1值能够达到80%左右,但由于藏文两字人名的高歧义性,目前还达不到与其他语言相近的识别效果.  相似文献   

4.
针对目前中文医疗机构名识别问题,提出一种基于层叠条件随机场模型的中文医疗机构名识别方法;该方法第一层条件随机场(CRF)模型基于词粒度,结合自定义词典,实现人名、地名以及简单机构名识别,将最终的结果传递到第二层CRF模型;第二层CRF模型通过词性、词界以及上下文等特征最终完成对复合嵌套的医疗机构名实体的识别。结果表明:在封闭实验中,该方法识别正确率达到94.6%,召回率达到96.2%;在开放实验中,该方法识别正确率达到92.3%,召回率达到90.2%。本文模型相比于结合规则的单层CRF模型,F值分别提高1.99%、2.8%,总体结果得到显著改善。  相似文献   

5.
为了准确地从中文文本中识别出复杂体育赛事命名实体,提出了一种基于双层条件随机场模型的命名实体识别方法.该方法首先在低层条件随机场模型中识别出简单体育赛事命名实体,然后在高层条件随机场模型中识别出嵌套了简单体育赛事命名实体的复杂命名实体如赛事名、参赛球队名和比赛场馆名.在对大规模真实语料进行的开放测试中,赛事名、参赛球队名和比赛场馆名识别的F值分别达到97.09%,97.81%和98.03%.  相似文献   

6.
分析电子数码领域的产品命名实体识别的难点和特点,提出了一种基于知识库的最大熵模型的产品命名实体识别方法,实现了从中文网络文本中抽取产品命名实体.实验表明,该系统在电子数码领域中能较好地识别出产品命名实体,对产品命名实体的F1值识别性能达到86.91%.  相似文献   

7.
由于中国人名形式复杂多样,且存在简称、别名等不规范形式,针对传统的中国人名识别方法对诸如人名简称或别名这类非完整形式中国人名识别尚不完善的问题,提出了一种基于扩展模式集的中国人名识别方法,通过扩展人名识别模式集,提高对于非完整形式的中国人名的识别效果。实验结果表明,该方法取得了较好的正确率和召回率,尤其对于非完整形式的中文人名识别取得了一定效果,促进了人名识别工作的完整性。  相似文献   

8.
时间作为电子病历中的一类重要实体,对于标识患者从入院到出院期间不同阶段的病情变化,有着不可替代的作用。电子病历文本中的时间可分为独立时间和基于事件的时间,针对这两类时间分别提出了基于bootstrapping的识别算法和基于条件随机场的识别算法。其中,为了解决基于事件的时间短语太长而不能准确定位其边界的问题,引入了中文症状知识库作为词典特征,有效地提高了条件随机场识别结果的准确率、召回率和F1值。实验结果表明,该方法在独立时间和基于事件的时间识别上的F1值分别达到了92.57%和93.98%。  相似文献   

9.
基于安全知识图谱的网络安全威胁情报分析能够细粒度地分析多源威胁情报数据,因此受到广泛关注.传统的命名实体识别方法难以识别网络安全领域中新的或中英文混合的安全实体,且提取的特征不充分,因此难以准确地识别网络安全实体.在深度神经网络模型的基础上,提出一种结合特征模板的CNN-BiLSTM-CRF的网络安全实体识别方法,利用人工特征模板提取局部上下文特征,进一步利用神经网络模型自动提取字符特征和文本全局特征.实验结果表明,在大规模网络安全数据集上,提出的网络安全实体识别方法,相关评价指标优于其他算法,F值达到86%.  相似文献   

10.
针对中文产品命名实体,提出了一种基于多种特征融合的识别方法。该方法以词为标注粒度,将多种特征融合到条件随机场模型中,采用递增式学习策略选取最优的特征模板,实现了从中文自由文本中识别产品命名实体。实验表明,该方法获得了令人满意的实验效果,准确率、召回率和F值分别达到94.87%、92.50%和93.67%。  相似文献   

11.
提出了一种基于统计与规则相结合的藏文人名自动识别方法.该方法充分挖掘了人名与上下文信息的关联程度,引入互信息对关联程度进行了定量的描述.根据大规模语料(30.2 M文本语料)的统计数据所建立的规则极大地提高了识别算法的准确率;在处理汉族音译人名情况时,采用姓氏驱动的方法,很好地解决了藏文文本中汉族人名的识别问题.实验结果表明,该方法具有较高的准确率和召回率.  相似文献   

12.
基于条件随机场的越南语命名实体识别方法   总被引:2,自引:0,他引:2  
针对越南语特点,提出一种基于条件随机场模型的越语命名实体识别方法。该方法针对越语词和词性的特点,采用条件随机场算法,选取词和词性作为特征,定义特征模版,选取越南语新闻文本,标记地名、人名、组织机构等6类实体语料,训练获得越南语实体识别模型,实现实体识别。实验结果表明该方法提取实体的准确率达到83.73%。  相似文献   

13.
针对维吾尔语命名实体识别存在无法关注词序列依赖关系等问题,提出一种基于迁移学习的联合深度模型(TBIBC).首先通过BERT(Bidirectional Encoder Representations from Transformers)预训练中文数据集生成具有语义信息的词向量,再将词向量序列通过空洞卷积神经网络(IDCNN)进行膨胀操作以减少神经元层数和参数,输出向量输入到双向门控循环单元(BiGRU)进行上下文语义信息提取,然后通过CRF层得到最优标签序列.模型采用共享深度神经网络隐藏层的方法将训练好的中文实体识别模型迁移到维吾尔语模型上.结果表明,该模型的准确率为91.39%,召回率为90.11%,F1值达到90.75%,能显著提升维吾尔语命名实体识别性能.  相似文献   

14.
针对语义省略“的”字结构识别任务, 提出一种基于组合神经网络的识别方法。利用词语和词性, 通过双向LSTM (long short-term memory)神经网络, 学习“的”字结构深层次的语义语法表示。通过Max-pooling层和基于GRU(gated recurrent unit)的多注意力层, 捕获“的”字结构的省略特征, 完成语义省略“的”字结构识别任务。实验结果表明, 所提模型在CTB8.0(Chinese Treebank 8.0)语料中, 能够有效地识别语义省略的“的”字结构, F1值达到96.67%。  相似文献   

15.
本文首先分析了藏文人名的特点以及藏文人名识别的难点,在此基础上,利用条件随机场模型,分别提出了采用基于亚音节标注的藏文人名识别方法和分词与词性标注一体化的藏文人名识别方法.  相似文献   

16.
维吾尔语是一种黏着语,单词不太适合作为维吾尔语大词汇连续语音识别系统识别单元。针对维吾尔语大词汇连续语音识别系统中的识别单元选择问题,设计更适合维吾尔语的子词识别单元,提出维吾尔语单词和子词相结合的组合识别单元构建方法,并对单词、子词和组合识别单元的语言模型和语音识别性能进行评价。实验结果表明,所提出的识别单元在单元数量、语言模型复杂度等方面表现出更加优越的性能,并且使识别系统的单词错误率比基于单词的系统相对减少22%。  相似文献   

17.
文章就藏文人名本身的特性分析了人名识别的难点,提出了CRF与规则相结合的藏文人名识别方法.该方法首先以CRF作为机器学习模型,充分利用藏文人名的各类特征,然后针对人名不能全面召回的问题,利用规则方法进行后处理,最终建立了一种优势互补的识别模型.实验结果表明,该文提出的方法具有较好的性能,F-值可达91.55.  相似文献   

18.
预训练语言模型能够表达句子丰富的句法和语法信息,并且能够对词的多义性建模,在自然语言处理中有着广泛的应用,BERT(bidirectional encoder representations from transformers)预训练语言模型是其中之一。在基于BERT微调的命名实体识别方法中,存在的问题是训练参数过多,训练时间过长。针对这个问题提出了基于BERT-IDCNN-CRF(BERT-iterated dilated convolutional neural network-conditional random field)的中文命名实体识别方法,该方法通过BERT预训练语言模型得到字的上下文表示,再将字向量序列输入IDCNN-CRF模型中进行训练,训练过程中保持BERT参数不变,只训练IDCNN-CRF部分,在保持多义性的同时减少了训练参数。实验表明,该模型在MSRA语料上F1值能够达到94.41%,在中文命名实体任务上优于目前最好的Lattice-LSTM模型,提高了1.23%;与基于BERT微调的方法相比,该方法的F1值略低但是训练时间大幅度缩短。将该模型应用于信息安全、电网电磁环境舆情等领域的敏感实体识别,速度更快,响应更及时。  相似文献   

19.
为了获取铭牌图像中的基本参数信息,提出一种基于深度学习的端到端文本识别模型TDRN(Text Detection and Recognition Network)。模型避免了图像裁剪和字符分割,将文本看作一个序列,使用BLSTM(Bidirectional Long Short-term Memory)来获取上下文关系。同时,将文本检测和文本识别整合在同一个网络中共同训练,共享卷积层,以提高整体性能,在文本识别中还引入了注意力机制。模型在公共场景文本数据集SVT(Street View Text)上测试表现良好,F值为68. 69%,高于一般的端到端文本识别模型。与传统铭牌识别方法相比,TDRN准确率更高,鲁棒性更强,能适应复杂的电力场景变化。  相似文献   

20.
材料领域的文献中蕴含着丰富的知识, 利用机器学习和自然语言处理等手段对文献进行数据挖掘是研究热点. 命名实体识别(named entity recognition, NER)是高效利用挖掘和抽取数据中信息的首要步骤. 为了解决现有实体识别方法中存在的向量表示无法解决一词多义、模型常提取上下文特征而忽略全局特征等问题, 提出了一种基于上下文词汇匹配和图卷积命名实体识别方法. 该方法首先利用 XLNet 获取文本的上下文动态特征, 其次利用长短期记忆网络并结合文本上下文匹配词汇的图卷积神经网络(graph convolutional network, GCN)模型分别获取上下文特征与全局特征, 最终经过条件随机场输出标签序列. 2 种不同语料对模型进行验证的结果表明, 该方法在材料数据集上的精确率、召回率和 F1 值分别达到 90.05%、88.67% 和 89.36%, 可有效提升命名实体识别的准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号