首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 60 毫秒
1.
基于条件随机场的越南语命名实体识别方法   总被引:2,自引:0,他引:2  
针对越南语特点,提出一种基于条件随机场模型的越语命名实体识别方法。该方法针对越语词和词性的特点,采用条件随机场算法,选取词和词性作为特征,定义特征模版,选取越南语新闻文本,标记地名、人名、组织机构等6类实体语料,训练获得越南语实体识别模型,实现实体识别。实验结果表明该方法提取实体的准确率达到83.73%。  相似文献   

2.
人名识别是自然语言处理中具有挑战性的任务之一。该文实现了基于条件随机场的维吾尔人名识别。首先从对维吾尔语黏着性特点的分析入手,研究总结了维吾尔人名的构成特点,实现了以词形、词性、词干、后缀、首音节、最后一个音节和最近一个动词等为特征,基于条件随机场的维吾尔语人名识别方法,并设计了选取最佳特征模板的贪婪算法。实验结果表明:该方法达到了较高的性能,识别维吾尔人名的准确率、召回率和F-score分别达到了90.03%、82.96%和86.35%。  相似文献   

3.
方莹 《河南科学》2011,29(3):350-353
英文农产品命名实体识别目前国内外研究得较少,提出了一种基于条件随机场模型(CRF)的英文农产品命名实体识别方法.在条件随机场中,该方法以词作为切分粒度,充分利用上下文和英文农产品名特有的指示信息作为分类特征进行建模.实验表明,该方法获得了较好的结果.  相似文献   

4.
为了实现中文医药领域症状信息的自动化抽取,提出了一种基于条件随机场的拆分症状文本特征的抽取方法,将症状文本自动识别拆分为症状主体和症状表现形式自动识别两个部分,再将这两种识别结果作为特征加入到症状信息抽取过程中。信息抽取的结果包含完整的症状信息二元组:症状主体和症状表现形式。实验表明,该方法在症状信息抽取的准确率及查全率上有较大提升。  相似文献   

5.
条件随机场模型是文本信息抽取的重要方法之一,在命名实体识别方面CRF性能要明显优于隐马尔科夫模型和最大熵模型。本文以基于字一级的条件随机场模型实现了中文命名实体识别,取得了较好的识别效果。  相似文献   

6.
针对手机短信的口语化特点,对手机短信中命名实体识别进行了研究.在对手机短信语料研究与分析的基础上,提出了一种针对手机短信口语化语料进行命名实体识别的方法.实验表明,这种方法对手机短信语料中的命名实体具有较好的识别结果.  相似文献   

7.
提出了一种基于隐条件随机场的人体行为识别方法。首先,通过目标检测和目标跟踪提取图像序列中人体所在时空区域;其次,提取人体区域的 Gist 特征作为人体行为视觉描述子;最后,利用隐条件随机场模型对人体行为进行建模和识别。通过大规模试验证明了该方法的有效性,与其他方法的对比实验验证了该方法的优越性。  相似文献   

8.
基于条件随机场的中医命名实体识别   总被引:1,自引:0,他引:1  
中医医案蕴藏着丰富的知识,如何完成对海量医案的自动标注以便对其进行知识挖掘显得尤为重要.针对明清古医案中症状、病机的自动识别标注问题,采用了基于条件随机场(CRF)的方法,提出数据清洗以及缩减合并词性以减少特征空间规模.最后,通过仿真实验将该方法与最大熵、支持向量机这两种统计方法进行对比.结果表明:该方法在针对明清古医案中症状、病机这类中医命名实体识别具有明显的优势.  相似文献   

9.
基于条件随机场的中文科研论文信息抽取   总被引:1,自引:1,他引:1  
科研论文头部信息和引文信息对基于域的论文检索、统计和引用分析是必不可少的.由于隐马尔可夫模型不能充分利用对抽取有用的上下文特征,因此文中提出了一种基于条件随机场的中文科研论文头部和引文信息抽取方法,该方法的关键在于模型参数估计和特征选择.实验中采用L-BFGS算法学习模型参数,并选择局部、版面、词典和状态转移4类特征作为模型特征集.在信息抽取时先利用分隔符、特定标识符等格式信息对文本进行分块,在分块基础上用条件随机场进行指定域的抽取.实验表明,该方法抽取性能明显优于基于隐马尔可夫模型的方法,且加入不同的特征集对抽取性能提升作用不同.  相似文献   

10.
提出了一种基于条件随机场的中文自动文摘方法.用条件随机场来建立词性标注模型.在文摘句抽取时,引入了关键词抽取技术抽取文摘句.在生成文摘时,采用了基于规则的方法去除文摘中的冗余信息,使最后生成的文摘更具有可读性.实例表明该方法能够适应于许多领域,得到了很好的应用效果.  相似文献   

11.
近几年来,中文分词技术取得了可喜的进步,各种机器学习方法被应用到这一领域,而采用标注的方法进行分词也是应用得比较多的方法。本文尝试了一种不同以往的方法,不对字本身进行标注,而对字与字之间的切分点进行标注,并结合条件随机场模型,实现了一个分词系统并参加了第三届国际中文处理评测的分词比赛,取得了较好的结果。  相似文献   

12.
在连续手势自动识别中,如果可以借助自然语言对手势进行描述,这将更接近于人们对手势认知的方法,这在一定程度上将有助于提高识别的准确性。通过使用模糊集与条件随机场相结合的方法实现了对连续手势的标注、分割。FCRF首先采用模糊集对手势进行描述,实现了自然语言对手势的描述,然后通过对条件随机场中状态和状态转移参数的修改实现了采用模糊特征的连续手势序列标注。实验结果显示,与现有的分割模型相比较,FCRF模型对手势序列标注具有较高的正确率,通过ROC特性曲线的分析,FCRF有较好的分类性能。  相似文献   

13.
采用条件随机场技术将面向智能手机用户的自然口语语义理解分为操作任务分类和语义组块提取两个主要步骤,收集并分析了口语语料库的特征,根据归纳出的任务种类和语义组块特征规律设计了任务分类标记集和语义组块标记集;通过基于规则的组块分析得到了中间语义表示格式,从而实现了对用户口语语义理解的目的.实验结果表明:任务分类准确率及语义组块提取平均正确率分别达到98.85%和94.53%,系统综合性能测试的准确率达到91.86%.  相似文献   

14.
针对复杂场景图像分类的难题,提出一种基于局部特征和隐条件随机场的场景分类方法.该方法将图像划分为一系列超像素区域,提取每个区域的局部特征组成观察图像的输入特征向量,并建立基于隐条件随机场的场景分类模型推断图像的场景类别标记,其中每个局部特征对应一个隐变量.训练采用随机梯度上升法估计模型参数.在标准的图像库上进行实验,结果表明,与同类方法相比,场景分类方法取得了更好的分类结果.  相似文献   

15.
Network texts have become important carriers of cybersecurity information on the Internet. These texts include the latest security events such as vulnerability exploitations, attack discoveries, advanced persistent threats,and so on. Extracting cybersecurity entities from these unstructured texts is a critical and fundamental task in many cybersecurity applications. However, most Named Entity Recognition(NER) models are suitable only for general fields, and there has been little research focusing on cybersecurity entity extraction in the security domain. To this end, in this paper, we propose a novel cybersecurity entity identification model based on Bidirectional Long Short-Term Memory with Conditional Random Fields(Bi-LSTM with CRF) to extract security-related concepts and entities from unstructured text. This model, which we have named XBi LSTM-CRF, consists of a word-embedding layer, a bidirectional LSTM layer, and a CRF layer, and concatenates X input with bidirectional LSTM output. Via extensive experiments on an open-source dataset containing an office security bulletin, security blogs, and the Common Vulnerabilities and Exposures list, we demonstrate that XBi LSTM-CRF achieves better cybersecurity entity extraction than state-of-the-art models.  相似文献   

16.
基于深度学习的中文地名识别研究   总被引:1,自引:1,他引:0  
基于深度学习的循环神经网络方法,面向中文字和词的特点,重新定义了地名标注的输入和输出,提出了汉字级别的循环网络标注模型.以词级别的循环神经网络方法为基准,本文提出的字级别模型在中文地名识别的准确率、召回率和F值均有明显提高,其中F值提高了2.88%.在包含罕见词时提高更为明显,F值提高了26.41%.   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号