首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
本文首先分析了藏文人名的特点以及藏文人名识别的难点,在此基础上,利用条件随机场模型,分别提出了采用基于亚音节标注的藏文人名识别方法和分词与词性标注一体化的藏文人名识别方法.  相似文献   

2.
近几年来,中文分词技术取得了可喜的进步,各种机器学习方法被应用到这一领域,而采用标注的方法进行分词也是应用得比较多的方法。本文尝试了一种不同以往的方法,不对字本身进行标注,而对字与字之间的切分点进行标注,并结合条件随机场模型,实现了一个分词系统并参加了第三届国际中文处理评测的分词比赛,取得了较好的结果。  相似文献   

3.
条件随机场模型是文本信息抽取的重要方法之一,在命名实体识别方面CRF性能要明显优于隐马尔科夫模型和最大熵模型。本文以基于字一级的条件随机场模型实现了中文命名实体识别,取得了较好的识别效果。  相似文献   

4.
文本挖掘中命名实体识别是一项重要的研究内容,利用统计学原理进行命名实体识别具有较高的识别率.利用条件随机场(conditional random fields,CRF)方法,研究藏文人名识别技术,重点探讨藏文人名的内部结构特征、上下文特征、特征选择和数据预处理等内容,并通过实验分析了不同特征的有效性.首先给出了基于字(音节)和字位信息的人名识别方法;其次研究了触发词、虚词、人名词典和指人名词后缀为特征的不同特征组合与优化,并细化了不同虚词对人名识别的作用;最后,通过不同组合的实验测试,结果表明:1)触发词和作格助词特征在藏文人名识别上能够起到积极的作用;2)不同特征窗口大小对人名识别有一定影响;3)利用CRF识别藏文人名F1值能够达到80%左右,但由于藏文两字人名的高歧义性,目前还达不到与其他语言相近的识别效果.  相似文献   

5.
随着气候变化成为全球议题,对能源政策文件进行量化分析与研究,具有非常重要的意义。现有的中文分词技术应用在能源政策这一特定领域时,由于无法正确识别领域新词,往往很难取得令人满意的效果。针对新词发现这一问题,该文提出一种基于条件随机场(Conditional random field,CRF)和词向量的能源政策新词发现方法。利用无监督方法,在无需人工标注的情况下,提升CRF模型在特定领域的适应性。提出了种子词典的概念,通过关键词提取并辅以少量人工筛选和补充的方式,构建能源政策领域的种子词典。将种子词典和CRF模型标注结果相结合,并利用词向量筛选,完成领域新词的发现。在真实能源政策文本数据上的试验结果表明,该方法能够在较低人工成本的前提下,有效地实现能源政策领域的新词发现,进而提高中文分词在能源政策文本的表现。  相似文献   

6.
针对手机短信的口语化特点,对手机短信中命名实体识别进行了研究.在对手机短信语料研究与分析的基础上,提出了一种针对手机短信口语化语料进行命名实体识别的方法.实验表明,这种方法对手机短信语料中的命名实体具有较好的识别结果.  相似文献   

7.
<正>确划分句子的韵律结构对于提高合成语音的质量具有重要的意义。特征的选择是韵律结构预测的关键因素之一。在中文信息处理中,文本特征可以分为浅层文本特征与深层文本特征。浅层特征包括词、词性、词长等;深层特征包括句法信息、语义信息等。该文在挖掘剖析句法结构、依存句法结构同韵律结构之间关系的基础上,从文本中获取相关浅层和深层文本特征,并采用条件随机场模型实现韵律短语预测。首先以浅层文本特征进行韵律短语识别,然后在此基础上加入句法依存深层文本特征进行模型构建。实验结果表明:加入句法依存特征后,韵律短语预测精确率提高了13.3%,召回率提高了14.69%,F值提高了14.1%。  相似文献   

8.
基于条件随机场的中医命名实体识别   总被引:1,自引:0,他引:1  
中医医案蕴藏着丰富的知识,如何完成对海量医案的自动标注以便对其进行知识挖掘显得尤为重要.针对明清古医案中症状、病机的自动识别标注问题,采用了基于条件随机场(CRF)的方法,提出数据清洗以及缩减合并词性以减少特征空间规模.最后,通过仿真实验将该方法与最大熵、支持向量机这两种统计方法进行对比.结果表明:该方法在针对明清古医案中症状、病机这类中医命名实体识别具有明显的优势.  相似文献   

9.
方莹 《河南科学》2011,29(3):350-353
英文农产品命名实体识别目前国内外研究得较少,提出了一种基于条件随机场模型(CRF)的英文农产品命名实体识别方法.在条件随机场中,该方法以词作为切分粒度,充分利用上下文和英文农产品名特有的指示信息作为分类特征进行建模.实验表明,该方法获得了较好的结果.  相似文献   

10.
葛金虎 《科技信息》2010,(16):89-90,93
对于基于条件随机场的中文命名实体识别,特征模板对识别的效果具有非常重要的影响。而在训练和测试过程中,应用不同的字典进行特征提取,能使识别效果有较大的提高。  相似文献   

11.
根据蒙古文地名的特点,引入词性特征、字典特征、实体指示词特征以及外文地名用词特征,基于条件随机场模型对蒙古文地名自动识别问题进行研究.结果表明,该模型对蒙古文地名识别的准确率为95.45%,召回率为79.41%,F值为86.70%.  相似文献   

12.
商品评论是消费者针对某一个商品的主观议论。针对微博中商品的评论文本短小、结构多样等特征,在仅使用现有的微博级情感标注的条件下,提出了一种基于层叠条件随机场模型。以中文小句中枢说为理论基础,将商品评论的句子划分为若干小句,使用微博内小句序列的各种特征训练粗粒度的随机条件场情感分类模型,同时使用小句内汉字序列的各种特征来训练细粒度的随机条件场情感分类模型。实验结果表明,本文提出的方法优于传统的情感分类方法。  相似文献   

13.
针对目前中文医疗机构名识别问题,提出一种基于层叠条件随机场模型的中文医疗机构名识别方法;该方法第一层条件随机场(CRF)模型基于词粒度,结合自定义词典,实现人名、地名以及简单机构名识别,将最终的结果传递到第二层CRF模型;第二层CRF模型通过词性、词界以及上下文等特征最终完成对复合嵌套的医疗机构名实体的识别。结果表明:在封闭实验中,该方法识别正确率达到94.6%,召回率达到96.2%;在开放实验中,该方法识别正确率达到92.3%,召回率达到90.2%。本文模型相比于结合规则的单层CRF模型,F值分别提高1.99%、2.8%,总体结果得到显著改善。  相似文献   

14.
随着微博、论坛等社交平台的兴起,如何针对观点句进行评价对象识别已经成为了自然语言处理领域研究的热点之一.传统的评价对象识别技术在一定程度上取得了不错的效果,但其在模型优化、新词覆盖度和准确率方面仍有很大不足.因此,提出一种全新的循环层叠条件随机场模型,融合基于词性与句法语义的候选评价对象抽取方法提高新词覆盖度,并采用支持向量机对评价对象进行筛选过滤以提高准确率.实验结果表明,基于循环层叠条件随机场的评价对象识别方法可以取得较好的效果.  相似文献   

15.
以新疆玛纳斯河流域2014年3月19日RADASAT-2影像为研究数据,采用马尔可夫随机场(Markov Random Field,MRF)模型分割方法进行积雪识别.MRF模型分割方法能够充分利用图像上下文信息,降低相干斑噪声对合成孔径雷达(Synthetic Aperture Radar,SAR)数据的影响.通过初始k-means分割估算出MRF参数,建立先验模型和概率密度函数,利用迭代条件模式(Iterated Conditional Model,ICM)算法进行最大后验概率求解得到最优标记,从而识别出积雪.通过实测数据进行验证,该方法积雪识别精度达86.67%.结果表明:MRF模型分割方法的能够有效识别积雪;在地势较为平坦的地区,交叉极化(HV)方式下的后向散射系数与极化总功率Span的识别效果较好;在地形起伏较大的地区,HV后向散射系数的识别效果随着高程和坡度的增加而降低,极化总功率Span能够综合三种极化特征,较好地克服地形影响,提高积雪的识别精度.  相似文献   

16.
自然语言处理作为人工智能领域的一个重要分支,随着计算机信息处理技术的发展,已经取得较大进展.但是古汉语信息处理研究却相对滞后.本研究选择编年体体裁的《明史》作为研究语料,通过交叉检验方法比较了基于条件随机场的三种图模型(无边图模型、完全图模型以及嵌套图模型)在古汉语词性标注中的应用,发现完全图模型和嵌套图模型在《明史》的词性标注中的效果优于无边图模型,分词(Word Segmentation)在一定程度上可以提高古汉语词性标注的效率.另外,还发现基于条件随机场的图模型在分词前后对测试集中未登录词的词性标注效果均比较低.  相似文献   

17.
大量的微博广告影响了微博数据分析模型的使用.针对微博广告文本识别问题,利用基于图的半监督的标签传播算法,指导计算机从大量的非结构化的微博文本中自动识别出微博广告.通过对实验数据的评测,结果显示,当已有标签样本较少时,基于图的半监督的标签传播算法能够获得比有监督的支持向量机和朴素贝叶斯算法更好的性能.  相似文献   

18.
人名识别是自然语言处理中具有挑战性的任务之一。该文实现了基于条件随机场的维吾尔人名识别。首先从对维吾尔语黏着性特点的分析入手,研究总结了维吾尔人名的构成特点,实现了以词形、词性、词干、后缀、首音节、最后一个音节和最近一个动词等为特征,基于条件随机场的维吾尔语人名识别方法,并设计了选取最佳特征模板的贪婪算法。实验结果表明:该方法达到了较高的性能,识别维吾尔人名的准确率、召回率和F-score分别达到了90.03%、82.96%和86.35%。  相似文献   

19.
在连续手势自动识别中,如果可以借助自然语言对手势进行描述,这将更接近于人们对手势认知的方法,这在一定程度上将有助于提高识别的准确性。通过使用模糊集与条件随机场相结合的方法实现了对连续手势的标注、分割。FCRF首先采用模糊集对手势进行描述,实现了自然语言对手势的描述,然后通过对条件随机场中状态和状态转移参数的修改实现了采用模糊特征的连续手势序列标注。实验结果显示,与现有的分割模型相比较,FCRF模型对手势序列标注具有较高的正确率,通过ROC特性曲线的分析,FCRF有较好的分类性能。  相似文献   

20.
为了辨别在线评论的情感倾向,了解大众舆情对某一事件或产品的看法,采用层叠CRFs模型,把在线评论语句进行主客观分类、极性分类以及评论语句的褒贬强度分类,充分利用极性分类和褒贬强度分类之间的层次关系来改善情感分类的冗余关系,以期借助改进的条件随机场模型实现文本情感倾向及强度的分析,实现篇章级文本集的情感分析.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号