首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
汉语自动分词中中文地名识别   总被引:6,自引:0,他引:6  
以词语级的中文地名为识别对象,根据地名内部用字的统计信息和地名构成特点产生潜在地名.在汉语自动分词中将可信度较高的潜在地名等同于句子的候选切分词,利用候选切分词本身的可信度和上下文接续关系评价句子的各种切分方案.在确定句子最佳切分时识别句子中的中文地名.对真实语料进行封闭和开放测试,封闭测试结果为召回率93.55%,精确率94.14%,F-1值93.85%;开放测试结果为召回率91.27%,精确率73.48%,F-1值81.42%.取得了比较令人满意的结果.  相似文献   

2.
基于互信息的中文姓名识别方法   总被引:4,自引:0,他引:4  
提出并实现了一个基于互信息的中文姓名识别方法,该方法充分挖掘姓名和其上下文信息的关联程度以及姓名用字之间关联程度的信息,引入互信息对其进行定量的描述;提出中文姓名的上下文互信息、内部互信息等概念,并对其建立了动态评价函数,开放测试结果表明,该方法有效地提高了中文姓名识别的效果,保证了较高的精确率和召回率。  相似文献   

3.
现代汉语趋向动词是一个特殊的类,其特殊性在于它可以放在谓语动词后做补语,文章对趋向动词进行了考察,把它们分为两大类,三小类。认为,补语位置为趋向动词的语法化提供了一个优选位置,在这一位置上不同类型的趋向动词表现出不同的语法化进程。这一进程与谓语动词后体词性成分做为趋向动词论元载体有关。A类单音节趋向动词保存了较多的动词功能;双音节趋向动词的语法化进程因论元载体身份角色不同而有变化,表现出一定的条件性;B类双音节趋向动词在语法化进程中走得最快,与此相联系,我们根据动词与体词性成分语义联系的特点建立了体词性成分前移测试框架,使上述结论可以在形式方面得到更多的支持,更具可操作性,从而建立了趋向动词语的语法化系列。  相似文献   

4.
趋向动词作补语既可表示实义,也可表示抽象义或引申义。引起趋向动词语义引申的原因有主客观两方面的因素。客观因素是趋向动词有谓语变为补语,语义重点发生了转变,为语义引申创造了必要的条件;主观因素是说话人的心理感受对作补语的趋向动词的选择加深了其语义引申的程度。语义引申后的趋向动词表示动作行为的结果或者时态。  相似文献   

5.
基于统计的中文关键短语自动抽取   总被引:1,自引:0,他引:1  
用统计的方法从单文本中自动抽取关键短语。在实验中验证了频度、首位置作为特征的有效性。用各种方法过滤非法词串,综合短语位置和统计特征对候选短语进行权重计算,并依据关键短语分布规律选择关键短语。另外,通过分析关键短语分布特点为Ⅳ元短语在过滤、按比例选择方面提供了依据。获得了比较好的实验结果:TOP5精确率21.80%,召回率28.27%,F-measure25%;TOP10精确率17.10%,召回率44.50%,F-measure30.80%。  相似文献   

6.
基于支持向量机的中文文本中地名识别   总被引:2,自引:0,他引:2  
提出并实现了一种基于支持向量机(SVM)的中文文本中地名的自动识别方法.结合地名的特点,抽取单字本身、基于字的词性、是否在地名特征词表中及其上下文的信息作为向量的特性,并将其转化为二进制表示,在此基础上建立了训练集,并通过对多项式Kernel函数的测试,得到了用支持向量机进行地名识别的机器学习模型.实验表明,所建立的SVM地名识别模型是有效的,系统开式召回率和精确率分别达86.69% 和93.82%,F-值为90.12%.  相似文献   

7.
现代汉语趋向动词是一个特殊的类 ,其特殊性在于它可以放在谓语动词后做补语 ,文章对趋向动词进行了考察 ,把它们分为两大类 ,三小类。认为 ,补语位置为趋向动词的语法化提供了一个优选位置 ,在这一位置上不同类型的趋向动词表现出不同的语法化进程。这一进程与谓语动词后体词性成分做为趋向动词论元载体有关。A类单音节趋向动词保存了较多的动词功能 ;双音节趋向动词的语法化进程因论元载体身份角色不同而有变化 ,表现出一定的条件性 ;B类双音节趋向动词在语法化进程中走得最快 ,与此相联系 ,我们根据动词与体词性成分语义联系的特点建立了体词性成分前移测试框架 ,使上述结论可以在形式方面得到更多的支持 ,更具可操作性 ,从而建立了趋向动词语的语法化系列。  相似文献   

8.
新词的有效识别是文本预处理过程中一项非常重要的任务,关系到分词效果的好坏。针对传统新词发现方法未考虑单字新词的识别,且忽略了上下文句法结构与语义信息对新词识别结果的影响,提出一种统计量计算结合相似性判断的网络新词发现算法。首先,基于字的粒度,依次计算单字词频、最大增强互信息和加权左右邻接熵,从左向右逐字扩展多字词,获得具有高成词概率的候选新词集合;再利用基于句法与语义的改进相似性计算模型,得到语句相似度,过滤无效新词。对比实验结果表明,该算法能够有效识别新词,相较于传统新词发现方法具有更高的准确率、召回率和F值。  相似文献   

9.
提出了一种在构造内部规则和外部规则的同时采用概率统计的中文地名实体的识别方法,并利用这种基于规则和统计相结合的方法对测试语料库进行识别测试,实验证明该方法获得了较高的准确率和召回率,具有可行性和合理性,同时也指出了它的局限性.  相似文献   

10.
针对命名实体识别方法存在字与字之间语义信息丢失、模型召回率不佳等问题,提出了一种跨度语义信息增强的命名实体识别方法。首先,使用ALBERT预训练语言模型提取文本中包含上下文信息的字符向量,并使用GloVe模型生成字符向量;其次,将两种向量进行拼接作为模型输入向量,对输入向量进行枚举拼接形成跨度信息矩阵;然后,使用多维循环神经网络和注意力网络对跨度信息矩阵进行运算,增强跨度之间的语义联系;最后,将跨度信息增强后的矩阵进行跨度分类以识别命名实体。实验表明:与传统的跨度方法相比该方法能够有效增强跨度之间的语义依赖特征,从而提升命名实体识别的召回率;该方法在ACE2005英文数据集上比传统的方法召回率提高了0.42%,并且取得了最高的F1值。  相似文献   

11.
采用语料库研究方法,对比分析中国英语学习者与本族语者对出现频率较高的心理动词的使用差异情况,研究中国学习者对心理动词的习得状况,笔语、口语中心理动词的使用规律与特点。结果发现:中国学习者运用心理动词频率普遍高于本族语者,尤其在笔语中,这在一定程度上反映出学习者笔语的口语化倾向;笔语表达中学习者主要依赖有限的几个心理动词;口语表达中学习者在句型、时态、词汇等方面表达的丰富度上尚有提高空间;心理动词与代词"I"搭配使用时,学习者的运用情况与本族语者相比,还有一定差距。  相似文献   

12.
孝感话的“把”字句   总被引:4,自引:0,他引:4  
孝感市位于湖北省东产经部,属楚语区。孝感话与普通话较接近,但他存在一些差异,如“把”,在孝感话里用法广泛,可用为动词,介词,作介词用于工具语,处置式,被动向,与普通话与有很大的不同,在普通话中有不同的对应形式。这些用法同出一源,孝感话“把”的特点,显示了“把”在地域上的共域上的共时差异,反映了语言历史演变的轨迹,研究孝感话“把”的用法,有助于汉语史和现代汉语的研究。  相似文献   

13.
CRF与规则相结合的中文地名识别   总被引:2,自引:0,他引:2  
采用递增式学习策略优化条件随机域(conditional random fields,CRF)的特征模板以提高中文地名的识别效果,结合语言学相关知识构建规则库,以弥补机器学习模型获取知识不够全面导致召回率偏低的不足,最终实现了CRF与规则相结合的中文地名识别系统.实验结果表明,采用CRF与规则相结合的方法识别中文文本中的地名是有效的,对Bakeoff2007NER任务的MSRA语料进行开放测试,召回率、精确率和F值分别为94.67%、92.35%和93.50%.  相似文献   

14.
随着网络应用的扩展,个人或组织会收到或存储越来越多的信息,计算机中介通讯中时刻有大量的文本信息传输,然而人们仍然没有提出有效的办法识别其中的欺骗信息,因此,提出一种能自动检测欺骗的方法是非常迫切的.由于目前关于中文欺骗语料库仍少相关报道,因此文章基于两个步骤实现,首先建立欺骗性语料库,然后通过对欺骗性语料和非欺骗性语料的分析,提出一种基于分类的欺骗行为检测方法.实验结果显示开放测试系统的精确率、召回率和F一值分别可达到78.3%、72%和0.75.  相似文献   

15.
利用“现代汉语研究语料库系统”中动词和趋向补语的搭配数据,分析现代汉语动词和趋向补语的结合情况和结合方式等。研究发现:简单趋向补语和复合趋向补语均有多种类型,每种类型的具体使用情况不尽相同;能够带趋向补语的动词数量并不多,这些动词带趋向补语的能力也有很大差别。  相似文献   

16.
在信息检索领域,查全率与查准率是一对相互制约的指标.为了研究文本分类领域查全率和查准率的关系,在此从理论和实验两方面分析查全率及测试集对查准率的影响.理论分析与实验结果一致得出,在文本分类中查全率和查准率是两个一致的指标.另外,在查全率确定的情况下,测试集中各类别文档比例的变化也会导致查准率的变化.  相似文献   

17.
尝试对平行语料库中需要去重的中文句子相似情况作分类,利用整体相似因子和局部相似因子计算句子的相似度,并借鉴KMP算法的匹配跳跃思想,提出中文字符串匹配的类KMP算法,并对算法进行实验验证。结果表明,算法具有较好的效果,能够实现平行语料库中相似句子的去重。算法开放测试的召回率达94%,去重准确率达到84%。算法可以应用于任何长度的语句比对,适用范围广。  相似文献   

18.
通过对中文机构名的语法语义特性进行分析,将中文机构名分成前部词和特征词,提出了一种基于统计的识别方法.使用成熟语料库的训练数据,计算候选机构名的特征词可信度、前部词首词可信度和前部词中部可信度,最终得到机构名构词可信度,并与给定阈值比较,实现了中文机构名识别.在开放性实验中,达到了85.57%的召回率和94.37%的准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号