首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 734 毫秒
1.
汉语自动分词中中文地名识别   总被引:6,自引:0,他引:6  
以词语级的中文地名为识别对象,根据地名内部用字的统计信息和地名构成特点产生潜在地名.在汉语自动分词中将可信度较高的潜在地名等同于句子的候选切分词,利用候选切分词本身的可信度和上下文接续关系评价句子的各种切分方案.在确定句子最佳切分时识别句子中的中文地名.对真实语料进行封闭和开放测试,封闭测试结果为召回率93.55%,精确率94.14%,F-1值93.85%;开放测试结果为召回率91.27%,精确率73.48%,F-1值81.42%.取得了比较令人满意的结果.  相似文献   

2.
基于互信息的中文姓名识别方法   总被引:4,自引:0,他引:4  
提出并实现了一个基于互信息的中文姓名识别方法,该方法充分挖掘姓名和其上下文信息的关联程度以及姓名用字之间关联程度的信息,引入互信息对其进行定量的描述;提出中文姓名的上下文互信息、内部互信息等概念,并对其建立了动态评价函数,开放测试结果表明,该方法有效地提高了中文姓名识别的效果,保证了较高的精确率和召回率。  相似文献   

3.
现代汉语形容词带趋向动词,构成“A+趋向补语”格式.这一格式在句法和语义方面到底有什么特点呢?本文试作一考察.一1.1 我们考察发现,能够出现于形容词后边充当补语的趋向动词只有“·起来”“·下来”和“下去”,换句话说,形容词带趋向补语的格式只有三个:S_1:A+·起来S_2:A+·下来S_3:A+·下来1.2 A+趋向补语,或表示状态的开  相似文献   

4.
现代汉语趋向动词是一个特殊的类 ,其特殊性在于它可以放在谓语动词后做补语 ,文章对趋向动词进行了考察 ,把它们分为两大类 ,三小类。认为 ,补语位置为趋向动词的语法化提供了一个优选位置 ,在这一位置上不同类型的趋向动词表现出不同的语法化进程。这一进程与谓语动词后体词性成分做为趋向动词论元载体有关。A类单音节趋向动词保存了较多的动词功能 ;双音节趋向动词的语法化进程因论元载体身份角色不同而有变化 ,表现出一定的条件性 ;B类双音节趋向动词在语法化进程中走得最快 ,与此相联系 ,我们根据动词与体词性成分语义联系的特点建立了体词性成分前移测试框架 ,使上述结论可以在形式方面得到更多的支持 ,更具可操作性 ,从而建立了趋向动词语的语法化系列。  相似文献   

5.
基于支持向量机的中文文本中地名识别   总被引:2,自引:0,他引:2  
提出并实现了一种基于支持向量机(SVM)的中文文本中地名的自动识别方法.结合地名的特点,抽取单字本身、基于字的词性、是否在地名特征词表中及其上下文的信息作为向量的特性,并将其转化为二进制表示,在此基础上建立了训练集,并通过对多项式Kernel函数的测试,得到了用支持向量机进行地名识别的机器学习模型.实验表明,所建立的SVM地名识别模型是有效的,系统开式召回率和精确率分别达86.69% 和93.82%,F-值为90.12%.  相似文献   

6.
现代汉语趋向动词是一个特殊的类,其特殊性在于它可以放在谓语动词后做补语,文章对趋向动词进行了考察,把它们分为两大类,三小类。认为,补语位置为趋向动词的语法化提供了一个优选位置,在这一位置上不同类型的趋向动词表现出不同的语法化进程。这一进程与谓语动词后体词性成分做为趋向动词论元载体有关。A类单音节趋向动词保存了较多的动词功能;双音节趋向动词的语法化进程因论元载体身份角色不同而有变化,表现出一定的条件性;B类双音节趋向动词在语法化进程中走得最快,与此相联系,我们根据动词与体词性成分语义联系的特点建立了体词性成分前移测试框架,使上述结论可以在形式方面得到更多的支持,更具可操作性,从而建立了趋向动词语的语法化系列。  相似文献   

7.
基于依存关系的句法分析统计模型   总被引:3,自引:2,他引:3  
利用语义、语法等语言知识,建立一种基于依存关系的句法分析统计模型,并利用改进的句法分析模型进行句法分析实验.研究结果表明:利用依存关系、互信息对词聚类,能解决模型数据稀疏问题;模型可同时考虑几种语义依存关系;该模型是一个词汇化的句法分析模型,能结合分词、词性标注进行句法分析;概率上下文无关语法中由概率的上下文无关性假设和祖先结点无关性假设引起的问题在该模型中得到有效解决;精确率和召回率分别为86.96%和85.25%,其综合指标F与Collins的头驱动句法分析模型的F相比提高4.75%.  相似文献   

8.
提出了一种在构造内部规则和外部规则的同时采用概率统计的中文地名实体的识别方法,并利用这种基于规则和统计相结合的方法对测试语料库进行识别测试,实验证明该方法获得了较高的准确率和召回率,具有可行性和合理性,同时也指出了它的局限性.  相似文献   

9.
基于统计的中文关键短语自动抽取   总被引:1,自引:0,他引:1  
用统计的方法从单文本中自动抽取关键短语。在实验中验证了频度、首位置作为特征的有效性。用各种方法过滤非法词串,综合短语位置和统计特征对候选短语进行权重计算,并依据关键短语分布规律选择关键短语。另外,通过分析关键短语分布特点为Ⅳ元短语在过滤、按比例选择方面提供了依据。获得了比较好的实验结果:TOP5精确率21.80%,召回率28.27%,F-measure25%;TOP10精确率17.10%,召回率44.50%,F-measure30.80%。  相似文献   

10.
提出了一种基于统计与规则相结合的藏文人名自动识别方法.该方法充分挖掘了人名与上下文信息的关联程度,引入互信息对关联程度进行了定量的描述.根据大规模语料(30.2 M文本语料)的统计数据所建立的规则极大地提高了识别算法的准确率;在处理汉族音译人名情况时,采用姓氏驱动的方法,很好地解决了藏文文本中汉族人名的识别问题.实验结果表明,该方法具有较高的准确率和召回率.  相似文献   

11.
提出与评价对象抽取相关的7类语义特征: 评价触发词、评价消解词、评价对象绝缘词、后指动词、前指动词、心理动词和指向定语的评价名词, 以及与极性判定相关的5类语义特征: 褒义性名词、贬义性名词、语义偏移型名词、度量衡形容词和语义构式。从引入语义特征的必要性以及如何使用这些特征两方面进行阐述。实验证明, 语义特征的引入有助于提高评价对象抽取及极性判断的准确率。  相似文献   

12.
采用语料库研究方法,对比分析中国英语学习者与本族语者对出现频率较高的心理动词的使用差异情况,研究中国学习者对心理动词的习得状况,笔语、口语中心理动词的使用规律与特点。结果发现:中国学习者运用心理动词频率普遍高于本族语者,尤其在笔语中,这在一定程度上反映出学习者笔语的口语化倾向;笔语表达中学习者主要依赖有限的几个心理动词;口语表达中学习者在句型、时态、词汇等方面表达的丰富度上尚有提高空间;心理动词与代词"I"搭配使用时,学习者的运用情况与本族语者相比,还有一定差距。  相似文献   

13.
孝感话的“把”字句   总被引:4,自引:0,他引:4  
孝感市位于湖北省东产经部,属楚语区。孝感话与普通话较接近,但他存在一些差异,如“把”,在孝感话里用法广泛,可用为动词,介词,作介词用于工具语,处置式,被动向,与普通话与有很大的不同,在普通话中有不同的对应形式。这些用法同出一源,孝感话“把”的特点,显示了“把”在地域上的共域上的共时差异,反映了语言历史演变的轨迹,研究孝感话“把”的用法,有助于汉语史和现代汉语的研究。  相似文献   

14.
CRF与规则相结合的中文地名识别   总被引:2,自引:0,他引:2  
采用递增式学习策略优化条件随机域(conditional random fields,CRF)的特征模板以提高中文地名的识别效果,结合语言学相关知识构建规则库,以弥补机器学习模型获取知识不够全面导致召回率偏低的不足,最终实现了CRF与规则相结合的中文地名识别系统.实验结果表明,采用CRF与规则相结合的方法识别中文文本中的地名是有效的,对Bakeoff2007NER任务的MSRA语料进行开放测试,召回率、精确率和F值分别为94.67%、92.35%和93.50%.  相似文献   

15.
随着网络应用的扩展,个人或组织会收到或存储越来越多的信息,计算机中介通讯中时刻有大量的文本信息传输,然而人们仍然没有提出有效的办法识别其中的欺骗信息,因此,提出一种能自动检测欺骗的方法是非常迫切的.由于目前关于中文欺骗语料库仍少相关报道,因此文章基于两个步骤实现,首先建立欺骗性语料库,然后通过对欺骗性语料和非欺骗性语料的分析,提出一种基于分类的欺骗行为检测方法.实验结果显示开放测试系统的精确率、召回率和F一值分别可达到78.3%、72%和0.75.  相似文献   

16.
利用“现代汉语研究语料库系统”中动词和趋向补语的搭配数据,分析现代汉语动词和趋向补语的结合情况和结合方式等。研究发现:简单趋向补语和复合趋向补语均有多种类型,每种类型的具体使用情况不尽相同;能够带趋向补语的动词数量并不多,这些动词带趋向补语的能力也有很大差别。  相似文献   

17.
在信息检索领域,查全率与查准率是一对相互制约的指标.为了研究文本分类领域查全率和查准率的关系,在此从理论和实验两方面分析查全率及测试集对查准率的影响.理论分析与实验结果一致得出,在文本分类中查全率和查准率是两个一致的指标.另外,在查全率确定的情况下,测试集中各类别文档比例的变化也会导致查准率的变化.  相似文献   

18.
尝试对平行语料库中需要去重的中文句子相似情况作分类,利用整体相似因子和局部相似因子计算句子的相似度,并借鉴KMP算法的匹配跳跃思想,提出中文字符串匹配的类KMP算法,并对算法进行实验验证。结果表明,算法具有较好的效果,能够实现平行语料库中相似句子的去重。算法开放测试的召回率达94%,去重准确率达到84%。算法可以应用于任何长度的语句比对,适用范围广。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号