首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 187 毫秒
1.
介绍了蒙古语词性标注系统的设计思想、实现方法及标注系统的主要功能.该系统采用基于规则和统计相结合的方法对蒙古语句子进行分类,并对已分类的句子进行词性自动标注.  相似文献   

2.
文章提出了一种基于规则的汉语句法分析方法 ,通过对已进行分词与词性标注的句子进行短语的人工标注形成精确度较高的语料 ,然后提取一些规则分析出短语的结构和功能类型 ,为自然语言的计算机处理提供基础研究服务。  相似文献   

3.
针对词性标中单独使用概率方法或规则方法的缺陷,将概率方法和规则方法有机结结合起来,并引入了部分句法分析除分歧义和标注歧义,利用机器学习得到的规则对输出结果进行修正,实现了一个自学习结合部分句法分析的汉语词性标注系统。  相似文献   

4.
建立了一种德语语料词性标注方法以及基于词性标注的统计方法.初步实验证明了上述方法对德语语料标注和标注后的语料进行单词、词类、短语结构和句子的统计是正确和有效的.  相似文献   

5.
提出了一种高效的半自动构建语义单元表示库(英汉)的方法.该方法不是使用分词和词性标注等工具,而是直接对组成双语句子的基本字符进行处理,采用语义单元实量匹配和重构语义单元树的算法,对其产生的结果运用规则进行推断,规则独立于其他模块并且可扩充.经人工检查正确的语义单元加入语义单元表示库中.实验表明,该方法能保证结果的正确性,达到实用的水平.  相似文献   

6.
基于对中文Deep Web查询结果的词性分析,提出一种基于中文词性和领域知识的Deep Web语义标注方法.借助中文分词工具得到Deep Web查询结果的词性,并根据词性或词性组合与语义建立映射规则,同时结合领域知识进行语义标注.实验表明,该方法能够在多个领域对Deep Web查询结果进行正确的语义标注,从而验证了该方法的有效性.  相似文献   

7.
为了提高词性标注模型训练语料的质量,设计了一种利用FP-Growth算法从训练语料库中自动获取词性标注规则的方法,并将该方法与基于Apriori算法的词性标注规则获取方法进行了对比实验.实验结果显示,对于0.1万、0.2万和1万词级的小规模语料库,2种方法获取的词性标注规则条数均相同,但基于FP-Growth算法的时间耗费分别仅为基于Apriori算法的0.013 866%,0.010 399%,0.003 132%;对于10万、100万词级的训练语料库,基于Apriori算法无法获取任何规则,但基于FP-Growth算法依然可以在合理时间内获取有效的规则.这说明,基于FP-Growth算法的词性标注规则获取方法是可行且高效的,满足在优化训练语料库时能从不同规模的语料库中自动获取词性标注规则的实际需求.  相似文献   

8.
主要针对基于规则的汉语词性自动标注问题,引入了关联规则挖掘的概念和方法,给出了一种汉语词性标注规则的获取算法,并对试验结果进行分析,从而提出一些改进思路。  相似文献   

9.
针对藏语区别于英语和汉语,分析藏语的构形特征,得到词性标注集.从人工标注的语料中统计词和词性频率以及训练得到二元语法的HMM模型参数,运用Viterbi算法完成基于统计方法的词性标注.  相似文献   

10.
针对微博数据特点,采用降噪算法和条件随机场模型对微博数据进行词性标注,并对其中比重较大的谐音词使用贝叶斯方法进行词性二次纠正.首先利用新浪平台API和爬虫获取原始微博数据,再根据噪音特点人工制定规则进行降噪.由于条件随机场在中文词性标注中特征提取的优势,使用条件随机场模型对降噪后的微博语料词性标注.在此基础上,利用微博语料中谐音词比重较大的特点,将微博词语转化为拼音,根据贝叶斯方法计算得到谐音词的原生词候选,再根据词语的上下文建立谐音词和原生词映射,并利用原生词的词性已知的性质,对谐音词进行词性纠错.实验结果表明,该方法可以较好地标注微博未登录词,词性标注准确率达到95.23%.  相似文献   

11.
首先, 在句子组织信息之间的结合度及基于规则、 词性和词序对句法分析系统影响的基础上, 提出一种基于规则的语句分析识别算法, 能在大量文本中快速识别出正确句式; 其次,在基于语句分析识别算法的基础上, 提出一种基于规则与句法合成的层次化语句分析识别算法, 以提高层次化句式识别检错的精度. 实验结果表明, 该算法平均精确率和平均召回率分别为84.65%和77.15%, 相比于只基于规则的语句识别算法分别提高了11.79%和14.48%, 证明了规则与句法合成的层次化语句分析识别的可行性.  相似文献   

12.
首先, 在句子组织信息之间的结合度及基于规则、 词性和词序对句法分析系统影响的基础上, 提出一种基于规则的语句分析识别算法, 能在大量文本中快速识别出正确句式; 其次,在基于语句分析识别算法的基础上, 提出一种基于规则与句法合成的层次化语句分析识别算法, 以提高层次化句式识别检错的精度. 实验结果表明, 该算法平均精确率和平均召回率分别为84.65%和77.15%, 相比于只基于规则的语句识别算法分别提高了11.79%和14.48%, 证明了规则与句法合成的层次化语句分析识别的可行性.  相似文献   

13.
基于语义标注的信息抽取   总被引:6,自引:2,他引:6       下载免费PDF全文
词性标注是引起语义缺失的根本原因,提出了以语义标注作为构建信息抽取规则的基础。基于语义标注的信息抽取可消除词性标注引起的3个负面影响,用统一的方法来指导信息抽取过程。这种方法避开语法分析,具有较细的处理粒度,对语义规则性强的领域有一定的普遍适用性。设计了基于语义标注的MIE(军用信息抽取)系统,并对标图文本试行信息抽取。抽取结果表明,基于语义标注的信息抽取方式有一定的可行性和适用性。  相似文献   

14.
词类标注是自然语言理解中的的一个关键问题,是句法分析和语义分析的基础.本文分析了汉语的多类词现象.提出了在基于神经网络的词类标注方法的基础上,根据汉语的语法结构增加了规则的排歧处理阶段,增加了上下文词类信息的处理能力.实验表明:在原有神经网络方法的基础上,利用规则的方法进行修正,可以提高词性标注的正确率.  相似文献   

15.
为进一步提高文本相似度计算的准确性,提出基于句向量的文本相似函数(part of speech and order smooth inverse frequency, PO-SIF),从词性和词序方面优化了平滑反频率(smooth inverse frequency, SIF)计算方法,SIF算法的核心是通过加权和去除噪声得到句向量来计算句子相似度。在具体计算时,一方面通过增加词性消减因子调节SIF句向量计算权重参数,获得带有词性信息的句向量,另一方面通过将词序相似度与SIF句向量相似度算法进行线性加权优化句子相似度得分。实验结果表明,增加词性和词序的方法可以提升算法准确率。  相似文献   

16.
提出了一种基于条件随机场的中文自动文摘方法.用条件随机场来建立词性标注模型.在文摘句抽取时,引入了关键词抽取技术抽取文摘句.在生成文摘时,采用了基于规则的方法去除文摘中的冗余信息,使最后生成的文摘更具有可读性.实例表明该方法能够适应于许多领域,得到了很好的应用效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号