首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 140 毫秒
1.
针对中文分词、词性标注等序列标注任务,提出结合双向长短时记忆模型、条件随机场模型和马尔可夫族模型或树形概率构建的中文分词和词性标注联合方法。隐马尔可夫词性标注方法忽略了词本身到词性的发射概率。在基于马尔可夫族模型或树形概率的词性标注中,当前词的词性不但与前面词的词性有关,而且与当前词本身有关。使用联合方法有助于使用词性标注信息实现分词,有机地将两者结合起来有利于消除歧义和提高分词、词性标注任务的准确率。实验结果表明:本文使用的中文分词和词性标注联合方法相比于通常的双向长短时记忆模型-条件随机场分词模型能够大幅度提高分词的准确率,并且相比于传统的隐马尔可夫词性标注方法能够大幅度提高词性标注的准确率。  相似文献   

2.
文章提出了一种基于规则的汉语句法分析方法 ,通过对已进行分词与词性标注的句子进行短语的人工标注形成精确度较高的语料 ,然后提取一些规则分析出短语的结构和功能类型 ,为自然语言的计算机处理提供基础研究服务。  相似文献   

3.
词类标注是自然语言理解中的的一个关键问题,是句法分析和语义分析的基础.本文分析了汉语的多类词现象.提出了在基于神经网络的词类标注方法的基础上,根据汉语的语法结构增加了规则的排歧处理阶段,增加了上下文词类信息的处理能力.实验表明:在原有神经网络方法的基础上,利用规则的方法进行修正,可以提高词性标注的正确率.  相似文献   

4.
动词与动词搭配类型的自动标注方法   总被引:1,自引:0,他引:1  
自动句法分析是中信息处理的重要环节,而在自动句法分析中,词语搭配关系的分析是关键.动词是汉语中常见的一种词性,所以动词搭配关系的确定便显得尤为重要.本在统计了动词-动词搭配中各关系类型的分布特征以及搭配词语的位置分布特征的基础上,运用统计模型、搭配类型标注规则,识别语料中的动词-动词搭配类型.  相似文献   

5.
杜璞 《科技咨询导报》2009,(24):172-172
本文简要介绍了中文信息处理的主流技术,着重介绍了中文信息处理中的N元模型、语音识别、词性标注和句法分析技术。  相似文献   

6.
词性标注是词法分析的基础.HMM是一个数学模型,具有算法成熟、效率高、易于训练的优点;负反馈是一个控制模型,在规则中引入负反馈,可以增强规则的客观性.本文探讨了两个模型,然后将它们应用于词性标注中.实验结果表明两者的结合是有效的和成功的.  相似文献   

7.
介绍了蒙古语词性标注系统的设计思想、实现方法及标注系统的主要功能.该系统采用基于规则和统计相结合的方法对蒙古语句子进行分类,并对已分类的句子进行词性自动标注.  相似文献   

8.
针对隐马尔可夫(HMM)词性标注模型状态输出独立同分布等与语言实际特性不够协调的假设,对隐马尔可夫模型进行改进,引入马尔可夫族模型。,该模型用条件独立性假设取代HMM模型的独立性假设。将马尔可夫族模型应用于词性标注,并结合句法分析进行词性标注。用改进的隐马尔可夫模型进行词性标注实验。实验结果表明:与条件独立性假设相比,独立性假设是过强假设,因而基于马尔可夫族模型的语言模型更符合语言等实际物理过程;在相同的测试条件下,马尔可夫族模型明显好于隐马尔可夫模型,词性标注准确率从94.642%提高到97.126%。  相似文献   

9.
为了提高词性标注模型训练语料的质量,设计了一种利用FP-Growth算法从训练语料库中自动获取词性标注规则的方法,并将该方法与基于Apriori算法的词性标注规则获取方法进行了对比实验.实验结果显示,对于0.1万、0.2万和1万词级的小规模语料库,2种方法获取的词性标注规则条数均相同,但基于FP-Growth算法的时间耗费分别仅为基于Apriori算法的0.013 866%,0.010 399%,0.003 132%;对于10万、100万词级的训练语料库,基于Apriori算法无法获取任何规则,但基于FP-Growth算法依然可以在合理时间内获取有效的规则.这说明,基于FP-Growth算法的词性标注规则获取方法是可行且高效的,满足在优化训练语料库时能从不同规模的语料库中自动获取词性标注规则的实际需求.  相似文献   

10.
基于对中文Deep Web查询结果的词性分析,提出一种基于中文词性和领域知识的Deep Web语义标注方法.借助中文分词工具得到Deep Web查询结果的词性,并根据词性或词性组合与语义建立映射规则,同时结合领域知识进行语义标注.实验表明,该方法能够在多个领域对Deep Web查询结果进行正确的语义标注,从而验证了该方法的有效性.  相似文献   

11.
一种高性能英文词性标注器的设计与实现   总被引:3,自引:2,他引:3  
针对统计和规则方法各自的优点和局限,提出运用Viterbi和FTBL(fast transformation-based learning)算法相级联的算法,实现一种英文自动词性标注器.该级联方法以FTBL算法为整体算法,在它的规则学习和最终标注两个阶段,均以Viterbi算法作为其初始化过程.实验结果表明此算法优于其中任何一种单独的算法,达到了98%的高准确率,验证了自然语言处理中统计与规则并举的主流设计思想.  相似文献   

12.
针对现有的中文文本情感分析方法不能从句法结构、上下文信息和局部语义特征等方面综合考量文本语义信息的问题,提出一种基于特征融合的中文文本情感分析方法.首先,采用Jieba分词工具对评论文本进行分词和词性标注,并采用词向量训练工具GloVe获取融入词性的预训练词向量;然后,将词向量分别作为引入Self-Attention的BiGRU和TextCNN的输入,使用引入Self-Attention的BiGRU从文本的句法结构和文本的上下文信息两个方面综合提取全局特征,使用TextCNN提取文本的局部语义特征;最后,将全局特征和局部语义特征进行融合,并使用Softmax进行文本情感分类.实验结果表明,本文方法可以有效提高文本情感分析的准确率.  相似文献   

13.
提出一种基于规则的无监督词性标注方法, 利用200多条英语语法规则, 创建26个规则函数, 先将输入的待标注英语句子进行预处理后得到初始标记, 再对每个单词调用规则函数, 最终得到标注后的英语句子. 通过对Brown语料库的实验, 词性标注的正确率达到9395%. 实验结果表明, 本文方法可行、 有效, 能很好地提高英语词性标注的准确率.  相似文献   

14.
基于语义标注的信息抽取   总被引:8,自引:2,他引:6       下载免费PDF全文
词性标注是引起语义缺失的根本原因,提出了以语义标注作为构建信息抽取规则的基础。基于语义标注的信息抽取可消除词性标注引起的3个负面影响,用统一的方法来指导信息抽取过程。这种方法避开语法分析,具有较细的处理粒度,对语义规则性强的领域有一定的普遍适用性。设计了基于语义标注的MIE(军用信息抽取)系统,并对标图文本试行信息抽取。抽取结果表明,基于语义标注的信息抽取方式有一定的可行性和适用性。  相似文献   

15.
针对藏语区别于英语和汉语,分析藏语的构形特征,得到词性标注集.从人工标注的语料中统计词和词性频率以及训练得到二元语法的HMM模型参数,运用Viterbi算法完成基于统计方法的词性标注.  相似文献   

16.
基于转换的无指导词义标注方法   总被引:5,自引:0,他引:5  
词义标注是自然语言处理的难题之一。该文提出用于文本词义标注的转换规则自动获取算法及相应的词义排歧算法。该算法用可能的句法关系对语境进行限制,减少了训练数据中的噪音; 为提高学习算法的速度,提出利用预排序方法减少规则搜索次数,以及只调整变化部分数据的计算方法; 并给了改善召回率的词义排歧算法。在近5 万词的语料库上对本算法进行了实验,开放测试的词义排歧正确率为743% 。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号