首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 150 毫秒
1.
针对中文分词、词性标注等序列标注任务,提出结合双向长短时记忆模型、条件随机场模型和马尔可夫族模型或树形概率构建的中文分词和词性标注联合方法。隐马尔可夫词性标注方法忽略了词本身到词性的发射概率。在基于马尔可夫族模型或树形概率的词性标注中,当前词的词性不但与前面词的词性有关,而且与当前词本身有关。使用联合方法有助于使用词性标注信息实现分词,有机地将两者结合起来有利于消除歧义和提高分词、词性标注任务的准确率。实验结果表明:本文使用的中文分词和词性标注联合方法相比于通常的双向长短时记忆模型-条件随机场分词模型能够大幅度提高分词的准确率,并且相比于传统的隐马尔可夫词性标注方法能够大幅度提高词性标注的准确率。  相似文献   

2.
[目的]研究无监督词性标注模型在低资源语言上的性能表现.[方法]尝试利用无监督词性标注模型,包括高斯隐马尔科夫模型(Gaussian HMM,GHMM)、最大化互信息模型(mutual information maximization, MIM)与条件随机场自编码器(conditional random filed autoencoder, CRF-AE),展开低资源词性标注实验.基于对前人工作的凝练,在英文宾州树库上设置了少样本和词典标注两种低资源场景.[结果]无监督词性标注模型能够在少样本场景中超越条件随机场模型,但在词典标注场景中却始终逊色于条件随机场模型.[结论]无监督损失更加擅长对高频词进行建模,使得模型在少样本场景下获得更好的性能表现;同时无监督损失倾向于生成更加均匀的词性分布,从而降低模型在词典标注场景下的性能.  相似文献   

3.
针对微博数据特点,采用降噪算法和条件随机场模型对微博数据进行词性标注,并对其中比重较大的谐音词使用贝叶斯方法进行词性二次纠正.首先利用新浪平台API和爬虫获取原始微博数据,再根据噪音特点人工制定规则进行降噪.由于条件随机场在中文词性标注中特征提取的优势,使用条件随机场模型对降噪后的微博语料词性标注.在此基础上,利用微博语料中谐音词比重较大的特点,将微博词语转化为拼音,根据贝叶斯方法计算得到谐音词的原生词候选,再根据词语的上下文建立谐音词和原生词映射,并利用原生词的词性已知的性质,对谐音词进行词性纠错.实验结果表明,该方法可以较好地标注微博未登录词,词性标注准确率达到95.23%.  相似文献   

4.
以已经分词并进行了词性标注和介词短语标注的《人民日报》为实验语料,选取其中出现频次高于20次的61个介词为实验对象,采用支持向量机、最大熵和条件随机场这3种统计模型,对介词短语边界识别进行了研究.实验结果表明在3种模型中,采用条件随机场模型效果最好,微平均准确率达到了95.68%.  相似文献   

5.
条件随机场能够很好地处理序列标注问题.引入条件随机场进行维吾尔语分词方法研究,主要包括制定词性和分词单独标注与一体化标注集并建成语料库;设计不同特征模板进行训练测试,反复比较实验结果,总结优化以获取最佳的特征模板.在设计特征模板时充分结合维吾尔语语言形态特征,采用了对称特征组合非对称特征的设计方法,并将获得的最佳分词模板应用到分步预测词性和分词实验中.相比单独分词标注,分词时加入词性特征列进行分词与词性一体化标注能展现更优的分词性能.  相似文献   

6.
根据维吾尔语黏着型的特点,以及形态化单词和频率进行统计分析之后的结果,为解决因单词形态而导致的数据稀疏问题和兼类词标注的问题,提出了维吾尔文的融合词干、词缀等形态特征的基于最大熵的词性标注模型。在通用的词性标注模型的基础上,构造了相应的词性标注特征模版,并设计了它的特征函数。实验结果分析表明,最大熵模型可以较好地处理维吾尔文词性标注的问题,其中词缀特征对提高兼类词和未登录词的词性标注有着十分显著的效果,与其他只用词形的词性标注系统相比准确率比以前提高了2.64%,达到了96.85%。  相似文献   

7.
自然语言处理作为人工智能领域的一个重要分支,随着计算机信息处理技术的发展,已经取得较大进展.但是古汉语信息处理研究却相对滞后.本研究选择编年体体裁的《明史》作为研究语料,通过交叉检验方法比较了基于条件随机场的三种图模型(无边图模型、完全图模型以及嵌套图模型)在古汉语词性标注中的应用,发现完全图模型和嵌套图模型在《明史》的词性标注中的效果优于无边图模型,分词(Word Segmentation)在一定程度上可以提高古汉语词性标注的效率.另外,还发现基于条件随机场的图模型在分词前后对测试集中未登录词的词性标注效果均比较低.  相似文献   

8.
借鉴并利用基于短语的因子化机器翻译方法,结合基于隐马尔科夫模型的词性标注系统实现了蒙古文的自动词性标注.首先使用基于短语的因子化机器翻译方法对词表词进行标注,然后用基于隐马尔科夫模型的词性标注方法对生词进行标注.实验结果表明,采取的蒙古文词性标注方法的准确率达到97.91%.最后,将该方法标注的词性融入到蒙汉统计机器翻译系统后,译文质量有了较大提高,进一步证明该方法的有效性和实用性.  相似文献   

9.
针对隐马尔可夫(HMM)词性标注模型状态输出独立同分布等与语言实际特性不够协调的假设,对隐马尔可夫模型进行改进,引入马尔可夫族模型。,该模型用条件独立性假设取代HMM模型的独立性假设。将马尔可夫族模型应用于词性标注,并结合句法分析进行词性标注。用改进的隐马尔可夫模型进行词性标注实验。实验结果表明:与条件独立性假设相比,独立性假设是过强假设,因而基于马尔可夫族模型的语言模型更符合语言等实际物理过程;在相同的测试条件下,马尔可夫族模型明显好于隐马尔可夫模型,词性标注准确率从94.642%提高到97.126%。  相似文献   

10.
为了进一步提高中文语料库中语料的词性标注效率,在分析最大熵模型(MEM)和隐马尔科夫模型(HMM)所涉及理论、算法及其在中文词性标注技术中的应用的基础上,进行了基于MEM和HMM的中文词性标注实验.实验结果显示,基于MEM和HMM的中文词性标注算法都获得了一致性很好且覆盖率较高的标注效果,中文词性标注的准确率、召回率和F1这3个指标均达到92%以上;MEM的标注效果总体上比HMM的稍佳.  相似文献   

11.
针对藏语区别于英语和汉语,分析藏语的构形特征,得到词性标注集.从人工标注的语料中统计词和词性频率以及训练得到二元语法的HMM模型参数,运用Viterbi算法完成基于统计方法的词性标注.  相似文献   

12.
基于条件随机场的越南语命名实体识别方法   总被引:2,自引:0,他引:2  
针对越南语特点,提出一种基于条件随机场模型的越语命名实体识别方法。该方法针对越语词和词性的特点,采用条件随机场算法,选取词和词性作为特征,定义特征模版,选取越南语新闻文本,标记地名、人名、组织机构等6类实体语料,训练获得越南语实体识别模型,实现实体识别。实验结果表明该方法提取实体的准确率达到83.73%。  相似文献   

13.
提出一种基于规则的无监督词性标注方法, 利用200多条英语语法规则, 创建26个规则函数, 先将输入的待标注英语句子进行预处理后得到初始标记, 再对每个单词调用规则函数, 最终得到标注后的英语句子. 通过对Brown语料库的实验, 词性标注的正确率达到9395%. 实验结果表明, 本文方法可行、 有效, 能很好地提高英语词性标注的准确率.  相似文献   

14.
针对基于注意力机制的模型在方面级情感分类任务中忽略了单词词性信息的问题,提出一种融入词性自注意力机制的方面级情感分类方法.该方法首先基于自然语言处理词性标注工具获得词性标注序列,并随机初始化一个词性嵌入矩阵得到词性嵌入向量;然后用自注意力机制学习单词之间的句法依赖关系;最后计算出每个单词的情感分数,利用词情感的结合表示特定方面的情感极性.实验结果表明,在5个公共数据集上,该方法相比效果最好的基线模型,在准确率和宏观F1分数上分别提升2%和4.83%.表明融入词性信息的注意力机制模型在方面级情感分类任务中性能更好.  相似文献   

15.
针对实际应用中语言模型应该占用更小存储空间且加载速度快等需求,采用最大熵模型进一步研究了汉语词性标注中设定的特征模板集和训练后模型大小、标注精度等指标之间的关系,并在国际汉语分词评测Bake off2007的PKU、NCC、CTB三种语料上进行了对比实验.实验结果表明,双词语组合特征模板大大增加了训练后模型的大小,对汉语词性标注精度却没有提高,而基于单个词语特征模板训练后的模型大小不足原先大小的1/5,标注精度却没有下降.  相似文献   

16.
根据蒙古文地名的特点,引入词性特征、字典特征、实体指示词特征以及外文地名用词特征,基于条件随机场模型对蒙古文地名自动识别问题进行研究.结果表明,该模型对蒙古文地名识别的准确率为95.45%,召回率为79.41%,F值为86.70%.  相似文献   

17.
在充分研究维吾尔语言形态特征的基础上,制定相应的分词规则并手工标注原始语料,建成原始语料库;针对传统机器学习分词方法过度依赖背景知识和特征选取的问题,提出了一种基于长短期记忆(LSTM)神经网络改进的双向长短时记忆条件随机场(BI-LSTM-CRF)网络模型来进行维吾尔语分词,其能够有效地使用过去和未来的输入特征.利用该分词模型与基于传统机器学习方法的条件随机场(CRF)模型对比,实验结果表明,使用BI-LSTM-CRF模型分词性能有明显提高,且具有良好的泛化能力.  相似文献   

18.
为了进一步提高中文语料库中语料的词性标注效率,在分析最大熵模型(MEM)和隐马尔科夫模型(HMM)所涉及理论、算法及其在中文词性标注技术中的应用的基础上,进行了基于MEM和HMM的中文词性标注实验.实验结果显示,基于MEM和HMM的中文词性标注算法都获得了一致性很好且覆盖率较高的标注效果,中文词性标注的准确率、召回率和F1这3个指标均达到92%以上;MEM的标注效果总体上比HMM的稍佳.  相似文献   

19.
本文首先分析了藏文人名的特点以及藏文人名识别的难点,在此基础上,利用条件随机场模型,分别提出了采用基于亚音节标注的藏文人名识别方法和分词与词性标注一体化的藏文人名识别方法.  相似文献   

20.
一种基于NA假设的训练数据自动构造方法   总被引:1,自引:0,他引:1  
为减轻人工标注训练语料库面临的瓶颈问题,提出了一种基于NA假设带标训练语料库的自动构造方法·为了检验该方法的有效性,将自动获取的带标训练语料库用于词性标注应用中,2万词次的开放性测试结果的准确率为93.1%,其中词性兼类消歧准确率为79.3%,未登录词词性确定准确率为88%·  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号