首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 281 毫秒
1.
为了进一步提高中文语料库中语料的词性标注效率,在分析最大熵模型(MEM)和隐马尔科夫模型(HMM)所涉及理论、算法及其在中文词性标注技术中的应用的基础上,进行了基于MEM和HMM的中文词性标注实验.实验结果显示,基于MEM和HMM的中文词性标注算法都获得了一致性很好且覆盖率较高的标注效果,中文词性标注的准确率、召回率和F1这3个指标均达到92%以上;MEM的标注效果总体上比HMM的稍佳.  相似文献   

2.
针对隐马尔可夫(HMM)词性标注模型状态输出独立同分布等与语言实际特性不够协调的假设,对隐马尔可夫模型进行改进,引入马尔可夫族模型。,该模型用条件独立性假设取代HMM模型的独立性假设。将马尔可夫族模型应用于词性标注,并结合句法分析进行词性标注。用改进的隐马尔可夫模型进行词性标注实验。实验结果表明:与条件独立性假设相比,独立性假设是过强假设,因而基于马尔可夫族模型的语言模型更符合语言等实际物理过程;在相同的测试条件下,马尔可夫族模型明显好于隐马尔可夫模型,词性标注准确率从94.642%提高到97.126%。  相似文献   

3.
针对藏语区别于英语和汉语,分析藏语的构形特征,得到词性标注集.从人工标注的语料中统计词和词性频率以及训练得到二元语法的HMM模型参数,运用Viterbi算法完成基于统计方法的词性标注.  相似文献   

4.
[目的]研究无监督词性标注模型在低资源语言上的性能表现.[方法]尝试利用无监督词性标注模型,包括高斯隐马尔科夫模型(Gaussian HMM,GHMM)、最大化互信息模型(mutual information maximization, MIM)与条件随机场自编码器(conditional random filed autoencoder, CRF-AE),展开低资源词性标注实验.基于对前人工作的凝练,在英文宾州树库上设置了少样本和词典标注两种低资源场景.[结果]无监督词性标注模型能够在少样本场景中超越条件随机场模型,但在词典标注场景中却始终逊色于条件随机场模型.[结论]无监督损失更加擅长对高频词进行建模,使得模型在少样本场景下获得更好的性能表现;同时无监督损失倾向于生成更加均匀的词性分布,从而降低模型在词典标注场景下的性能.  相似文献   

5.
中文分词是中文信息处理的前提和基础.文章综合基于词典的分词方法和统计的分词方法的优点,旨在提出一种基于词性标注与分词消歧的中文分词方法,针对初次分词结果中的歧义集进行对比消歧.利用正向、逆向最大匹配方法以及隐马尔可夫模型进行分词,得到三种分词结果中的歧义集.基于词信息对歧义集进行初次消歧.通过隐马尔可夫模型标注词性,利用Viterbi算法对每种分词结果选取最优词性标注.并基于定义的最优切分评估函数对歧义集进行二次消歧,从而获得最终分词.通过实验对比,证明该方法具有良好的消歧效果.  相似文献   

6.
词性标注是词法分析的基础.HMM是一个数学模型,具有算法成熟、效率高、易于训练的优点;负反馈是一个控制模型,在规则中引入负反馈,可以增强规则的客观性.本文探讨了两个模型,然后将它们应用于词性标注中.实验结果表明两者的结合是有效的和成功的.  相似文献   

7.
自然语言处理作为人工智能领域的一个重要分支,随着计算机信息处理技术的发展,已经取得较大进展.但是古汉语信息处理研究却相对滞后.本研究选择编年体体裁的《明史》作为研究语料,通过交叉检验方法比较了基于条件随机场的三种图模型(无边图模型、完全图模型以及嵌套图模型)在古汉语词性标注中的应用,发现完全图模型和嵌套图模型在《明史》的词性标注中的效果优于无边图模型,分词(Word Segmentation)在一定程度上可以提高古汉语词性标注的效率.另外,还发现基于条件随机场的图模型在分词前后对测试集中未登录词的词性标注效果均比较低.  相似文献   

8.
中文嵌套命名实体识别是自然语言处理中一个比较困难的问题.针对传统的序列化标注方法的不足,本文提出了一种新的基于联合模型的中文嵌套命名实体识别方法,该方法将嵌套命名实体识别看作是一种联合切分和标注任务.联合模型用一种改进的beam search算法作为系统的解码算法,并采用一种在线学习算法平均感知器算法作为训练算法,获得了较快的收敛速度和较好的识别效果.实验结果表明基于联合模型的方法对嵌套命名实体识别取得了更好的效果.  相似文献   

9.
文章从一阶隐马尔科夫模型(HMM)的定义及其基本问题出发,把词性自动标注描述成HMM模型的一个应用,并给出了语料库中统计计算各个模型参数的方法,其中对词性序列的检测和最佳词性序列的生成方面进行了较详细的描述和研究。  相似文献   

10.
借鉴并利用基于短语的因子化机器翻译方法,结合基于隐马尔科夫模型的词性标注系统实现了蒙古文的自动词性标注.首先使用基于短语的因子化机器翻译方法对词表词进行标注,然后用基于隐马尔科夫模型的词性标注方法对生词进行标注.实验结果表明,采取的蒙古文词性标注方法的准确率达到97.91%.最后,将该方法标注的词性融入到蒙汉统计机器翻译系统后,译文质量有了较大提高,进一步证明该方法的有效性和实用性.  相似文献   

11.
陈鄞  Yang  Muyun  Zhao  Tiejun  Yu  Hao  Li  Sheng 《高技术通讯(英文版)》2005,11(4):346-350
Hidden Markov Model(HMM) is a main solution to ambiguities in Chinese segmentation anti POS (part-of-speech) tagging. While most previous works tot HMM-based Chinese segmentation anti POS tagging eonsult POS informatiou in contexts, they do not utilize lexieal information which is crucial for resoMng certain morphologieal ambiguity. This paper proposes a method which incorporates lexieal information and wider context information into HMM. Model induction anti related smoothing technique are presented in detail. Experiments indicate that this technique improves the segmentation and tagging accuracy by nearly 1%.  相似文献   

12.
为了扩大人工标注数据的规模, 从而提高模型性能, 尝试充分利用已有的异构人工标注数据训练模型参数。将Li等2015年提出的耦合序列标注方法扩展到基于BiLSTM的深度学习框架, 直接在两个异构训练数据上训练参数, 测试阶段则同时预测两个标签序列。在词性标注、分词词性联合标注两个任务上进行大量实验, 结果表明, 与多任务学习方法和传统耦合模型相比, 神经耦合模型在利用词法异构数据方面更优越,在异构数据转化和融合两个场景上都取得更高的性能。  相似文献   

13.
针对实际应用中语言模型应该占用更小存储空间且加载速度快等需求,采用最大熵模型进一步研究了汉语词性标注中设定的特征模板集和训练后模型大小、标注精度等指标之间的关系,并在国际汉语分词评测Bake off2007的PKU、NCC、CTB三种语料上进行了对比实验.实验结果表明,双词语组合特征模板大大增加了训练后模型的大小,对汉语词性标注精度却没有提高,而基于单个词语特征模板训练后的模型大小不足原先大小的1/5,标注精度却没有下降.  相似文献   

14.
相似词分析是自然语言处理领域的研究热点之一,在文本分类、机器翻译和信息推荐等领域中具有重要的研究价值和应用意义。针对新浪微博短文本的特点,给出一种带词性的连续词袋模型(POS-CBOW)。该模型在连续词袋模型的基础上加入过滤层和词性标注层,对空间词向量进行优化和词性标注,通过空间词向量的余弦相似度和词性相似度来判别词向量的相似性,并利用统计分析模型筛选出最优相似词集合。实验表明,基于POS-CBOW语言模型的相似词分析算法优于传统CBOW语言模型。  相似文献   

15.
40000 new entries are added to CiLin in knowledge engineering. Statistics are presented about the sense ambiguity of Chinese words in CiLin. An automatic solution is proposed for the problem of Chinese sense disambiguation, which utilizes the heuristics of part-of-speech tagging and Naive Bayesy classification based on a partially disambiguated corpus.  相似文献   

16.
为实现软件的自适应,针对复杂多变的运行环境,提出一个基于隐Markov模型(HMM)的自适应软件决策模型.首先运用高斯混合模型(GMM)对初始环境进行分类,然后使用softmax回归对感知环境进行归类划分处理,最后利用HMM代替人工干预进行软件决策.实验结果表明,该自适应软件模型在感知环境发生变化的条件下,能很好地实现软件自适应决策.  相似文献   

17.
基于LSTM的中文文本分类方法能够正确地识别文本所属类别,但是其主要关注于学习与主题相关的文本片段,往往缺乏利用词语其他方面的信息,特别是词性之间的隐含的特征信息。为了有效地利用词语的词性信息以便学习大量的上下文依赖特征信息并提升文本分类效果,提出了一种结合词性信息的中文文本分类方法,其能够方便地从词语及其词性中学习隐式特征信息。利用开源数据并设计一系列对比实验用于验证方法的有效性。实验结果表明,结合词性信息的基于注意力机制的双向LSTM模型,在中文文本分类方面的分类效果优于常见的一些算法。因此识别文本的类别不仅与词语语义信息高度相关,而且与词语的词性信息有很大关系。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号