首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
运用语料库语言统计方法对中文文中自动查错的有关问题进行探讨,运用词二元接续关系进行查错,主要依据词二元同现概率,互信息,t-测试差,其中,t-测试差是首次被应用于查错。  相似文献   

2.
近些年来语料库语言学的发展较为迅速,语料库的建设成为一项重要的工作.在对语料加工的过程中,保证词性标注的一致性也成为建设高质量语料库的重要问题.目前国内外对汉语语料库词性标注结果的校对,还停留在人工校对上,对词性标注结果不一致现象尚未进行系统的研究.对于词性标注方法不是很成熟的维吾尔语语料库来说,词性校对方面的研究工作更少.首先概要介绍了一种维吾尔语的标注方法,并受一些文献的启发,根据维吾尔语的特点对其进行词性标注自动校对的研究,并分析其适用于维吾尔语词性校对的可行性,进而提高维吾尔语词性标注的正确率.  相似文献   

3.
为了进一步提高中文语料库中语料的词性标注效率,在分析最大熵模型(MEM)和隐马尔科夫模型(HMM)所涉及理论、算法及其在中文词性标注技术中的应用的基础上,进行了基于MEM和HMM的中文词性标注实验.实验结果显示,基于MEM和HMM的中文词性标注算法都获得了一致性很好且覆盖率较高的标注效果,中文词性标注的准确率、召回率和F1这3个指标均达到92%以上;MEM的标注效果总体上比HMM的稍佳.  相似文献   

4.
针对中文分词、词性标注等序列标注任务,提出结合双向长短时记忆模型、条件随机场模型和马尔可夫族模型或树形概率构建的中文分词和词性标注联合方法。隐马尔可夫词性标注方法忽略了词本身到词性的发射概率。在基于马尔可夫族模型或树形概率的词性标注中,当前词的词性不但与前面词的词性有关,而且与当前词本身有关。使用联合方法有助于使用词性标注信息实现分词,有机地将两者结合起来有利于消除歧义和提高分词、词性标注任务的准确率。实验结果表明:本文使用的中文分词和词性标注联合方法相比于通常的双向长短时记忆模型-条件随机场分词模型能够大幅度提高分词的准确率,并且相比于传统的隐马尔可夫词性标注方法能够大幅度提高词性标注的准确率。  相似文献   

5.
借鉴并利用基于短语的因子化机器翻译方法,结合基于隐马尔科夫模型的词性标注系统实现了蒙古文的自动词性标注.首先使用基于短语的因子化机器翻译方法对词表词进行标注,然后用基于隐马尔科夫模型的词性标注方法对生词进行标注.实验结果表明,采取的蒙古文词性标注方法的准确率达到97.91%.最后,将该方法标注的词性融入到蒙汉统计机器翻译系统后,译文质量有了较大提高,进一步证明该方法的有效性和实用性.  相似文献   

6.
基于对中文Deep Web查询结果的词性分析,提出一种基于中文词性和领域知识的Deep Web语义标注方法.借助中文分词工具得到Deep Web查询结果的词性,并根据词性或词性组合与语义建立映射规则,同时结合领域知识进行语义标注.实验表明,该方法能够在多个领域对Deep Web查询结果进行正确的语义标注,从而验证了该方法的有效性.  相似文献   

7.
为了进一步提高中文语料库中语料的词性标注效率,在分析最大熵模型(MEM)和隐马尔科夫模型(HMM)所涉及理论、算法及其在中文词性标注技术中的应用的基础上,进行了基于MEM和HMM的中文词性标注实验.实验结果显示,基于MEM和HMM的中文词性标注算法都获得了一致性很好且覆盖率较高的标注效果,中文词性标注的准确率、召回率和F1这3个指标均达到92%以上;MEM的标注效果总体上比HMM的稍佳.  相似文献   

8.
根据维吾尔语黏着型的特点,以及形态化单词和频率进行统计分析之后的结果,为解决因单词形态而导致的数据稀疏问题和兼类词标注的问题,提出了维吾尔文的融合词干、词缀等形态特征的基于最大熵的词性标注模型。在通用的词性标注模型的基础上,构造了相应的词性标注特征模版,并设计了它的特征函数。实验结果分析表明,最大熵模型可以较好地处理维吾尔文词性标注的问题,其中词缀特征对提高兼类词和未登录词的词性标注有着十分显著的效果,与其他只用词形的词性标注系统相比准确率比以前提高了2.64%,达到了96.85%。  相似文献   

9.
英语动词性语义研究可以从四个方面进行:研究名词的动词性语义,剖析形容词的动词性语义,探讨副词的动词性语义,阐述倒序性动词和否定性动词的语义内涵.  相似文献   

10.
针对隐马尔可夫(HMM)词性标注模型状态输出独立同分布等与语言实际特性不够协调的假设,对隐马尔可夫模型进行改进,引入马尔可夫族模型。,该模型用条件独立性假设取代HMM模型的独立性假设。将马尔可夫族模型应用于词性标注,并结合句法分析进行词性标注。用改进的隐马尔可夫模型进行词性标注实验。实验结果表明:与条件独立性假设相比,独立性假设是过强假设,因而基于马尔可夫族模型的语言模型更符合语言等实际物理过程;在相同的测试条件下,马尔可夫族模型明显好于隐马尔可夫模型,词性标注准确率从94.642%提高到97.126%。  相似文献   

11.
一个改进的汉语词性标注系统   总被引:5,自引:0,他引:5  
汉语词性标注的难点在于确定具有多个词类的词(兼类词)在上下文中的词性。基于兼类词在词典中仅占很小的比例(约为3%),提出了具有双重状态的隐马尔可夫模型,它不但有一个常规的状态转移概率矩阵,还在逻辑上为每个具有多个词类的词保留一个专有的状态转移概率矩阵,使模型从一个状态转移到另一个状态的概率不再和观察无关,提高了模型的精确性。  相似文献   

12.
在藏文文本理解中虚词发挥着重要的句法、语义桥接作用,其规则的有效性在藏文分词处理中扮演着特殊的角色。由于虚词本身及其角色的丰富性,在一定意义上可以说藏文分词处理是虚词识别的过程。因此,虚词识别的正确与否直接影响着藏文文本分词处理的效果。文章依据藏语自身的语法规律和虚词功能的特殊性,首先构建了虚词知识库、虚词兼类库,以及其作为藏文连续文本中识别虚词的依据;其次,研制了标有词汇属性的分词词表和一定规模的训练语料库资源,以基于条件随机域(CRF)的方法进行词性标注,并结合虚词和词性赋码的资源制作了藏文自动分词赋码一体化处理的模型。  相似文献   

13.
在对蒙古语语法信息进行研究的基础上,设计了蒙古语单词词性自动识别系统.介绍了词性识别所需要的知识库及识别系统的设计和实现方法.  相似文献   

14.
在文档词汇衔接评价LC方法的基础上, 提出基于权重的LC, 即WLC, 该方法通过在文档词图上运行PageRank算法获得词汇权重。根据词性信息使得PageRank算法偏向特定的词汇, 并提出PWLC方法。实验表明, 在文档级别上, 所提出的两种方法与人工评价的相关度都优于LC; 融合两种方法后, BLEU和TER在文档级别上的评价性能有显著提高。  相似文献   

15.
文章以维吾尔文为对象,提出了一种汉维对齐的维文语料库获取方法,通过对照汉维特点,首先对维文进行词干切分,并在此基础上借助词干表和词频表进行词性标注,然后对汉维进行对齐,从而实现汉维双语语料库的获取,对维文及其他少数民族语言的分析及研究提供一种可行的方法.  相似文献   

16.
研究构建领域情感本体,显式描述产品与产品部件、产品与产品属性之间的语义关系;设计词性模式匹配方法提取特征词和情感词的固定搭配,并采用评论句的极性标签结合否定词典,逆向推测搭配组合的情感极性,建立特征词与情感词的关联关系;进一步设计本体节点匹配规则进行情感分析,提高对电商网站评论文本情感分析的性能. 实验结果表明,领域情感本体的构建有利于消除情感词的领域依赖性及识别评论中的隐性特征.   相似文献   

17.
利用1797品质规范检验现役某第三代战斗机飞行品质过程中,在确定瞬时峰值比、上升时间时,认为通过利用高阶系统传递函数求出的时间响应特性得出的结果更合理;提出了一种利用优化技术确定尼尔一史密斯准则的方法,取得了满意的效果;通过把计算与所反映的飞机实际飞行品质进行比较,发现该规范对短周期飞行品质的某些要求过严,应用时需做某些具体指导和调整。  相似文献   

18.
基于知网的语义相关度计算   总被引:24,自引:0,他引:24  
为解决句法分析中的结构性歧义,引入了语义相关度计算.基于语义相似度计算及知网的语义信息,提出了语义相关度计算方法;利用知网的义原纵向与横向关系及实例信息计算不同词性的相关度.在计算义原距离时,考虑了义原之间的解释关系,对义原的距离进行修正.根据相似度的对称性,计算实例的影响因素提高了相关度的准确率.实验结果表明,使用该计算方法得出的语义相关度结果更加合理.  相似文献   

19.
提出了一种基于支持向量机的中文新词识别算法.该算法结合新词内部模式以及词长等提出了基于词内部模式的改进字符位置似然概率,并综合新词的邻接类别等特征对新词进行识别.经过小说语料测试,实验结果表明:该算法的微F1值为0.583 3,宏F1值为0.775 7,分别比不考虑词内部模式的基准算法提高约63%和30%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号