首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
基于依存关系的句法分析统计模型   总被引:5,自引:2,他引:3  
利用语义、语法等语言知识,建立一种基于依存关系的句法分析统计模型,并利用改进的句法分析模型进行句法分析实验.研究结果表明:利用依存关系、互信息对词聚类,能解决模型数据稀疏问题;模型可同时考虑几种语义依存关系;该模型是一个词汇化的句法分析模型,能结合分词、词性标注进行句法分析;概率上下文无关语法中由概率的上下文无关性假设和祖先结点无关性假设引起的问题在该模型中得到有效解决;精确率和召回率分别为86.96%和85.25%,其综合指标F与Collins的头驱动句法分析模型的F相比提高4.75%.  相似文献   

2.
利用语义、语法等语言知识,对中心词驱动的句法分析模型规则进行分解和修改,结合分词、词性标注进行句法分析,提出一种可同时考虑多个语义依存关系的模型.利用互信息给出基于邻接关系、语义依存关系的2种词相似度定义,提出一种自下而上的分层聚类算法,以解决中心词驱动模型数据稀疏问题,用改进的句法分析模型进行句法分析实验.研究结果表明:模型精确率和召回率分别为88.14%和86.93%,综合指标比Collins头驱动句法分析模型的综合指标提高6.09%.  相似文献   

3.
基于“配价”是汉语词语的一个比较本质的特点,一旦1个词语的配价结构确定下来,它应该和怎样的词进行搭配就比较清楚,从而也可以比较直接地导出句子的结构,为此,结合中心词驱动句法分析模型,提出基于配价结构的词汇化句法分析模型,引入丰富的语义信息如语义依存信息和配价结构等语义搭配信息,并用改进的句法分析模型进行句法分析实验.实验结果表明:模型的精确率和召回率分别为88.65%和87.26%,综合指标F与Collins的中心词驱动句法分析模型的相比提高6.51%.  相似文献   

4.
句法分析是自然语言处理的一个基本问题,随着大规模标注树库的建立,基于树库的统计句法分析逐渐成为现代句法分析的主流技术。在介绍句法分析树库及句法分析性能评测方法的基础上,对主要句法分析统计模型和中文句法分析的研究现状进行简要综述和分析,并探讨和总结了基于统计的句法分析模型的不足之处和发展趋势,指出现有的汉语句法分析方法不适合汉语的特点,没有有效刻画出汉语的本质特性,导致目前汉语句法分析性能与英语相比相差较大;将语义信息融入句法分析,并在此基础上建立句法分析与语义角色标注联合学习统计模型,将是句法分析的一个重要研究方向。  相似文献   

5.
针对句法分析中细粒度和粗粒度组块识别模型的冲突问题, 为解决句法分析中词语搭配规则多、减少搭配优先级变动的影响, 提出一种结合条件随机场(CRF)和多元规则的层次化句法分析模型. 先利用CRF算法识别细粒度语句的组块标记序列, 然后结合统计和多元规则识别粗粒度组块, 在识别出的组块中层层引入不同优先级的二元、三元规则. 该模型实现了同时进行细粒度和粗粒度组块的识别, 可更好地服务于句法分析. 在Chinese TreeBank8.0(CTB8.0)语料上采用5-折交叉验证, 结果表明, 相比于仅使用二元、 三元规则及使用CRF+二元规则的句法分析, 该模型的正确率分别约提高12%,3%,5%, 验证了该模型有效性和稳定性.  相似文献   

6.
针对句法分析中细粒度和粗粒度组块识别模型的冲突问题, 为解决句法分析中词语搭配规则多、减少搭配优先级变动的影响, 提出一种结合条件随机场(CRF)和多元规则的层次化句法分析模型. 先利用CRF算法识别细粒度语句的组块标记序列, 然后结合统计和多元规则识别粗粒度组块, 在识别出的组块中层层引入不同优先级的二元、三元规则. 该模型实现了同时进行细粒度和粗粒度组块的识别, 可更好地服务于句法分析. 在Chinese TreeBank8.0(CTB8.0)语料上采用5-折交叉验证, 结果表明, 相比于仅使用二元、 三元规则及使用CRF+二元规则的句法分析, 该模型的正确率分别约提高12%,3%,5%, 验证了该模型有效性和稳定性.  相似文献   

7.
为有效解决数据的稀疏性问题,并考虑句法预测的内在层次性,提出了一个基于双向长短时记忆(bidirectional long short term memory,BLSTM)神经网络模型的渐步性句法分析模型.该模型将树形概率计算方法应用到对句法标签分类的研究中,利用句法结构和标签之间的层次关系,提出一种从句法结构到句法标签的渐步性句法分析方法,再使用句法分析树来生成句法标签的特征表示,并输入到BLSTM神经网络模型里进行句法标签的分类.在清华大学语义依存语料库上进行实验的结果表明,与链式概率计算方法以及其他依存句法分析器比较,依存准确率提升了0~1个百分点,表明新方法是可行、有效的.  相似文献   

8.
自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向,其中信息抽取是近年来新兴起的一个研究领域.由于汉语自身结构松散、语法语义灵活等特点,使得中文文本中信息抽取具有较大的难度.本文提出句法分析和隐马尔科夫模型相结合的事件属性抽取方法,其主要思想是先利用句法分析对中文文本进行分析,将得到的句法结构交给隐马尔科夫模型进行学习得到一个抽取模型,然后再由此模型对中文文本进行抽取.实验表明,该方法具有较高的准确率和召回率.  相似文献   

9.
语法的三个平面的研究,形成了"结合论"和"包含论"两个不同的研究倾向."结合论"者把语法同语义、语用相并立,坚持语法的独立性或句法的纯洁性;"包含论"者认为语法中包含着句法的、语义的、语用的内容,应从句法、语义、语用这三个方面来对语法进行研究.关于是"句法"还是"语法"的看法,这绝不是一字之差的小问题,它导致了语法本体论的不同,并由此形成了不同的方法论,形成了不同的语法体系.  相似文献   

10.
藏语自然语言处理研究藏语词法分析、句法分析、语义分析及语用分析,对藏语机器理解以及机器翻译提供理论基础.在构成藏语句子的各类成分中,语动词占有非常重要的地位,对藏语句法分析起决定性作用.文章对藏语动词从所含音节个数和语法特征两方面进行了分类,给出了藏语动词分布统计模型和统计算法,在含101669条词的藏语语料中分类统计了藏语动词分布,描述了藏语动词的分布特征.  相似文献   

11.
Introduction Although the word trigram dominates the statistical language modeling community, it still has some short- comings. For example, the word trigram cannot make use of the rich linguistic structure of the language, nor can it capture long-distanc…  相似文献   

12.
考虑到句法结构与语义结构之间的紧密联系, 尝试将句法信息融入UCCA语义分析模型中来增强语义分析的性能。基于目前性能最好的基于图的 UCCA语义分析模型, 提出并比较4种不同的融入依存句法信息的方法。采用SemEval-2019国际评测语义分析任务的英文数据集进行实验, 在本领域和跨领域两个数据集上的结果均表明, 句法增强的方法能够给显著地提高UCCA分析性能。引入BERT特征后, 句法信息仍然可以提供一定的帮助。  相似文献   

13.
句子相似度计算是自然语言处理的一项基础任务,其准确性直接影响机器翻译、问题回答等下游任务的性能。传统机器学习方法主要依靠词形、词序及结构等浅层特征计算句子相似度,而深度学习方法能够融入深层语义特征,从而取得了更好效果。深度学习方法如卷积神经网络在提取文本特征时存在提取句子语义特征较浅、长距离依赖信息不足的缺点。因此设计了DCNN (dependency convolutional neural network)模型,该模型利用词语之间的依存关系来解决该不足。DCNN模型首先通过依存句法分析得到句子中词语之间的依存关系,而后根据与当前词存在一跳或者两跳关系的词语形成二元和三元的词语组合,再将这两部分信息作为原句信息的补充,输入到卷积神经网络中,以此来获取词语之间长距离依赖信息。实验结果表明,加入依存句法信息得到的长距离依赖能有效提升模型性能。在MSRP (microsoft research paraphrase corpus)数据集上,模型准确度和F1值分别为80.33%和85.91,在SICK (sentences involving compositional knowledge)数据集上模型的皮尔森相关系数能达到87.5,在MSRvid (microsoft video paraphrase corpus)数据集上模型的皮尔森相关系数能达到92.2。  相似文献   

14.
IntroductionMuch recent research on statistical parsers hasfocused on English.English has a large syntacticcorpus,the English UPenn Treebank.Everysentence in this corpus corresponds to a syntacticstructure[1] .Many kinds of parsers for Englishhave been developed based on this corpus[2 4 ] .Thestructure of the Chinese language is quite differentfrom English and there have been only a fewefforts to build syntactic corpora in recent years.Two syntactic corpora were just announced in2 0 0 0 ,t…  相似文献   

15.
在扩展巴克斯范式(EBNF)Earley分析的基础上, 提出一个语义分析器的自动生成算法, 给出了一个带有语义动作的扩展文法和一个输入, 即可生成其语义分析器. 通过执行语义动作, 就可以进行类型检查、 中间代码生成及优化等相关工作, 使得该算法成为完整的扩展文法分析技术, 并在实际运用中成为可能.  相似文献   

16.
在Bigram语言模型建模过程中,语言被看作符号集序列,没有考虑语言本身具有的语法和语义结构特征,虽然在线的文本训练数据迅速增长,但语言模型的性能却再获得大幅度的提高,基于统计方法语言建模的基本原理,提出了一种结合Bigram和主题依存特征的中文语言建模方法,初步实验结果表明,该方法可有效地补充Bigram模型提取特征的不足,通过提取远距离主题依存特征降低了语言模型的分支度。  相似文献   

17.
In this paper, we present a modular incremental statistical model for English full parsing.Unlike other full parsing approaches in which the analysis of the sentence is a uniform process,our model separates the full parsing into shallow parsing and sentence skeleton parsing. In shallow parsing, we finish POS tagging, Base NP identification, prepositional phrase attachment and sub-ordinate clause identification. In skeleton parsing, we use a layered feature-oriented statistical method. Modularity possesses the advantage of solving different problems in parsing with corre-sponding mechanisms. Feature-oriented rule is able to express the complex lingual phenomena at the key point if needed. Evaluated on Penn Treebank corpus, we obtained 89.2 % precision and 89.8% recall.  相似文献   

18.
综合考虑关键词、词向量及句法结构对句子相似度计算的影响,将平滑逆频率(smooth inverse frequency,SIF)与依存句法相结合以提高句子相似度计算的精准性。SIF的核心思想为利用加权和去除非信息噪音得到的句向量来计算句子相似度。借助哈尔滨工业大学的语言技术平台,将句子的结构信息添加到句子相似度计算中,通过句子中"词语依存关系"三元组的相似性来度量句子间的相似度。实验结果表明,基于SIF和依存句法的句子相似度计算方法所得的反映准确率和召回率平衡度的指标为84. 4%,与同类的句子相似度计算方法相比,能更为有效衡量句子间的相似程度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号