首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
针对句法分析中细粒度和粗粒度组块识别模型的冲突问题, 为解决句法分析中词语搭配规则多、减少搭配优先级变动的影响, 提出一种结合条件随机场(CRF)和多元规则的层次化句法分析模型. 先利用CRF算法识别细粒度语句的组块标记序列, 然后结合统计和多元规则识别粗粒度组块, 在识别出的组块中层层引入不同优先级的二元、三元规则. 该模型实现了同时进行细粒度和粗粒度组块的识别, 可更好地服务于句法分析. 在Chinese TreeBank8.0(CTB8.0)语料上采用5-折交叉验证, 结果表明, 相比于仅使用二元、 三元规则及使用CRF+二元规则的句法分析, 该模型的正确率分别约提高12%,3%,5%, 验证了该模型有效性和稳定性.  相似文献   

2.
本文提出一种CRF和基于转换错误驱动相结合的中文浅层句法分析方法.该方法应用于宾州大学中文树库,取得不错的组块识别效果.在CRF识别的基础上,对初始识别结果中的组块标注信息进行统计分析,获得候选转换规则集合;再根据定义的规则评价函数对候选集进行筛选,得到最终的转换规则集合;最后应用转换规则集对CRF标注的结果进行校正....  相似文献   

3.
组块分析是浅层句法分析的典型任务,但目前的研究大多集中于组块边界识别和组块句法功能研究,缺少对组块内部关系的分析.采用基于规则的多结构融合方法进行块内关系分析,即将规则集与有限状态自动机、树结构、网格结构以及搭配知识进行有效融合,分析结果以三元组的形式表示.以宾州中文树库中gold standard数据集的共计2005...  相似文献   

4.
针对英汉机器翻译中的长句预处理问题,提出一种基于依存句法分析和序列标注的英文长句分割方法,分别采用基于依存句法分析的规则匹配与基于条件随机场的序列标注分割方法,进行粗粒度和细粒度分割,共同完成对长句的分割工作.实验结果表明,基于长句分割的机器翻译方法取得了较好的效果.  相似文献   

5.
助词"的"用法自动识别研究   总被引:1,自引:0,他引:1  
在“三位一体”虚词用法知识库的基础上, 分别采用基于规则、基于CRF模型和神经网络模型的门循环单元, 对助词“的”用法进行自动识别, 识别的准确率分别为 34.4%, 77.5%和81.3%。在对助词“的”用法进行分析的基础上, 合并了部分用法, 并采用CRF模型和神经网络模型进行粗粒度用法识别, 准确率分别达到81.8%和 84.5%, 得到较明显的提高。期望识别结果可以应用于其他自然语言处理任务中。  相似文献   

6.
针对目前中文医疗机构名识别问题,提出一种基于层叠条件随机场模型的中文医疗机构名识别方法;该方法第一层条件随机场(CRF)模型基于词粒度,结合自定义词典,实现人名、地名以及简单机构名识别,将最终的结果传递到第二层CRF模型;第二层CRF模型通过词性、词界以及上下文等特征最终完成对复合嵌套的医疗机构名实体的识别。结果表明:在封闭实验中,该方法识别正确率达到94.6%,召回率达到96.2%;在开放实验中,该方法识别正确率达到92.3%,召回率达到90.2%。本文模型相比于结合规则的单层CRF模型,F值分别提高1.99%、2.8%,总体结果得到显著改善。  相似文献   

7.
部分句法分析是近年来出现的一个新的语言处理策略,它的主要任务是组块的识别和分析。本文详细地介绍了九十年代以来国内对汉语部分句法研究的方法以及研究动态。指出统计与规则相结合的特点是汉语部分句法分析研究的新趋势。  相似文献   

8.
动词与动词搭配类型的自动标注方法   总被引:1,自引:0,他引:1  
自动句法分析是中信息处理的重要环节,而在自动句法分析中,词语搭配关系的分析是关键.动词是汉语中常见的一种词性,所以动词搭配关系的确定便显得尤为重要.本在统计了动词-动词搭配中各关系类型的分布特征以及搭配词语的位置分布特征的基础上,运用统计模型、搭配类型标注规则,识别语料中的动词-动词搭配类型.  相似文献   

9.
CRF与规则相结合的中文地名识别   总被引:2,自引:0,他引:2  
采用递增式学习策略优化条件随机域(conditional random fields,CRF)的特征模板以提高中文地名的识别效果,结合语言学相关知识构建规则库,以弥补机器学习模型获取知识不够全面导致召回率偏低的不足,最终实现了CRF与规则相结合的中文地名识别系统.实验结果表明,采用CRF与规则相结合的方法识别中文文本中的地名是有效的,对Bakeoff2007NER任务的MSRA语料进行开放测试,召回率、精确率和F值分别为94.67%、92.35%和93.50%.  相似文献   

10.
结合一个基于规则的日汉机器翻译系统,给出了自然语言生成规则的一种解释技术.该技术着眼于汉语生成规则语言的表达能力、自然性以及可扩充性,在实现中采用了基于元规则的方法,可以很方便地对规则语言进行扩充;另外,元规则的描述主要采用了自动机模型.所述的原则和技术也适用于一般的基于规则的自然语言处理系统.  相似文献   

11.
基于“配价”是汉语词语的一个比较本质的特点,一旦1个词语的配价结构确定下来,它应该和怎样的词进行搭配就比较清楚,从而也可以比较直接地导出句子的结构,为此,结合中心词驱动句法分析模型,提出基于配价结构的词汇化句法分析模型,引入丰富的语义信息如语义依存信息和配价结构等语义搭配信息,并用改进的句法分析模型进行句法分析实验.实验结果表明:模型的精确率和召回率分别为88.65%和87.26%,综合指标F与Collins的中心词驱动句法分析模型的相比提高6.51%.  相似文献   

12.
商品评论是消费者针对某一个商品的主观议论。针对微博中商品的评论文本短小、结构多样等特征,在仅使用现有的微博级情感标注的条件下,提出了一种基于层叠条件随机场模型。以中文小句中枢说为理论基础,将商品评论的句子划分为若干小句,使用微博内小句序列的各种特征训练粗粒度的随机条件场情感分类模型,同时使用小句内汉字序列的各种特征来训练细粒度的随机条件场情感分类模型。实验结果表明,本文提出的方法优于传统的情感分类方法。  相似文献   

13.
讨论了词类搭配的特点和形式描述问题·提出了一种机器翻译系统中词类搭配规则的自动获取方法,称为CRAM·该方法利用词类的相关性并引入机器学习技术,构造二叉树形式的分类决策树,能够从带有词类和语义标注的语料中获取用于词类有序消岐的搭配规则,与汉英机译系统(CETRAN)的结合应用表明了此方法的有效性·  相似文献   

14.
从类联接、搭配这两个与词汇知识深度相关的关键层面入手,利用中国英语学习者语料库,指出学习者在词汇知识深度上的问题和不足与未能充分掌握常用词在使用时的典型类联接和搭配直接相关(即未能充分掌握词块)。进而认为,英语词汇教学的重点之一应置于词块教学。  相似文献   

15.
提出一种基于条件随机域模型的方法用于中文文本组块分析. 该方法将中文组块分析转化为对每个词语赋予一个组块标注符号, 再根据条件随机域对标注好的训练语料建立模型, 从而预测测试语料中每个词语的组块标注符号. 使用北京大学中文树库的测试结果为F1=85.5%, 高于隐马尔可夫模型和最大熵马尔可夫模型. 实验结果表明, 条件随机域在中文组块识别方面有效, 并避免了严格的独立性假设和数据归纳偏 置问题.  相似文献   

16.
基于关联规则挖掘的汉语语义搭配规则获取方法   总被引:1,自引:0,他引:1  
针对自然语言处理系统在短语分析时的词汇排歧和结构排歧需要,本文提出了一种基于语料库的汉语短语语义搭配规则自动获取方法.该方法以《知网》为语义知识资源,在标注了句法语义信息的汉语短语熟语料库基础上,先采用数据挖掘中元规则制导的交叉层关联规则挖掘方法,自动发现汉语短语的语义搭配规律,再根据统计结果自动优选后生成语义搭配规则库.实验结果表明该方法是切实可行的.运用该方法自动获取的语义搭配规则具有较好的排歧效果.  相似文献   

17.
Chunking by a pigeon in a serial learning task   总被引:3,自引:0,他引:3  
H S Terrace 《Nature》1987,325(7000):149-151
A basic principle of human memory is that lists that can be organized into memorable 'chunks' are easier to remember. Memory span is limited to a roughly constant number of chunks and is to a large extent independent of the amount of informaton contained in each chunk. Depending on the ingenuity of the code used to integrate discrete items into chunks, one can substantially increase the number of items that can be recalled correctly. Newly developed paradigms for studying memory in non-verbal organisms allow comparison of the abilities of human and non-human subjects to memorize lists. Here I present two types of evidence that pigeons 'chunk' 5-element lists whose components (colours and achromatic geometric forms) are clustered into distinct groups. Those lists were learned twice as rapidly as a homogeneous list of colours or heterogeneous lists in which the elements are not clustered. The pigeons were also tested for knowledge of the order of two elements drawn from the 5-element lists. They responded in the correct order only to those subsets that contained a chunk boundary. Thus chunking can be studied profitably in animal subjects; the cognitive processes that allow an organism to form chunks do no presuppose linguistic competence.  相似文献   

18.
基于实验班与对照班两次限时口语测试中的产出性词块,根据使用频率、正确率及多样性3项指标分析情境教学对商务英语高职生口语词块产出能力的影响。结果显示,情境教学对口语词块产出能力的影响具有多层次、多角度和多方位的特征,这是随着情境教学的开展,学习者词块意识增强,借助不同词块的优化组合提高口语表达能力的结果。  相似文献   

19.
利用二值代数的化简法则进行三值组合电路的设计   总被引:1,自引:1,他引:0  
本文用TTL技术讨论三值组合电路的设计。提出了用于输入端口和输出端口的两个三值和二值互相变换的转换器,从而可利用二值代数中的化简法则,使设计出的三值组合电路结构简单,成本降低。本文所用的代数系统简易,基本电路的理论分析和实验证明取得一致,设计举例也已通过HSPICE程序。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号