首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
利用自然语言理解技术进行古汉语断句及句读标注的主要挑战是数据稀疏问题.为了解决这一难题,设计了一种六字位标记集,提出了一种基于层叠式条件随机场模型的古文断句与句读标记方法.基于六字位标集,低层模型用观察序列确定句子边界,高层模型同时使用观察序列和低层的句子边界信息进行句读标记.实验在5 M混合古文语料上分别进行了封闭测试和开放测试,封闭测试断句与句读标注的F值分别达到96.48%和91.35%,开放测试断句与句读标注的F值分别达到71.42%和67.67%.  相似文献   

2.
区分单句与复句有两个最重要的方法:一是分析结构中心;二是分析结构体系。结构中心是指句子的主谓结构,单句只有一套主谓结构,复句有两套以上的主谓结构;逻辑关系是指词与词、短语与短语、分句与分句之间意义上的联系。而界定谓语中心语的统辖区间,区分紧缩句与连动句的不同,注意关联词与兼类词的语法功能,注意标点的运用,则有助于我们正确区分单句和复句。  相似文献   

3.
针对汉语句际关系中分布最广泛的并列复句, 提出一种自动识别的方法。通过对句子语义相似度和结构相似度的计算, 使用基于词义的句子相似度计算、最大公共子串、最大谓词周边匹配长度、加重特定词语复现等方法, 在广义并列关系上进行评测。最后将其中3种方法进行集成, 并取得了较为理想的效果。  相似文献   

4.
李琼 《皖西学院学报》2011,27(1):108-110
为了建设一个面向中文信息处理的大规模复句"精加工"语料库,首先要完成自动分词和词性标注工作,在此基础上进行分句层次和关系的自动划分和标注。由于标点符号是最直观而明晰的断句标记,我们编制的初始程序让计算机一"碰到"标点符号就把它前后的语言片段都判定为分句。这就为今后基于句法和语义知识的非分句识别奠定了良好的基础。  相似文献   

5.
抽象语义表示(AMR)是一种新型的句子语义表示方式.中文AMR在英文AMR的基础上,针对汉语特点,增加了复句逻辑语义关系的表示.中文AMR以句子为基本标注单位,以层次结构树形式表示各分句间的逻辑关系.由于允许论元共享,因此在树结构基础上形成图结构,从而对复句的语义表示更加完整全面.为了进一步研究中文AMR,对目前复句关系研究现状、复句及篇章关系资源的建设进行了综述,指出目前研究存在的问题,并提出将来工作研究的方向.  相似文献   

6.
采用基于最大熵模型的方法对泰语句子级实体从属关系的抽取方法进行了研究.针对泰语句子中实体关系抽取的研究进程中语料库较为匮乏的问题,首先使用汉泰双语平行句对作为中间桥梁,将中文研究领域中相对成熟的分词、词性标注和实体识别等成果,通过汉泰双语词典映射到与中文句子相对齐的泰语句子上,对泰语句子进行必要的数据处理操作,并进行一定量的人工校正和人工实体关系标注工作;进而构建基础的泰语实体关系训练语料库.在语料库的基础上,将泰语实体关系抽取问题转化为分类问题,同时结合泰语语言本身的特点,选取合适的上下文特征模板,使用最大熵模型算法对训练语料进行学习训练,构建分类器,对泰语句子中的候选实体关系三元组进行识别,最终达到实体间从属关系自动抽取的目的.实验结果显示该方法可使F值相对于已有的泰语实体关系抽取研究方法提升8%左右.  相似文献   

7.
多重复句的分析,是初中语法教学的难点之一。常常可以听到学生提出这样的问题:为什么这四个分句构成一个三重复句,而那四个分句却构成一个二重复句呢?为什么这个多重复句第一个层次在前,第三个层次在中,第二个层次在后,而那个多重复句第一个层次却在后,第三个层次在前呢?这类问题,教师也不易用三言两语解释清楚。现行语文教材和现代汉语书籍介绍的多重复句的分析方法,基本上都是从第一个层次入手,再第二个层次、第三个层次……这样逐层剖析。这种方法,对部分驾驭复杂句子能力较差的学生来说,是较难掌握的。 为了帮助总体分析能力较差的学生正确分析多重复句,我们介绍一种和通常分析步骤相反的方法:先找出仅包含两个分句的关系,在这两个分句上边画上弧线,巳用弧线连接的看成一个整体,再逐步扩展,并画弧线于已有弧线之上,直至整个复句分析完为止;弧线最上的为第一个层次,依次为第二个层次,第三个层次…… 下面举几个例子。 例一:①因为我们是为人民服务的,②所以,我们如果有缺点,,③就不怕别人批评指出。(《为人民服务》)  相似文献   

8.
基于规则库和聚类分析的复句短语字段的自动识别研究   总被引:1,自引:0,他引:1  
复句层次结构与层次关系研究,是一项将中文信息处理由字、词处理阶段提升到句处理阶段的关键性难题.在研究复句层次划分和层次关系之前,首先要确定复句中分句的数量,需要排除其中非完整分句的字段(本文中称之为短语字段).结合语言学的相关理论,首先建立规则库,在此基础上,引入聚类分析法,对短语字段进行分类,最终使短语字段的自动识别率达到92.1%.  相似文献   

9.
对复句内部分句间关系的认识和理解,传统汉语语法理论注重从结构层次、语义特征等方面进行分析,忽视了对分句间关系的本质属性和逻辑意义的认识。其实,复句作为一种语言形态,是思维活动的载体,也是思维活动的物质表现形式,同样受到全人类共同的思维规律和逻辑方法的制约;只有在结构、语义层面的认识基础上,进一步从复句内部分句间诸关系中确定本质属性的关系,正确理解关联词语的逻辑意义,才能真正认识和掌握复句内部分句间多元关系中的内在联系。  相似文献   

10.
规则解析器作为现代汉语复句关系词自动识别系统中的一个重要的功能模块,其主要功能是先利用复句准关系词去匹配规则库中的规则,然后对匹配成功的规则进行解析,最后调用该规则并提取规则的结论对复句关系词进行识别.因此规则的成功匹配是能够进行规则解析的首要条件.但是,在对规则库中的句式规则表和连用句式规则表进行匹配解析时,由于复句准关系词的多样性和重复性,造成了匹配的复杂性,使得无法利用传统的匹配算法去匹配规则.因此,该文研究了一种"包含匹配算法",该算法是先用一个二维数组将复句准关系词序列在复句中的下标依次存储,然后在该二维数组中寻找可能匹配的子串序列.该算法的最大优点是既不需要实现完全匹配和回溯,还可以包含模式串的所有子串,能够得到所有的目标子串,实验结果表明,该算法在排除规则的不完备性和分词的错误之后,正确率可以达到100%.  相似文献   

11.
汉语复句本体模型初探   总被引:7,自引:0,他引:7  
汉语的句子从结构上可以划分为单句和复句两大类,复句的意义容量比一般单句大,常表示人和人、事和事及人与物的逻辑意义关系.而复句一般由分句构成,各分句单独从其结构上看实际上就是小句.本文详细分析了复旬的静态结构及它与汉语小句的关系,在通过面向对象本体建模方法构造出的小句元模型的基础之上,初步探讨了复句静态本体模型.复句静态本体模型为中文信息处理从字、词处理级提升到句处理级及句处理级以上的研究提供了基础.  相似文献   

12.
基于藏文La格(??????)例句的自动分类在藏语自然语言处理领域的重要性,根据藏文La格的用法和添接规则,在对藏文La格例句进行分类并定义分类概念的基础上,提出一种融合双通道音节特征的藏文La格例句自动分类模型.该模型首先使用word2vec和Glove构建双通道藏文音节嵌入,分别在每路卷积中融合双通道音节特征,丰富...  相似文献   

13.
文章从语意、结构独立性及其造句功能、语气等方面考察两大类被动式的特点,文章认为,一类重在客观性叙述,强调客观事实,且多是已然之事,即使是末然之事,亦非主观意愿,它的独立性及其造句功能较强,可独立成句,也可充当句子成份,可带补,宾语,也可接受状语修饰,除不用于目的句及极少用于选择句外,可带补、宾语、也可接爱状语修饰,除不用于目的句及极少用于选择句外,可用于其他任何复句;语气多为确定不移或确认语气,也可用疑问或反问语气;一类重在主观性陈说,强调主观意愿,绝非客观事实;它的独立性及其造句功能较差,不能独立成句,一般只能用于假设句,目的句及让步句中,不能用于其他语境,语气多为祈使语气。  相似文献   

14.
针对汉语比较句的自动识别, 提出一种基于句法语义规则的方法。将比较标记和比较结果做为识别比较句的关键因素, 归纳汉语比较句的类别, 书写比较句识别规则, 同时设计4个模型进行分类识别。实验结果表明, 规则系统可以有效地实现汉语比较句的句法分析和自动识别, 为比较关系的抽取打下良好的基础。  相似文献   

15.
思维决定言语形式。不同的心境,有不同的心理活动方式,反映在言语形式上,主要是句子的长短和语序的调度,就必然是各不相同的。鲁迅作品诸多短句现象多可以从这一语言学原理得到合理解释。汉语节律规律也是造成鲁迅作品短句现象的原因之一。实现短句化的手段主要有易位、话题化、破句、小句平列、小句分述等。  相似文献   

16.
岩土工程反分析的最大熵原理   总被引:7,自引:0,他引:7  
以概率与数理统计理论和现代信息理论为基础,针对目前岩土工程随机反演中常用的极大似然法和贝叶斯法,从随机过程入手,应用最大熵原理推导了这两种方法的准则函数,它的理论意义在于,从数据信息的角度对极大似然反分析法和贝叶斯反分析法进行了重新认识,比过去仅从数据和算法本身研究反演问题多了一个参照系,使得对传统意义上反分析法中的不确定性研究有了一个新的模式。  相似文献   

17.
IT英语文本中通常大量使用结构复杂、难以理解的长句,这是理解和翻译IT英语的一大难关。由于英汉思维习惯和表达方式的差异,改变语序、重组结构成为翻译中的常用手段。在翻译IT英语中的长难句子时,可以视具体情况采用包孕法、切断法、倒置法、拆离法、插入法以及重组法。  相似文献   

18.
藏语句子边界识别是一项重要的基础性工作,它的准确率直接影响藏语句法分析、汉藏(或藏汉)平行语料库和藏汉(或汉藏)机器翻译等的研究工作。文章通过分析藏文文法知识,提出了一种比较简单而实用的词性规则法,其主要思想是:单垂符或双垂符的前后词性来判断句子是否结束。经测试,文章提出的藏语句子边界识别方法在文学类、诗歌类、医学类和新闻类等536句藏语语料中句子边界的识别准确率达到96.37%。  相似文献   

19.
不少学者认为短语与句子之间是“实现关系”,结构规则具有很强的一致性。但是各类短语成句能力存在一定的差异,有的短语可以自主成句,还有的短语根本不能单独成句,短语能否成句与不同的语气有关。  相似文献   

20.
一种语言里的某一个词或句子格式,译成另一种语言时,一般情况下可以用哪一个词或哪一个句子格式来表达,是存在着一定规律的。符合这些规律翻译的就正确;违反这些规律翻译的就错误。汉译藏也同样,一方面译文要和原文的意思完全相同,另一方面又要符合藏语的语法规范,要使这些句子和字眼是藏族人嘴里可以说得出来的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号