首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 312 毫秒
1.
根据清华汉语树库的标注方法, 利用规则从中提取复句关系词并标注其类别, 然后分别抽取带功能标记和不带功能标记的自动句法树的句法、词法、位置特征, 进行复句关系词的识别和分类。实验结果表明, 复句关系词判断准确率达95.7%, 复句关系词类别判断F1值为77.2%。  相似文献   

2.
抽象语义表示(AMR)是一种新型的句子语义表示方式.中文AMR在英文AMR的基础上,针对汉语特点,增加了复句逻辑语义关系的表示.中文AMR以句子为基本标注单位,以层次结构树形式表示各分句间的逻辑关系.由于允许论元共享,因此在树结构基础上形成图结构,从而对复句的语义表示更加完整全面.为了进一步研究中文AMR,对目前复句关系研究现状、复句及篇章关系资源的建设进行了综述,指出目前研究存在的问题,并提出将来工作研究的方向.  相似文献   

3.
基于文本的信息隐藏方法是通过对大量汉语句子进行考察和结构分析,抽出以关键词为核心的改写模板,对具有一定结构特点的语句改写。但是经过同义词替换后可能会破坏句子的语言一致性。针对这一缺点,提出了一种语法检测的算法。首先根据语法库统计出词性的可选搭配对进行词性搭配检测是否合理,再检测词语属性的搭配,最后决定是否对词本身有要求进行检测。在C平台下的数值实验表明该检测算法能够有效的处理文本信息隐藏。  相似文献   

4.
基于互信息的宋史语料库词表的提取   总被引:2,自引:0,他引:2  
基于统计语言模型,对《续资治通鉴长编》进行了统计分析.根据互信息特征抽取候选字串,通过人机交互确定其是否构成词,然后动态修正相关字串的互信息值,逐步建立宋史语料库词表.实验中据互信息阈值抽取候选字串6 500个,根据汉语大词典确定是词的有3 694个,占56.8%.结果表明互信息法是建立古汉语语料库词表的有效辅助手段.  相似文献   

5.
在标有复句逻辑语义关系的清华汉语树库上, 研究汉语篇章语义片段自动切分以及篇章关系的自动标注方法。通过比较不同序列标注模型对汉语篇章语义单元切分的性能, 提出基于最大熵模型的汉语篇章结构分析方法。实验结果表明, 篇章语义单元自动切分的F值能达到89.1%, 当篇章语义结构树的高度不超过6层时, 篇章语义关系标注的F值为63%。  相似文献   

6.
从计算机语料库的特征出发,通过语料库和数据库的对比,结合汉语歇后语的特点,介绍了歇后语语料库模型的设计思路、建设内容及其相关功能,尝试为汉语语汇研究提供一种新的工具,促进汉语语料库不断应用发展.  相似文献   

7.
汉语隐喻计算是中文信息处理中的棘手难题之一.已有的隐喻识别研究多以人工方式分析和抽取隐喻特征,存在着主观性强、难以扩充的缺点,并且对于专业背景知识要求比较严格.本文基于大规模语料库的机器学习,利用最大熵分类模型,提出了一种最优特征模板自动抽取的隐喻识别算法,讨论了3种不同层次的特征模板,既包含了经典的简单特征,又将跨多个词的远距离上下文信息,以及描述语义信息的词语相似性引入特征模板进行考察.实验结果表明,该算法提高了隐喻识别准确率,是一种对于汉语隐喻计算行之有效的机器学习方法.  相似文献   

8.
在传统的只统计人名用字的Naive Bayes分类算法的基础上,将人名上下文边界融入其中,并利用从大规模语料库中统计的人名用字、边界模板频率对人名定界,再通过扩散操作召回遗漏人名。该方法简单易行,并能取得很好的效果。实验结果表明,其F值达到了93.28%。  相似文献   

9.
基于关联规则挖掘的汉语语义搭配规则获取方法   总被引:1,自引:0,他引:1  
针对自然语言处理系统在短语分析时的词汇排歧和结构排歧需要,本文提出了一种基于语料库的汉语短语语义搭配规则自动获取方法.该方法以《知网》为语义知识资源,在标注了句法语义信息的汉语短语熟语料库基础上,先采用数据挖掘中元规则制导的交叉层关联规则挖掘方法,自动发现汉语短语的语义搭配规律,再根据统计结果自动优选后生成语义搭配规则库.实验结果表明该方法是切实可行的.运用该方法自动获取的语义搭配规则具有较好的排歧效果.  相似文献   

10.
规则解析器作为现代汉语复句关系词自动识别系统中的一个重要的功能模块,其主要功能是先利用复句准关系词去匹配规则库中的规则,然后对匹配成功的规则进行解析,最后调用该规则并提取规则的结论对复句关系词进行识别.因此规则的成功匹配是能够进行规则解析的首要条件.但是,在对规则库中的句式规则表和连用句式规则表进行匹配解析时,由于复句准关系词的多样性和重复性,造成了匹配的复杂性,使得无法利用传统的匹配算法去匹配规则.因此,该文研究了一种"包含匹配算法",该算法是先用一个二维数组将复句准关系词序列在复句中的下标依次存储,然后在该二维数组中寻找可能匹配的子串序列.该算法的最大优点是既不需要实现完全匹配和回溯,还可以包含模式串的所有子串,能够得到所有的目标子串,实验结果表明,该算法在排除规则的不完备性和分词的错误之后,正确率可以达到100%.  相似文献   

11.
基于隐Markov模型的汉语词类自动标注的实验研究   总被引:3,自引:0,他引:3  
汉语词类自动标注技术在中文信息处理现实应用中占据着十分重要的位置。论文在经过人工分词和词类标注的大规模汉语语料库的支持下 ,通过一系列对比实验 ,对基于隐 Markov模型的汉语词类自动标注算法进行了系统的考察 ,并得出结论 :1Bigram模型的“性能价格比”较 Tri-gram模型更令人满意 ;2以 7万词次左右的标注语料库训练 Bigram模型即已基本够用 (此时 ,兼类词词类标注正确率及文本词类标注正确率分别可达 93%和 97%以上 ) ;3Bi-gram模型对不同领域具有一定的适应性。这些结论对设计实用型汉语词类自动标注系统具有指导意义。  相似文献   

12.
采用基于最大熵模型的方法对泰语句子级实体从属关系的抽取方法进行了研究.针对泰语句子中实体关系抽取的研究进程中语料库较为匮乏的问题,首先使用汉泰双语平行句对作为中间桥梁,将中文研究领域中相对成熟的分词、词性标注和实体识别等成果,通过汉泰双语词典映射到与中文句子相对齐的泰语句子上,对泰语句子进行必要的数据处理操作,并进行一定量的人工校正和人工实体关系标注工作;进而构建基础的泰语实体关系训练语料库.在语料库的基础上,将泰语实体关系抽取问题转化为分类问题,同时结合泰语语言本身的特点,选取合适的上下文特征模板,使用最大熵模型算法对训练语料进行学习训练,构建分类器,对泰语句子中的候选实体关系三元组进行识别,最终达到实体间从属关系自动抽取的目的.实验结果显示该方法可使F值相对于已有的泰语实体关系抽取研究方法提升8%左右.  相似文献   

13.
基于自建的汉语篇章结构语料库以及语料库中连接词和连接词关系类别的标注, 抽取自动句法树和标准句法树的句法、词法和位置特征, 利用有监督的方法进行连接词识别和分类。实验结果表明, 连接词识别的F1值为69.2%, 连接词自动识别并分类的总正确率为89.1%。  相似文献   

14.
从汉英科技语作翻译的角度出发,分析了汉语复句与英语复句的语言结构特点。探讨了两种语言在复句层面的编码与解码之功能对等或功能不对等的关系。并在此基础上提出了此类复句互译应遵循的方法和原则。  相似文献   

15.
吕叔湘先生在(汉语语法分析问题》中为汉语复句理论的新阶段研究指明了方向、道路。近20年来的汉语复句理论已呈多元化深入发展趋势。目前还存在一些有待更深入研究解决的问题。在今后的研究中,不能遭然取消汉语单复句的划分,在单复句划分的标准问题上,必须注重“结构·语音”标准的研究;在汉语复句内部系统分类问题上,则必须抓住分句间的语义关系深入研究;在复句外延范围上,应尽快解决好“紧缩句”的归属问题。  相似文献   

16.
本文在自建的语料库基础上,依靠语料库检索软件对语料库中动词的使用频率进行统计,找出高频动词。依靠语料库检索软件检索出高频动词所在的语境,对其进行行分析与综合,在此基础上找出高频动词的高频语义指向、语用特征,抽象出它们的使用规律。然后采用语料库语言学、汉语教学等相关理论对本研究的意义进行解释说明。  相似文献   

17.
中文语料库分词不一致的分类处理研究   总被引:5,自引:0,他引:5  
大规模语料库中分词结果不一致现象影响着语料库分词质量.在对150万汉字熟语料进行了统计分析的基础上,我们定义了语料库中分词结果不一致的主要结构类型;采用规则的方法检验校对字串的分词不一致,在对150万汉字语料库的封闭测试中,正确率为86.94%.  相似文献   

18.
为了从大规模标注语料库和词汇知识库支持下自动获取分层次、多粒度的规则描述知识,从汉语多词语基本块入手,提出一套完整处理方案.该方案从标注语料库中自动获取所有基于词类的基本块规则,通过设置规则置信度自动排除大量低可靠和无效规则.针对其中的高频低可靠规则,不断引入更多的内部词汇约束和外部语境限制知识,使之逐步进化为描述能力更强的结构化规则.同时提出一种预期精度指标对自动习得规则的描述能力进行了客观评价.实验结果表明: 现有算法以16%的有效扩展规则覆盖了93%的标注正例,并使预期精度从51%提高到81%, 显示了这套规则学习和评价方法的有效性.  相似文献   

19.
韩国语中存在着各种各样的因果复句,以口语和书面语中使用频率极高的""四种因果复句作为研究对象,通过21世纪世宗计划语料库中的具体实例来考查分析它们的语义及句法特征,对于韩国语复句教学及韩国语学习者学习并运用韩国语因果复句,能够提供一个良好的理论基础和参考依据。  相似文献   

20.
为了建立一个面向中文信息处理的现代汉语复句深加工语料库,我们必须进行短语字段的自动识别工作.目的是把这些字段排除在分句层次分析的范围之外.这项工作建立在自动分词和词性标注的基础上,首先通过编写的程序把所有不含动词的字段暂时统一识别为短语字段.对于虽包含动词但前后有明显形式标志的字段则通过制定相应的规则来识别.还有一部分字段只包含一个动词,但前后却没有明显的形式标志,对此,需要利用字段中的结构助词"的"来帮助识别.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号