首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
采用一个自建的汉语篇章结构语料库(隐式关系占80%)进行隐式关系识别。语料中将篇章关系分成3个层次, 第一层包含因果、并列、转折、解说四大类。在此语料上, 利用上下文特征、词汇特征、依存树特征, 采用最大熵的分类方法对四大类关系进行识别。实验结果显示, 总正确率为62.15%, 其中并列类识别效果最好, F1值达到75.26%。  相似文献   

2.
根据清华汉语树库的标注方法, 利用规则从中提取复句关系词并标注其类别, 然后分别抽取带功能标记和不带功能标记的自动句法树的句法、词法、位置特征, 进行复句关系词的识别和分类。实验结果表明, 复句关系词判断准确率达95.7%, 复句关系词类别判断F1值为77.2%。  相似文献   

3.
将篇章结构表示为小句关联结构,与修辞结构等层次化篇章结构模式相比,可以有效地刻画非连续和跨层级的小句之间的直接语义关联。首先,提出篇章小句关联结构的形式表示、判断准则和形式限制,并进行人工标注。然后,对汉语篇章小句关联结构进行自动识别。在自建汉语篇章小句关联结构语料库上,基于分类模型,设计连接词和词汇等分类特征,得到的最佳识别准确率达92.70%。实验结果表明,语料整体取样比独立取样取得的去环效果好;词汇、小句距离及句域等分类特征对识别的贡献较大;远距离和跨大句是小句关联识别的难点,但相邻小句和同一大句内的小句对的不相关识别难度更大。  相似文献   

4.
为提高语音识别系统的性能,针对汉语语音的单音节结构的特点,提出了建立三音子识别单元的方法。这种方法完全利用语音学知识对上下文进行分类从而实现参数共享,而不同于传统的数据驱动的聚类共享。提出并实现了采用三音子单元的识别系统的训练算法和识别搜索算法。实验表明:基于语音学分类的三音子单元对识别性能有明显的改善,系统的首选误识率相对基线系统降低了28%。  相似文献   

5.
篇章分析是自然语言处理中一个重要的研究方向。连接词的识别作为篇章分析中的一个基本任务,对后续的篇章分析起到关键作用。针对连接词识别方法中的高维度特征空间问题,提出了基于特征提取的连接词识别方法。具体来讲,引用多种特征提取方法(IG、MI、DF、CHI、WLLR)对连接词识别中所用的所有特征进行打分排序,提取排在前面的一定数量的特征用于分类。实验结果表明特征提取方法能够有效降低特征维度,在仅仅使用50%的特征的情况下能够获得类似甚至更佳的识别性能。  相似文献   

6.
国外一批计算语言学研究者为开发语篇结构自动生成系统,以修辞结构理论为支撑.对大量英语语篇进行标注后发现,谬篇中的修辞关系应加以限制,语篇的抽象结构应为树型图式。这些国外研究成果带动了汉语篇章结构研究的发展,汉语语篇也应由基本语篇单位构成,其抽象结构也应为树型图,但基本语篇单位的切分并不是以引导从句的连词或短语为标记而是...  相似文献   

7.
强噪声环境下汉语语音识别的模糊分类算法   总被引:2,自引:0,他引:2  
论述了强背景噪声环境下利用模糊分类算法对大词汇量的汉语语音进行了分类识别,根据噪声的汉语语音特点,采用有边界的交叉分类和无边界的模糊分类相结合的措施,较成功地解决了强噪声环境下的汉语语音分类。  相似文献   

8.
语言中的时间表达方式是言语交际和自然语言理解的重要信息参量。对语言表现形式的研究,前人时贤都有许多成果。杨同用、徐德宽先生的新作《汉语篇章中的时间表现形式研究》则从篇章的角度观察时间表现形式,发现并研究了许多别人没有注意到的现象和问题。时间范畴是关涉语法、语义及篇章诸多领域的一个重要课题。  相似文献   

9.
高性能汉语数码语音识别算法   总被引:13,自引:0,他引:13  
提出了一个高性能的汉语数码语音识别 (MDSR)系统。 MDSR系统使用 Mel频标倒谱系数 (MFCC)作为主要的语音特征参数 ,同时提取共振峰轨迹和鼻音特征以区分一些易混语音对 ,并提出一个基于语音特征的实时端点检测算法 ,以减少系统资源需求 ,提高抗干扰能力。采用了两级识别框架来提高语音的区分能力 ,其中第一级识别用于确定识别候选结果 ,第二级识别用于区分易混语音对。由于采用了以上改进 ,MDSR系统识别率达到了 98.8% .  相似文献   

10.
论汉语外来词的分类与译介原则   总被引:1,自引:0,他引:1  
汉语外来词的界定,一直以来就是一个颇存争议的问题,汉语言学界如罗常培、高名凯、刘正琰、王力、岑麒祥,以及意大利学者马西尼(Masini)等始终不断地更新和充实着汉语外来词的研究。我们认为可分为三大类:一是在词音、词形、词义上的借用外语词汇的借词;二是仿译词,这类词主要显示出外来词的构词模式;三是由外来成分与本族成分共同构成的混合词。其中借词又分为四个小类:1.音译词,这类词是借音词。也就是说,这类词所用的汉字只起到一个单纯表音的作用;2.词形借词,指在词的义和形上都吸收了外语词汇的词;3.可算作意义借词的意译词;4.在翻译时一半依据了原词的音,一半依据了原词的义的半音半义译词。我们还提出了“外来词的译介原则”这一概念,这一系列原则是从更为宏观和抽象的角度对外来词各类型的具体译介手法做一个概括,它涵盖了音、形、义三方面,包括简约、系统、承袭、通俗四种。  相似文献   

11.
中国英语专业学生笔语中话语联系语的使用   总被引:1,自引:0,他引:1  
从认知语言学的角度,依据关联原则,对英语话语联系语的意义与功能作出解释,并基于WECCL与WBNC两个语料库的对比结果,统计分析中国英语专业大学生的英语笔语中话语联系语的使用特征。结果显示:中国二语习得者在话语联系语使用的总体数量分布上与本族语者大致相同,但在联系语类型的选择上有所不同,以添加、选择、转折、推论、列举、对比方式为主;某些联系语出现过度使用或过少使用的现象。  相似文献   

12.
篇章级句间关系分析包括语义单元的切分和各个单元之间的语义关系识别.已有的研究主要面向英文,到目前为止,尚无可用的中文篇章级句间关系自动分析系统发布.在中文篇章关系语料库的基础上,首次实现面向中文的篇章级句间关系自动分析系统,包括语义单元切分、连词识别、显式语义关系识别以及隐式语义关系识别等.实验结果显示:该系统在显式句间关系识别上F-score为89.8;,隐式句间关系识别上F-score为55.5;.  相似文献   

13.
联机手写体汉字识别中的笔划分类及笔划识别   总被引:9,自引:4,他引:5  
提出了手写体汉字识别的一种毛划分类方法,它把构成汉字系统的笔划分为7种基本单元,并论证了它在整字识别上容忍笔划变形度大的原因。  相似文献   

14.
自然手写汉字五笔码识别法   总被引:1,自引:0,他引:1  
在深入剖析五笔字型键盘输入法编码原则和字根结构基础上,结合联机识别技术特点对五笔字根作出适应性发行后,提出了一种联机识别自然手写汉字新方法:五笔码识别法。在构建的识别体系中 采用了层间分级技术,并提出将键盘输入技术与联机识别技术有机融合,为联机识别自然手写汉字探索新途径。  相似文献   

15.
通过分析基于隐马尔可夫模型(HMM)语音识别的原理,针对模板提取过程中语音信号的基音频率差别增大而出现的语音识别率下降的问题,提出分类识别的方法,通过采用基音周期(Pitch)判决方法,将特征相近的帧合并,并计算基音频率的MEL频率倒谱系数,采用隐马尔可夫模型(HMM)进行语音识别,最终通过仿真实验验证分类识别方法对语音识别率提高的影响,得出此方法的适用环境和范围.  相似文献   

16.
本文介绍以Turbo—Pascal语言编写的模式识别计算机软件,报告用逐步判别分析和非线性映照法对中国的绿茶、红茶和乌龙茶进行的识别分类以及用非线性映照结果来鉴定这些茶叶的质量。  相似文献   

17.
在标有复句逻辑语义关系的清华汉语树库上, 研究汉语篇章语义片段自动切分以及篇章关系的自动标注方法。通过比较不同序列标注模型对汉语篇章语义单元切分的性能, 提出基于最大熵模型的汉语篇章结构分析方法。实验结果表明, 篇章语义单元自动切分的F值能达到89.1%, 当篇章语义结构树的高度不超过6层时, 篇章语义关系标注的F值为63%。  相似文献   

18.
中文篇章零元素语料库构建   总被引:1,自引:0,他引:1  
针对中文零指代问题, 从篇章视角进行理论分析, 并完成中文篇章零元素语料库(Chinese Discourse Zero Corpus, CDZC)的构建工作。首先, 整理和分析已有的理论研究以及语料资源, 探究篇章层面中文零元素语料库标注的必要性。然后, 采用自底向上、前向搜索的标注策略和人机结合的半自动标注方式, 完成CDZC语料库的构建。最后, 对该语料库进行一系列详细的统计分析。结果表明, CDZC能够充分反映出中文零元素省略的语言特点, 为相关研究提供语料资源支持。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号