首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
HENU汉语自动分词系统中歧义字段消除算法   总被引:2,自引:0,他引:2  
先用基于词典的最大匹配法匹配出最长词和次长词,再用检测跨越的方法发现切分歧义,判断出切分歧义是交集型切分歧义还是组合型切分歧义,根据切分歧义类型的不同分别进行切分歧义的消除.交集型切分歧义的消除方法主要是混合使用基于规则的方法和基于统计的方法,组合型歧义的消除方法主要是使用基于规则的方法,找到正确的切分位置.  相似文献   

2.
汉语自动分词系统中切分歧义与未登录词的处理策略   总被引:3,自引:0,他引:3  
本文主要综述了汉语自动分词系统中,切分歧义与未登录词的表现形式以及相应的处理策略,指出在没有完全突破现行机器翻译理论的前提下,增强机器翻译系统中切分歧义与未登录词的处理能力,是提高系统准确率的一种有效措施.  相似文献   

3.
相似性文献检测技术在数字图书馆、知识产权保护等应用中有着较强的实际意义和应用价值.汉语中存在着许多歧义现象,导致汉语相似性文献检测的难度远大于英文文献.结合汉语的特点,提出了一种改进的基于词频统计的汉语相似性文献检测方法.首先,利用关键词和统计信息进行切词与消歧.其次,在语义分析的基础上抽取特征词并计算权重.最后,通过构造加权词频向量空间完成相似性检测.对本科生毕业论文的小规模实验表明:该方法能有效消除切分歧义,降低运算规模,提高检测精度与速度.  相似文献   

4.
基于最长次长匹配的汉语自动分词   总被引:12,自引:1,他引:11  
汉语自动分词是中文信息处理领域所特有的一个重要研究课题,机器翻译(MT),自然语言理解(NLU),情报检索(IR)等都需以自动分词作为基础。为解决分词中的歧义问题,针对歧义切分字段的分布特点,提出一种基于最长匹配原则的汉语自动分词方法,分词效果较好。  相似文献   

5.
以交集型歧义字段为研究对象,考察包含交集型歧义字段的句子及其所在的文档,挖掘歧义字段从前切分或从后切分所得结果在文档中的支持度.根据支持度构造切分方式的判别因子,获取交集型歧义字段的切分方式.实验证实该方法可行,并在歧义消解上具有一定的发展潜力.  相似文献   

6.
在分词过程中如何处理歧义切分是中文分词算法要解决的难点之一.文中提出了一种改进的基于词典和基于统计的组合中文分词算法,能够发现并处理交集型歧义,该算法在发现歧义的过程中没有采取传统的双向匹配法而是采用双栈的结构,减少了匹配花费时间,并分别采取长词优先和最大概率方法处理一般的交集型歧义和特殊的同词长交集型歧义.最后通过实例对文中所提出的算法进行实验验证,结果表明该算法比传统的分词算法有更好的准确率.  相似文献   

7.
中文分词中歧义切分处理策略   总被引:1,自引:0,他引:1  
文章试图从歧义字段本身的特点,即从伪歧义与真歧义这两个角度,以规则库为辅助手段,构建相应概率统计模型来解决歧义字段切分的问题.概率模型中特征的选取考虑了相邻词语和相邻词语的语义信息.实验表明该模型在解决歧义切分问题上是有效的.  相似文献   

8.
基于最大熵模型的交集型切分歧义消解   总被引:6,自引:0,他引:6  
利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过正向最大匹配(FMM)和逆向最大匹配(BMM)相结合的分词方法,发现训练文本中的交集型歧义字段并进行标注,用于最大熵模型的训练.实验用1998年1月<人民日报>中出现的交集型歧义字段进行训练和测试,封闭测试正确率98.64%,开放测试正确率95.01%,后者比常用的词概率法提高了3.76%.  相似文献   

9.
词切分是像汉语这类非拉丁语言的一个特有问题,并且由于汉语组词中普遍存在着岐义性和语境依赖性,这一问题也是一个尚未得到彻底解决的难题。本文通过仔细分析汉语分词岐义的规律,将追求整体最优效果的松驰算法引入到汉语自动分词的排岐研究中。借助于语词之间搭配关系等上下文约束条件以及词频、字频等统计数据,构造了一种汉语分词排岐的新方法。实验结果表明,这种方法在切分精度和切分速度上都取得了较好的效果,为解决汉语自动分词难题提供了一种新途径。  相似文献   

10.
通过藏文格助词的接续、结构以及上下文特征,提出基于规则、支持向量机、还原法等三层混合模式的藏文音节切分方法.藏文音节切分是藏文字频统计、分词、词性标注和机器翻译等研究领域的基础,其中藏文紧缩格歧义现象的正确识别、切分和还原是藏文音节切分的难点.经实验,混合模式藏文音节切分的F值为99.97%.  相似文献   

11.
Introduction Although the word trigram dominates the statistical language modeling community, it still has some short- comings. For example, the word trigram cannot make use of the rich linguistic structure of the language, nor can it capture long-distanc…  相似文献   

12.
文章通过对拉萨市藏汉语言态度测验结果分析,认为藏族居民对汉语和藏语都有较高的习得和使用的倾向性,但他们对藏语的倾向性要高于对汉语的倾向性。这种倾向性在一定程度上反映出藏族人的藏语情结。藏语情结具有主观心理、藏族文化、语言能力等方面的基础,是一种稳定的和具有规定性的习惯,并反映在藏汉语言态度上。  相似文献   

13.
人类认识世界的局限性和渐进性决定了人类所使用语言精确的相对性。人类认识自然的模糊过程决定了语言的模糊性。从中国哲学思维方式的整体性与西方哲学思维的分析性可认识中国语言的相对模糊性和西方语言的相对精确性。有些词汇在汉语中是清楚的,但在英语中是模糊的;有些词汇在汉语中是模糊的,在英语中却是精确的;模糊思维决定了思维载体的语言的模糊性。从事物存在的两面和多面性认识语言的模糊性,从模糊数学的实用性认识语言的模糊性。语言模糊与精确是可以相互转换的,语言模糊与精确是相对的,语言是灰色的。  相似文献   

14.
本文介绍一个汉语连续语音识别与理解系统USTC—Ⅱ,在该系统中词法、句法和语义等多种知识被用来提高识别速度和精度,增强语言理解能力.系统采用了本文提出的一种从关链词入手的句法和语义相结合的分析方法,具有较强的辨析同音词、谐音词以及纠错功能.该系统能接受与理解几乎所有类型的单句,并以带有标点符号的汉字形式输出句子.  相似文献   

15.
本文介绍了我们开发的“汉语声控电脑打字机”的结构、功能以及系统实现中的一些关键技术,本系统是一个特定人、孤立词、大词汇量的汉语语音识别与理解系统,其最终识别率可达95%以上。  相似文献   

16.
在借鉴和改进了一种新的语种辨识方法———基于高斯混合模型(GMM)符号化和语言模型方法———的基础上,建立了一个汉语方言自动辨识系统.实验使用了一个多说话人、非特定文本、连续语音汉语方言语音库进行系统测试.在3种主要汉语方言的辨识中,15 s语料测试平均辨识率达到了90.7%.  相似文献   

17.
在对比语言学研究中,不规范的语言材料对研究结论具有较大的干扰作用,欧洲语言(尤其是英语和俄语)对现代汉语的影响应加以剖析和警觉,以保证可比性原则,这就要求我们外语界研究,提高对现代汉语规范的敏感性,在对比语言学研究中建构汉语的主体性与话语权力。  相似文献   

18.
基于语义的汉语文献主题词提取算法研究   总被引:10,自引:0,他引:10  
为了适应信息时代的迅速发展,提高从汉语文献中自动提取主题词的准确率,给出一种基于语义理解的汉语文献主题词自动提取算法模型.该模型以中文文本为处理对象,结合领域背景,构建概念语义网络作为分词词典和知识库,用概念之间的联系和匹配取代传统的字面匹配,克服了仅局限于表面形式的缺陷;把自然语言处理从目前基于关键词层面提高到基于知识的层面,从而在概念层次上理解文献主题,突破了传统的关键词匹配的局限,在一定程度上解决了词汇差异问题.该方法能对自然语言进行某种程度的语义理解,利用领域知识来实现主题词的规范标引.实验表明,采用本方法对测试文档进行主题词提取的准确率可达到71.03%,与传统方法相比提高了近1.87倍.  相似文献   

19.
通过对几所大学对外汉语网络课程的试用分析,认为对外汉语网络课程在导航语言、讲解语言、反馈语言的设计中都必须注意语言设计的科学性:导航语言应符合汉语韵律,以2字句、3字句为佳;选词用字时,以常用词为佳;讲解性语言应以1行为宜,量不超过3屏;反馈时须使用直接消极反馈语言以及改善视频教学中的保姆式语言;另外应充分考虑网络学习者的认知特点。  相似文献   

20.
一种基于SVM和规则消除组合型歧义的算法   总被引:2,自引:0,他引:2  
歧义的处理是影响分词系统切分精度的重要因素,也是中文自动分词系统中较为困难的问题.提出一种基于支持向量机(SVM)和规则(Rules)相结合的算法(SR算法),对中文分词过程中的组合型歧义字段进行排歧.SR算法主要思想是利用支持向量机分类的原理,结合词性搭配的一些规则排除组合型歧义.实验表明,用此算法对几种不同的语料进行排歧测试,排除组合型歧义字段的切分正确率可达83%左右,为解决中文自动分词难题提供了一条新路径.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号