首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
一种基于SVM和规则消除组合型歧义的算法   总被引:2,自引:0,他引:2  
歧义的处理是影响分词系统切分精度的重要因素,也是中文自动分词系统中较为困难的问题.提出一种基于支持向量机(SVM)和规则(Rules)相结合的算法(SR算法),对中文分词过程中的组合型歧义字段进行排歧.SR算法主要思想是利用支持向量机分类的原理,结合词性搭配的一些规则排除组合型歧义.实验表明,用此算法对几种不同的语料进行排歧测试,排除组合型歧义字段的切分正确率可达83%左右,为解决中文自动分词难题提供了一条新路径.  相似文献   

2.
中文是一种没有明显的形态界限可以作为分词依据的表意语言,因而在中文文本的处理中面临的第一个问题就是词语的切分问题。本文说明了汉语自动分词的必要性和困难,介绍了自动分词的三种算法。  相似文献   

3.
基于混合模型的中文命名实体抽取系统   总被引:6,自引:0,他引:6  
中文命名实体抽取的研究,存在分词、领域和方法三个方面的问题需要解决.解决方案是利用规则,对机器分词后的文本进行修正;提出"群山"模型,对不同领域制定不同的语言学规则;以统计学方法和语言学方法结合,对不同命名实体采用不同的方法等.根据实验结果,得出以下结论分词的错误将严重影响到最终的抽取结果;领域规则的应用可以提升抽取效果;不同方法的有机结合比采用单一方法有效.  相似文献   

4.
首先对现有的中文文本自动校对技术进行了分类研究,并在此基础上,结合二元语法模型、散串技术和校对候选矩阵方法,提出了一种基于窗口技术的校对方法。该方法先利用词间字接续方法和散串技术来定位疑错窗口,然后在疑错窗口内,依据由可信度增量构建的校对候选集对窗口内的疑错字串进行最终的定错和纠错。  相似文献   

5.
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,文章提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。  相似文献   

6.
中文自动分词探讨   总被引:5,自引:2,他引:5  
论述了现有中文自动分词方法,提出了自动分词软件质量评价标准,并对分词正确单和切分过度两个重要特性的度量方法进行了探讨。  相似文献   

7.
中文分词技术研究   总被引:1,自引:0,他引:1  
随着网络信息资源呈指数级增长,我们已经进入了信息化时代,信息技术已渗透到我们社会生活的方方面面。中文文本分词技术作为中文信息处理中的重要环节,其作用就显得越来越重要。对中文分词的必要性、存在的困难进行了综述,并分析了几种分词方法的原理、特点和算法实现。  相似文献   

8.
基于标记的分词算法   总被引:1,自引:0,他引:1  
目前,自动分词的算法很多,但都有不能满足实用的要求。文中介绍一种在最大匹配法基础上,根据大量的真实语料中出现的语言现象,把汉语中的词按其在分词意义下的特性进行分类,并用不同的标记标识,对每一类词确定一组规则进行处理,使分词算法更接近于实用的目的。  相似文献   

9.
提出一种基于语境相似度的中文分词一致性检验方法。首先利用词法和句法层面的特征, 设计基于构词、词性和依存句法的分类规则, 再使用预训练词向量, 对不一致字串所在语境的语义信息进行编码, 通过语境间的语义相似度对不一致字串进行分类。在人工构建的36万字分词语料库中进行分词一致性检验, 结果表明该方法能够有效地提高中文分词一致性检验的准确率。进一步地, 使用3 种主流中文分词模型在修正一致性后的分词语料中重新训练和测试, 结果表明该方法可以有效地提高分词语料库的质量, 3种中文分词模型的F1值分别提高1.18%, 1.25%和1.04%。  相似文献   

10.
文章描述藏文文本校对在国内外的发展现状,并借鉴国内外自动校对技术及算法研究的最新成果,提出基于词的藏文文本校对模型的研究方案。针对藏文文本的复杂特征和容易出现的错误状况,提出了统计与规则相结合的校对方案。  相似文献   

11.
通过对中文机构名的语法语义特性进行分析,将中文机构名分成前部词和特征词,提出了一种基于统计的识别方法.使用成熟语料库的训练数据,计算候选机构名的特征词可信度、前部词首词可信度和前部词中部可信度,最终得到机构名构词可信度,并与给定阈值比较,实现了中文机构名识别.在开放性实验中,达到了85.57%的召回率和94.37%的准确率.  相似文献   

12.
A local and global context representation learning model for Chinese characters is designed and a Chinese word segmentation method based on character representations is proposed in this paper.First,the proposed Chinese character learning model uses the semantics of local context and global context to learn the representation of Chinese characters.Then,Chinese word segmentation model is built by a neural network,while the segmentation model is trained with the character representations as its input features.Finally,experimental results show that Chinese character representations can effectively learn the semantic information.Characters with similar semantics cluster together in the visualize space.Moreover,the proposed Chinese word segmentation model also achieves a pretty good improvement on precision,recall and f-measure.  相似文献   

13.
一种改进的增字最大匹配算法   总被引:1,自引:0,他引:1  
汉语自动分词技术是中文信息处理的关键技术,目前已经成为中文信息处理的瓶颈。介绍了目前几种常用的自动分词算法,在对各种分词算法进行研究的基础上,对现有的增字最大匹配法进行了进一步的改进,更加充分的体现了最大匹配法中的“长词优先”的原则,使分词系统在自动分词阶段有比目前的增字最大匹配法更好的效果。  相似文献   

14.
基于大规模语料的新词语识别方法   总被引:3,自引:0,他引:3  
根据新词语的不同特征,提出了一整套自动检测新词语的方法,通过大规模地统计分析,分别建立字,词,N元组的词典,从中自动检测出新词语来,然后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出语料中的新词语. 根据此方案实现的系统,可以抽取不限长度不限领域的新词语.  相似文献   

15.
汉语教学通常强调言文并重,然而与其他教学要素相比,汉字教学从研究到教学一直都处于滞后状态。“字本位”观把汉字当做是书面汉语的基本单位,紧扣汉字的表意性特点,从形、音、义三位一体的“字”着眼来理解词的意义与读音,强调汉字的理据性,以字带动词的学习,重视汉字书写的训练。这样,汉字的形、音、义就能完整地呈现于学习者的脑海中,并由此而受到汉字文化的熏陶和感染。  相似文献   

16.
针对当前中文词嵌入模型无法较好地建模汉字字形结构的语义信息,提出了一种改进的中文词嵌入模型.该模型基于词、字和部件(五笔编码)等粒度进行联合学习,通过结合部件、字和词来构造词嵌入,使得该模型可以有效学习汉字字形结构所蕴含的语义信息,在一定程度上提升了中文词嵌入的质量.  相似文献   

17.
自然语言处理涉及的技术很多,许多研究难点的存在给我国计算机应用增加了困难.介绍了一种解决汉语系统中多音字判别和处理的方法;探讨了汉语文摘生成处理的一个方法;讨论自动分词,阐述了自动分词需要解决的问题.  相似文献   

18.
采用面向对象的编程工具和数据库技术,使用改进的机械分词方法,开发了适合教学方面的中文索引和检索服务系统(课程词典)。系统负责搜索和获取指定范围内的有关数据。对检索服务系统的工作原理和关键技术进行了讨论和分析。该系统基于"自然语言理解"的智能检索,背景为对教学方面信息检索系统的设计与开发。系统中,无论是对用户提问的分析,还是对所检索的信息都是以汉语自动分词为基础加工处理,因而将汉字串切分为汉词串的分词问题即为该系统研发的前提和关键。  相似文献   

19.
针对中文词语具体度资源的匮乏,提出一种自动的中文词语具体度词典构造方法.该方法充分利用已有的英文词语具体度资源,基于在线翻译工具和预训练词向量,训练出中文词语具体度的多层感知器回归模型,构造大规模的中文词语具体度词典.为了评估该中文词语具体度词典的性能,设计两项基本的具体度推理任务:词语级具体度推理和句子级具体度推理,...  相似文献   

20.
针对汉语自动分词后词条的特征信息缺失的问题,提出以词串为分词单位的中文文本分词方法,将整个分词过程分解为三个子过程:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的语义信息更丰富,有助于文本特征选择效果的改善和文本分类性能的提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号