首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述.基于几何中的自然语言,结合正向减词最大匹配法,提出了适合几何语言的GMMM分词算法,并给出了算法的实现过程.  相似文献   

2.
由于中文分词的复杂性,不同专业领域具有不同的词典构造。该文通过隐马尔可夫模型(Hidden Markov model,HMM)中文分词模型对文本信息进行初步分词,并结合相关的搜狗领域词库构建出对应的领域词典,对新词出现进行监控,实时优化更新,从而提出了一种基于领域词典的动态规划分词算法。通过对特定领域的信息进行分词实验,验证了该文提出的分词算法可获得较高的分词准确率与召回率。实验结果表明,基于领域词典的动态规划分词算法与基于领域词典的分词算法相比,准确率和召回率都有提升。基于领域词典的动态规划分词算法与传统的smallseg分词、snailseg分词算法相比,分词召回率和准确率都有提升,分词召回率提升了大约1%,分词准确率提升了大约8%,进一步说明了该文提出的分词算法具有很好的领域适应性。  相似文献   

3.
目前中文分词技术已经比较成熟,但是应用于医疗卫生专业领域,出现准确率、召回率、F-值均下降等问题。文章在自建2.5万句汉语医疗卫生用语语料库基础上,实验基于词典的自动分词方法、基于统计的自动分词方法、词典与统计相结合的分词方法,并通过对各种分词方法测评比较,探索适合于医疗领域的分词方法,这对深入研究医疗卫生领域信息化处理,提高医疗卫生智能化信息服务意义重大。  相似文献   

4.
针对越南语分词词典构建问题,提出了一种新的半监督集成构建方法.该方法能够结合人工干预,从大规模未标注越南语语料中识别多音节单词.首先设计了一种n元音节词产生器,并生成尽可能多的候选多音节词;其次通过3种统计特征的计算并根据预设阈值实现了相应的单词提取器,接着越南语专家检测并修正3个单独的词典;最后词典合成器合并这几个提取出的词典形成一个集成词典.采用直接实验和间接实验来评估这些词典的效力,实验结果表明,所提出的半监督集成构建方法是有效的,而且采用这些动态提取词典的两种越南语分词算法都能够达到理想的性能.  相似文献   

5.
给出了一种将基于统计与基于词典方法融合而成的混合中文分词方法,利用统计方法进行词典的动态扩展,克服了基于词典算法对"完全词典"的依赖;利用词典对统计的一些参数进行估计,避免了以往靠实验得到这些参数的不确定性,同时将RMM算法与统计算法结合起来.最后通过仿真说明该混合算法比传统的基于词典和基于统计的方法更有效.  相似文献   

6.
刘勇  王崇 《科技信息》2012,(34):188-189
中文分词词典是中文信息处理技术的重要基础,中文分词词典设计的优劣直接关系着分词的速度与效率。本文在研究了各种中文分词算法和中文分词词典机制的基础上,提出了一种基于专业词典的带词长的中文分词词典算法,主要用于对专业文档中进行加工处理,并且基于该算法设计了一个基于专业词典的带词长的中文分词词典的专业文档切分系统。  相似文献   

7.
采用面向对象的编程工具和数据库技术,使用改进的机械分词方法,开发了适合教学方面的中文索引和检索服务系统(课程词典)。系统负责搜索和获取指定范围内的有关数据。对检索服务系统的工作原理和关键技术进行了讨论和分析。该系统基于"自然语言理解"的智能检索,背景为对教学方面信息检索系统的设计与开发。系统中,无论是对用户提问的分析,还是对所检索的信息都是以汉语自动分词为基础加工处理,因而将汉字串切分为汉词串的分词问题即为该系统研发的前提和关键。  相似文献   

8.
歧义是在基于词典的分词方法中常见的问题,以往的基于词典的分词方法往往使用双向最大匹配法获得分词结果后,通过使用上下文信息来进行歧义消解,但是对于没有上下文信息的单独语料无法进行歧义消解。本文提出一种通用的基于词频的歧义消解法,该方法是与上下文无关的,能够消解没有上下文信息的语料切分后产生的歧义,扩大了歧义消解的应用范围,简化了歧义消解的处理过程。实验表明:文本方法与传统基于词典的分词算法相比,具有更强的适用性及更高的可用性。  相似文献   

9.
无尺作图   总被引:3,自引:0,他引:3  
探讨几何作图体系中直尺的作用。结论是:在欧氏几何作图问题(包括纯作图命题与其他命题的作图部分)中,凡是用圆规和直尺能完成的作图问题,都能只用圆规完成(无尺作图)。首先给出无尺作图中直线、线段、射线等的作图约定。其次给出一个无尺作图的基础作图体系,为论证结论提供手段。再次给出直尺在几何作图中的6个基本操作,以及无尺作图时相应的6个替代操作;使用替代操作就能把任何有解的几何作图问题和它的求解,一同“翻译”成相应的无尺作图问题及其求解,从而导出结论;最后指出简化此“翻译”的方法,并以此方法创立一门“无尺几何”的途径。  相似文献   

10.
基于最长次长匹配的汉语自动分词   总被引:12,自引:1,他引:11  
汉语自动分词是中文信息处理领域所特有的一个重要研究课题,机器翻译(MT),自然语言理解(NLU),情报检索(IR)等都需以自动分词作为基础。为解决分词中的歧义问题,针对歧义切分字段的分布特点,提出一种基于最长匹配原则的汉语自动分词方法,分词效果较好。  相似文献   

11.
针对目前中文分词技术主要依赖于常用词词典,而词典对未登录词识别率较低的问题,提出一种用双词典识别未登录词的方法,即构建一个常用词词典和一个单字词词典,二者相互结合进行分词,有效解决了对未登录词识别效率偏低的问题.实验表明,采用构建单字词表法对未登录词的识别准确率可达90%以上.  相似文献   

12.
字向量表示质量对中文文本处理方法有重要影响。目前,常用中文字向量表示方法Word2Vec、GloVe在很多任务中表现优异,但存在向量质量依赖训练数据集、稳定性差、没有考虑汉字整体字形结构所隐含的语义信息、没有利用字典包含的语言知识等问题。为了克服现有方法的不足,该文首先采用字形自编码器自动捕获汉字字形蕴含的语义,再利用字义自编码器抽取字典包含的稳定字义信息,提出了融合中文字形和字义的字向量的表示方法(Glyph and Meaning to Vector)。结果表明,GnM2Vec在近邻字计算、中文命名实体识别和中文分词三项任务中均取得了较好的结果,在命名实体识别中,F1值较GloVe、word2vec、G2Vec(基于字形向量)分别提高了2.25、0.05、0.3;在中文分词中,F1值分别提高了0.3、0.14、0.33,提高了字向量稳定性。  相似文献   

13.
王成平 《科学技术与工程》2012,12(10):2328-2332
自动分词是彝文信息处理中一项不可缺少的基础性工作,彝文信息处理只要涉及到检索、翻译、校对等,就需要以词为基本单位。本文根据彝文的特点,介绍了彝文分词规范与分词词表的设计,提出了实现基于既定词表的彝文自动分词技术的算法选择、系统结构,以及实现流程,而且进行了抽样测试,其分词准确率和速度都比较令人满意。最后结合彝文的特点对实现彝文自动分词的难点进行了分析。  相似文献   

14.
中文分词是中文信息处理的基础、前提和关键.通过分析已有的中文分词算法,提出了一种新的分词词典机制,并根据新的分词词典机制提出了一种快速双向中文分词算法.使用该算法可以实现快速查找和双向匹配,从而极大地提高中文分词的速度和准确率.  相似文献   

15.
一种基于后缀数组的无词典分词方法   总被引:9,自引:3,他引:6  
提出一种基于后缀数组的无词典分词算法. 该算法通过后缀数组和利用散列表获得汉字的结合模式, 通过置信度筛选词. 实验表明, 在无需词典和语料库的前提下, 该算法能够快速准确地抽取文档中的中、 高频词. 适用于对词条频度敏感、 对计算速度要求高的中文信息处理.  相似文献   

16.
汉语自动分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用。作者在研究几种分词词典机制的基础上提出了一种新的分词词典机制,其基本思想是:根据一字词和二字词出现频率高的特点,将词首字和次字组合成Hash索引表,其余字组成剩余结点数组。基于这种分词词典机制设计的组合Hash索引分词算法使得一字词和二字词查询只须在组合hash索引表中一步完成,从而显著提高查询速度。通过真实语料的对比实验,该算法在不降低精度的前提下,处理速度比整词二分平均提高了13.8倍,比TR IE索引树平均提高了2.7倍。结果表明:组合hash索引分词算法是实用有效的。  相似文献   

17.
中文文本分类相关算法的研究与实现   总被引:2,自引:0,他引:2  
通过对分词歧义处理情况的分析, 提出一种基于上下文的双向扫描分词算法, 对分词词典进行改进, 将词组短语的固定搭配引入词典中. 讨论了特征项的选择及权重的设定, 并引进χ2统计量参与项的权值计算, 解决了目前通用TF-IDF加权法的不足, 同时提出了项打分分类算法, 提高了特征项对于文本分类的有效性.
 实验结果表明, 改进后的权重计算方法性能更优越.  相似文献   

18.
几种基于词典的中文分词算法评价   总被引:1,自引:0,他引:1  
基于词典的中文自动分词是中文信息处理的基础.按照使用计算机缓存的优化原则,分析了几种典型的分词词典机制,指出了其中的一些问题.改进了整词二分法,极大地提高了速度.结合哈希索引和PATRICIA tree搜索算法,提出了一个综合最优化的中文分词系统.  相似文献   

19.
根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的分词词典机制有效地提高了汉语自动分词的速度和效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号