首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
汉语自动分词中的神经网络技术研究   总被引:5,自引:0,他引:5  
本文讨论了人工神经网络技术应用于汉语自动分词的映射模型和性能,着重分析网络结构和学习算法对歧义词切分的影响,在大量仿真实验的基础上,对其性能进行评价。  相似文献   

2.
本文在统一的分词模型──分词图的基础上,提出了一种汉语音节全分词法,它可以给出在分词词典约束下所有可能的分词结果,为高层的句法、语义分析提供了多个候选结果,避免了在某种具体准则下丢失分词结果的困难,因此适用面比较广.  相似文献   

3.
面向专利文献的汉语分词技术研究   总被引:2,自引:0,他引:2  
针对专利文献专业术语多、领域广的特点, 采用基于领域词典与统计相结合的方法探讨了专利文献的汉语分词问题。利用NC-value算法抽取专业术语, 使用条件随机场模型(CRF)提高专业术语识别率, 提高分词精度。实验结果表明, 提出的方法在开放测试下分词的准确率为95.56%, 召回率为96.18%, F值为95.87%, 大大提高了专利文献的分词精度。  相似文献   

4.
中文分词技术研究   总被引:1,自引:0,他引:1  
随着网络信息资源呈指数级增长,我们已经进入了信息化时代,信息技术已渗透到我们社会生活的方方面面。中文文本分词技术作为中文信息处理中的重要环节,其作用就显得越来越重要。对中文分词的必要性、存在的困难进行了综述,并分析了几种分词方法的原理、特点和算法实现。  相似文献   

5.
中文分词技术   总被引:3,自引:0,他引:3  
在现代化的社会,为了更好的利用计算机来处理以自然语言为载体的信息,让计算机能读懂人类的语言,只有计算机读懂了人类的语言,人和计算机的交流才成为可能,对于中文来讲,词是语言的最小单位,所以,汉语的文本分词是解决该问题的第一步,本文重要介绍了中文分词的必要性,以及中文分词的方法和存在的问题。  相似文献   

6.
应用现有的分词连写规则书写汉语普通话盲文,会因人因时而得到不同的分词结果。为减少这种分词的不确定性,提出了应用“层次分析法”优化分词规则的方案。首先论述了普通话盲文的“结构分层”理论,继而给出了优化分词连写规则的总体原则、思路和优势,在详细介绍层次分析法基础理论后给出了应用层次分析法分词的原则,并列举有代表性的11个实例进行分析。改进的分词策略,不仅简化了分词规则、在很大程度上减少了盲文分词的不确定性,简单易用。  相似文献   

7.
应用“层次分析法”优化汉语盲文分词连写规则   总被引:1,自引:0,他引:1  
应用现有的分词连写规则书写汉语普通话盲文,会因人因时而得到不同的分词结果.为减少这种分词的不确定性,提出了应用“层次分析法”优化分词规则的方案.首先论述了普通话盲文的“结构分层”理论,继而给出了优化分词连写规则的总体原则、思路和优势,在详细介绍层次分析法基础理论后给出了应用层次分析法分词的原则,并列举有代表性的11个实例进行分析.改进的分词策略,不仅简化了分词规则、在很大程度上减少了盲文分词的不确定性,简单易用.  相似文献   

8.
汉语的自动分词   总被引:2,自引:0,他引:2  
本文分析了汉语自动分词的困难,概述了已公布的主要分词方法,简单介绍了在1986年开发的一个分词系统.  相似文献   

9.
根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的分词词典机制有效地提高了汉语自动分词的速度和效率.  相似文献   

10.
基于最长次长匹配的汉语自动分词   总被引:11,自引:1,他引:11  
汉语自动分词是中文信息处理领域所特有的一个重要研究课题,机器翻译(MT),自然语言理解(NLU),情报检索(IR)等都需以自动分词作为基础。为解决分词中的歧义问题,针对歧义切分字段的分布特点,提出一种基于最长匹配原则的汉语自动分词方法,分词效果较好。  相似文献   

11.
论述了一种基于中文分词的主观题自动评分优化算法的设计与实现,详细介绍了中文分词技术及实现方法,对单词串匹配度从单词长度、单词词形、单词顺序及影响因子四个方面进行算法设计与分析,最后进行实验测试,测试结果表明采用此优化算法进行的自动评分准确率有显著提升.  相似文献   

12.
王巍 《中州大学学报》2007,24(1):120-122
汉语的自动分词是汉语语言处理的基础,本文讨论了汉语自动分词歧义问题的产生与分类,重点研究了交集型歧义字段的排歧策略,实现了一种基于Perl的汉语自动分词方法,在比较同种算法的VC 实现上,结果显示基于Perl的实现具有简洁和高效的优点。  相似文献   

13.
汉语是由单音节字组成的,而每个音节字又是由声母和调母组成的,分段就是从语言流背景噪声中检取出各音节字并分割出各音节字中声母和调母的范围。本文根据汉语时域参数的统计分布,设置若干阈值,用自动分段程序得出寂静、声母和调母的范围;以语言信号流波形的人工分段结果为标准,得出两句汉语(一句为女声,16个音节字;另一句为男声,9个音节字)的自动分段结果,其准确率达97%以上。  相似文献   

14.
探讨了用计算机进行汉英自动翻译的一些重要问题:(1)词的自动区分:(2)多意词的处理;(3)中介语言。  相似文献   

15.
中文自动分词技术在中文信息处理、Web文档挖掘等处理文档类研究中是一项关键技术,而分词算法是其中的核心.正向最大匹配算法FMM( Forward Maximum Match)具有切分速度快、简洁、容易实现等优点,但是还存在分词过程中设定的最大词长初始值固定不变的问题,带来匹配次数相对较多的弊端.针对此问题提出了根据中文...  相似文献   

16.
汉语自动分词中中文地名识别   总被引:6,自引:0,他引:6  
以词语级的中文地名为识别对象,根据地名内部用字的统计信息和地名构成特点产生潜在地名.在汉语自动分词中将可信度较高的潜在地名等同于句子的候选切分词,利用候选切分词本身的可信度和上下文接续关系评价句子的各种切分方案.在确定句子最佳切分时识别句子中的中文地名.对真实语料进行封闭和开放测试,封闭测试结果为召回率93.55%,精确率94.14%,F-1值93.85%;开放测试结果为召回率91.27%,精确率73.48%,F-1值81.42%.取得了比较令人满意的结果.  相似文献   

17.
针对传统GrabCut算法需要人机交互且难以在复杂背景或光照不均匀时准确分割目标树叶的缺点,提出一种基于GrabCut算法的复杂背景下或光照不均匀时目标树叶的自动分割算法。本算法利用模糊高斯混合模型(FGMM)和图像的颜色信息对原始图像进行标记实现自动分割。首先选取合适的模糊因子利用模糊高斯混合模型对图像像素进行一次标记;在一次标记的基础上再结合超绿算法(EXG)选取合适的阈值对图像像素进行二次标记;最后将二次标记图像初始化GrabCut算法实现目标树叶的自动分割。利用几种不同的样本对提出算法的有效性和错分率进行探讨。结果表明,所提出的算法可以实现复杂背景下或光照不均匀时目标树叶的自动分割,且平均错分率达到1.625。  相似文献   

18.
针对汉语自动分词后词条的特征信息缺失的问题,提出以词串为分词单位的中文文本分词方法,将整个分词过程分解为三个子过程:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的语义信息更丰富,有助于文本特征选择效果的改善和文本分类性能的提高。  相似文献   

19.
介绍了一种集合了规则、串频统计和中文上下文关系分析的现代汉语分词系统.系统对原文进行三次扫描,首先将原文读入内存,利用规则将原文变成若干个串,构成语段十字链表;然后对每个串中的子串在上下文中重复出现的次数进行统计,把根据统计结果分析出的最有可能是词的子串作为临时词;最后利用中文语法的上下文关系并结合词典对原文进行分词处理.系统对未登录词的分词有很好的效果.  相似文献   

20.
非限定手写汉字的分割研究   总被引:2,自引:0,他引:2  
分析目前手写汉字分割研究的几种有效方法,在此基础之上提出了针对非限定手写汉字分割的多层投影算法。通过对经典投影方法的补充和扩展,建立算法的基本模型,编写相应的程序,应用于支票校验系统当中。实际的金融支票大写汉字识别实验结果证实所提出的算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号