共查询到10条相似文献,搜索用时 17 毫秒
1.
针对当前大多数词法分析系统流水线式处理方式存在的不足,提出一种一体化同步词法分析机制.在最长次长匹配分词的基础上,在切分有向图中增加词性信息和候选未登录词节点,并拓展隐马尔可夫模型,在切分有向图内同步完成分词、歧义消解、未登录词识别和词性标注等词法分析任务.实现了分词与词性标注的一体化、未登录词识别与分词的一体化以及不确定词性未登录词处理的一体化.一体化机制使词法分析中各步骤实现真正意义上的同步完成,充分利用上下文词法信息提高整体精度并保证了系统的高效性,避免了各步骤间的冲突.开放测试表明,系统综合测试的F值为98.03%. 相似文献
2.
针对目前中文分词技术主要依赖于常用词词典,而词典对未登录词识别率较低的问题,提出一种用双词典识别未登录词的方法,即构建一个常用词词典和一个单字词词典,二者相互结合进行分词,有效解决了对未登录词识别效率偏低的问题.实验表明,采用构建单字词表法对未登录词的识别准确率可达90%以上. 相似文献
3.
汉语自动分词系统中切分歧义与未登录词的处理策略 总被引:3,自引:0,他引:3
韩维良 《青海师范大学学报(自然科学版)》2004,(2):31-34
本文主要综述了汉语自动分词系统中,切分歧义与未登录词的表现形式以及相应的处理策略,指出在没有完全突破现行机器翻译理论的前提下,增强机器翻译系统中切分歧义与未登录词的处理能力,是提高系统准确率的一种有效措施. 相似文献
4.
介绍英汉机译中识别未登录词的一种新方法.首先通过相似性测量,寻找与未登录词最相似单词;然后通过手工制作的猜测规则,正确标注未登录词.测试结果说明,标注未登录词的三种性能指标分别为:大约93.8%的查全率、76.3%的查准率及94.1%的覆盖率.在以大约91.7%的标注精确率识别未登录词的同时,获得增加至大约97.3%的整体标注精确率.从而改善英语分析性能,促进英汉机译质量提高. 相似文献
5.
对数据库受限汉语自然语言查询语句进行分渊处理.分词算法分为两个部分,第一部分对最大匹配法进行改进,改进的核心思想足体现整句长词优先的原则,改进后的算法能够减少切分歧义;第二部分根据实例数据库的查询需要处理姓名和不稳定的属性值两类未登录词,未登录词的识别对后续句子的理解起着至关重要的作用. 相似文献
6.
文章针对传统藏文分词的切词难点及切分歧义现象,提出一种基于小字符集的藏文自动分词技术方案.其中包括分词预处理、多级Hash词典机制、藏文格助词紧缩格的判别及还原规则、逐字匹配算法和未登录词的处理等内容. 相似文献
7.
藏文分词是藏文信息处理领域的一项不可缺少的基础性工作,也是智能化藏文信息处理的关键所在。在藏文分词的研究过程中藏文分词的准确性,直接制约着藏文输入法研究、藏文电子词典建设、藏文词频统计、搜索引擎的设计和实现、机器翻译系统的开发、藏文语料库建设以及藏语语义分析研究等高层藏文信息处理技术的进一步发展。本文借鉴汉语的分词理论和方法,提出符合藏文特性的分词方法,以及歧义字段切分和未登录词识别等相关问题,并举例说明。 相似文献
8.
介绍英汉机译中识别未登词的一种新方法,首先通过相似性测量,寻找与未登录词最相似单词;然后通过手工制作 的猜测规划,正确标注未登录词、测试结果说明,标注未登录词的三种性能指标分别为;大约93.8%的查全率,76.3%的查准率及94.1%覆盖率。在以大约91.7%的标注精确率识别未登录词的同时,获得增加至大约97.3%的整体标注精确率,从而改善英语分析性能,促进英汉机译质量提高。 相似文献
9.
基于规则、串频统计和上下文关系的现代汉语分词系统的实现 总被引:1,自引:0,他引:1
介绍了一种集合了规则、串频统计和中文上下文关系分析的现代汉语分词系统.系统对原文进行三次扫描,首先将原文读入内存,利用规则将原文变成若干个串,构成语段十字链表;然后对每个串中的子串在上下文中重复出现的次数进行统计,把根据统计结果分析出的最有可能是词的子串作为临时词;最后利用中文语法的上下文关系并结合词典对原文进行分词处理.系统对未登录词的分词有很好的效果. 相似文献
10.
一种基于语词的分词方法 总被引:10,自引:0,他引:10
提出了一种基于语词的分词系统 ,设计了相应的分词词典 .该分词词典支持词条首字Hash查找和标准的不限词条长度的二分查找算法 ,并应用于全文检索中 .结果分析表明 ,此分词系统无论是在检索速度上 ,还是在歧义处理上都有很大的改进 相似文献