首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 125 毫秒
1.
中文分词是中文信息处理的基础、前提和关键.通过分析已有的中文分词算法,提出了一种新的分词词典机制,并根据新的分词词典机制提出了一种快速双向中文分词算法.使用该算法可以实现快速查找和双向匹配,从而极大地提高中文分词的速度和准确率.  相似文献   

2.
藏文分词词典是藏文自动分词系统的的重要组成部分.词典的数据结构与检索速度直接影响到自动分词系统的质量.文章对几种常见的汉语分词词典机制及其效率进行了分析,并根据藏文基本集编码字符串的结构特征,提出了一种逐音节二分的藏文分词词典机制.  相似文献   

3.
一种基于语词的分词方法   总被引:10,自引:0,他引:10  
提出了一种基于语词的分词系统 ,设计了相应的分词词典 .该分词词典支持词条首字Hash查找和标准的不限词条长度的二分查找算法 ,并应用于全文检索中 .结果分析表明 ,此分词系统无论是在检索速度上 ,还是在歧义处理上都有很大的改进  相似文献   

4.
刘勇  王崇 《科技信息》2012,(34):188-189
中文分词词典是中文信息处理技术的重要基础,中文分词词典设计的优劣直接关系着分词的速度与效率。本文在研究了各种中文分词算法和中文分词词典机制的基础上,提出了一种基于专业词典的带词长的中文分词词典算法,主要用于对专业文档中进行加工处理,并且基于该算法设计了一个基于专业词典的带词长的中文分词词典的专业文档切分系统。  相似文献   

5.
根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的分词词典机制有效地提高了汉语自动分词的速度和效率.  相似文献   

6.
几种基于词典的中文分词算法评价   总被引:1,自引:0,他引:1  
基于词典的中文自动分词是中文信息处理的基础.按照使用计算机缓存的优化原则,分析了几种典型的分词词典机制,指出了其中的一些问题.改进了整词二分法,极大地提高了速度.结合哈希索引和PATRICIA tree搜索算法,提出了一个综合最优化的中文分词系统.  相似文献   

7.
汉语自动分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用。作者在研究几种分词词典机制的基础上提出了一种新的分词词典机制,其基本思想是:根据一字词和二字词出现频率高的特点,将词首字和次字组合成Hash索引表,其余字组成剩余结点数组。基于这种分词词典机制设计的组合Hash索引分词算法使得一字词和二字词查询只须在组合hash索引表中一步完成,从而显著提高查询速度。通过真实语料的对比实验,该算法在不降低精度的前提下,处理速度比整词二分平均提高了13.8倍,比TR IE索引树平均提高了2.7倍。结果表明:组合hash索引分词算法是实用有效的。  相似文献   

8.
自动分词是中文信息处理的关键步骤。由于具有结构简单、易于实现和开发周期短等优点,基于词典的分词方法被广泛应用。结合中文多字词数量少,使用频度低的特点,设计实现了一种新的词典机制,在此基础上,把分治策略引入到分词中,提出了一种新的分词算法,幷对该算法进行了理论分析和实验验证。  相似文献   

9.
本文在统一的分词模型──分词图的基础上,提出了一种汉语音节全分词法,它可以给出在分词词典约束下所有可能的分词结果,为高层的句法、语义分析提供了多个候选结果,避免了在某种具体准则下丢失分词结果的困难,因此适用面比较广.  相似文献   

10.
罗洋 《科技信息》2009,(7):204-204,242
在中文信息处理中,汉语的自动分词是一个难点。本文对汉语自动分词的方法及已有的词典机制进行了探讨。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号