首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
藏文分词词典是藏文自动分词系统的的重要组成部分.词典的数据结构与检索速度直接影响到自动分词系统的质量.文章对几种常见的汉语分词词典机制及其效率进行了分析,并根据藏文基本集编码字符串的结构特征,提出了一种逐音节二分的藏文分词词典机制.  相似文献   

2.
汉语分词技术研究现状与应用展望   总被引:8,自引:0,他引:8  
汉语自动分词是计算机中文信息处理系统的基础和难题,本文对近年来的汉语自动分词的研究方法与成果进行了分析综述。探讨了分词中存在的一些关键问题,同时介绍了分词技术在科研以及商用系统中的应用。并展望了未来分词技术在应用方向的发展.  相似文献   

3.
讨论和分析了自动分词的现状,并针对分词问题,提出了一种基于规则的中文文本分词自动校对方法。该方法通过对机器分词语料和人工校对语料的对比,自动获取中文文本的分词校对规则,并应用规则对机器分词结果进行自动校对,提高分词语料的质量。  相似文献   

4.
采用面向对象的编程工具和数据库技术,使用改进的机械分词方法,开发了适合教学方面的中文索引和检索服务系统(课程词典)。系统负责搜索和获取指定范围内的有关数据。对检索服务系统的工作原理和关键技术进行了讨论和分析。该系统基于"自然语言理解"的智能检索,背景为对教学方面信息检索系统的设计与开发。系统中,无论是对用户提问的分析,还是对所检索的信息都是以汉语自动分词为基础加工处理,因而将汉字串切分为汉词串的分词问题即为该系统研发的前提和关键。  相似文献   

5.
一种基于语词的分词方法   总被引:10,自引:0,他引:10  
提出了一种基于语词的分词系统 ,设计了相应的分词词典 .该分词词典支持词条首字Hash查找和标准的不限词条长度的二分查找算法 ,并应用于全文检索中 .结果分析表明 ,此分词系统无论是在检索速度上 ,还是在歧义处理上都有很大的改进  相似文献   

6.
几种基于词典的中文分词算法评价   总被引:1,自引:0,他引:1  
基于词典的中文自动分词是中文信息处理的基础.按照使用计算机缓存的优化原则,分析了几种典型的分词词典机制,指出了其中的一些问题.改进了整词二分法,极大地提高了速度.结合哈希索引和PATRICIA tree搜索算法,提出了一个综合最优化的中文分词系统.  相似文献   

7.
根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的分词词典机制有效地提高了汉语自动分词的速度和效率.  相似文献   

8.
自动分词是彝文信息处理领域的一项基础性课题.词类的划分标准是正确切分词乃至以后的词性标注、文字识别、文本校对、机器翻译、篇章理解、自动文摘、文本校对、自动标引等彝文信息处理研究的必要条件.本文首先首先阐述了研究彝文分词规范的必要性和重要意义; 然后提出了彝文分词规范的基本原则; 讨论了研制彝文分词规范中存在的一些问题.  相似文献   

9.
自然语言理解涉及的技术很多.现讨论其中的三部分:第一部分讨论自动分词,阐述了自动分词需要解决的问题;第二部分设计了一个快速的直接映射式检索算法;第三部分初步探讨了汉语文摘生成处理的一个方法.  相似文献   

10.
本文根据彝文自身的特点,从分词词表、分词算法、设计原则、结构流程、系统界面和功能、实验结果等6个方面详细分析了彝文自动分词系统的实现过程及自动分词过程实例;最后给出了实验结果,结果表明系统具有较高的切分精度和较好的通用性,对彝文自动分词技术的研究做了一次尝试性探索。  相似文献   

11.
针对汉语自动分词后词条的特征信息缺失的问题,提出以词串为分词单位的中文文本分词方法,将整个分词过程分解为三个子过程:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的语义信息更丰富,有助于文本特征选择效果的改善和文本分类性能的提高。  相似文献   

12.
论述了一种基于中文分词的主观题自动评分优化算法的设计与实现,详细介绍了中文分词技术及实现方法,对单词串匹配度从单词长度、单词词形、单词顺序及影响因子四个方面进行算法设计与分析,最后进行实验测试,测试结果表明采用此优化算法进行的自动评分准确率有显著提升.  相似文献   

13.
词切分是像汉语这类非拉丁语言的一个特有问题,并且由于汉语组词中普遍存在着岐义性和语境依赖性,这一问题也是一个尚未得到彻底解决的难题。本文通过仔细分析汉语分词岐义的规律,将追求整体最优效果的松驰算法引入到汉语自动分词的排岐研究中。借助于语词之间搭配关系等上下文约束条件以及词频、字频等统计数据,构造了一种汉语分词排岐的新方法。实验结果表明,这种方法在切分精度和切分速度上都取得了较好的效果,为解决汉语自动分词难题提供了一种新途径。  相似文献   

14.
基于最长次长匹配的汉语自动分词   总被引:12,自引:1,他引:11  
汉语自动分词是中文信息处理领域所特有的一个重要研究课题,机器翻译(MT),自然语言理解(NLU),情报检索(IR)等都需以自动分词作为基础。为解决分词中的歧义问题,针对歧义切分字段的分布特点,提出一种基于最长匹配原则的汉语自动分词方法,分词效果较好。  相似文献   

15.
王巍 《中州大学学报》2007,24(1):120-122
汉语的自动分词是汉语语言处理的基础,本文讨论了汉语自动分词歧义问题的产生与分类,重点研究了交集型歧义字段的排歧策略,实现了一种基于Perl的汉语自动分词方法,在比较同种算法的VC 实现上,结果显示基于Perl的实现具有简洁和高效的优点。  相似文献   

16.
Finding out out-of-vocabulary words is an urgent and difficult task in Chinese words segmentation. To avoid the defect causing by offline training in the traditional method, the paper ptoposes an improved prediction by partical match (PPM) segmenting algorithm for Chinese words based on extracting local context information, which adds the context information of the testing text into the local PPM statistical model so as to guide the detection of new words. The algorithm focuses on the process of online segmentation and new word detection which achieves a good effect in the close or opening test, and outperforms some well-known Chinese segmentation system to a certain extent.  相似文献   

17.
针对目前中文分词技术主要依赖于常用词词典,而词典对未登录词识别率较低的问题,提出一种用双词典识别未登录词的方法,即构建一个常用词词典和一个单字词词典,二者相互结合进行分词,有效解决了对未登录词识别效率偏低的问题.实验表明,采用构建单字词表法对未登录词的识别准确率可达90%以上.  相似文献   

18.
一种参数可调的主观题自动阅卷实现   总被引:2,自引:0,他引:2  
主观题自动阅卷长期束缚着计算机自动阅卷技术的发展.从分析主观题人工阅卷的思路人手,提出以关键词匹配为主、语意贴近度计算为辅的主观题自动阅卷方案.详细介绍了关键技术:自动分词技术、关键词匹配技术和语意贴近度计算方法.综合设计并实现了一种参数动态可调的主观题自动阅卷方法.  相似文献   

19.
自然语言处理涉及的技术很多,许多研究难点的存在给我国计算机应用增加了困难.介绍了一种解决汉语系统中多音字判别和处理的方法;探讨了汉语文摘生成处理的一个方法;讨论自动分词,阐述了自动分词需要解决的问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号