共查询到19条相似文献,搜索用时 109 毫秒
1.
《西北民族学院学报》2010,(4)
藏文分词词典是藏文自动分词系统的的重要组成部分.词典的数据结构与检索速度直接影响到自动分词系统的质量.文章对几种常见的汉语分词词典机制及其效率进行了分析,并根据藏文基本集编码字符串的结构特征,提出了一种逐音节二分的藏文分词词典机制. 相似文献
2.
汉语分词技术研究现状与应用展望 总被引:8,自引:0,他引:8
汉语自动分词是计算机中文信息处理系统的基础和难题,本文对近年来的汉语自动分词的研究方法与成果进行了分析综述。探讨了分词中存在的一些关键问题,同时介绍了分词技术在科研以及商用系统中的应用。并展望了未来分词技术在应用方向的发展. 相似文献
3.
李群 《渤海大学学报(自然科学版)》2006,27(3):277-280
讨论和分析了自动分词的现状,并针对分词问题,提出了一种基于规则的中文文本分词自动校对方法。该方法通过对机器分词语料和人工校对语料的对比,自动获取中文文本的分词校对规则,并应用规则对机器分词结果进行自动校对,提高分词语料的质量。 相似文献
4.
5.
一种基于语词的分词方法 总被引:10,自引:0,他引:10
提出了一种基于语词的分词系统 ,设计了相应的分词词典 .该分词词典支持词条首字Hash查找和标准的不限词条长度的二分查找算法 ,并应用于全文检索中 .结果分析表明 ,此分词系统无论是在检索速度上 ,还是在歧义处理上都有很大的改进 相似文献
6.
7.
根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的分词词典机制有效地提高了汉语自动分词的速度和效率. 相似文献
8.
陈顺强 《西南民族学院学报(自然科学版)》2011,37(1)
自动分词是彝文信息处理领域的一项基础性课题.词类的划分标准是正确切分词乃至以后的词性标注、文字识别、文本校对、机器翻译、篇章理解、自动文摘、文本校对、自动标引等彝文信息处理研究的必要条件.本文首先首先阐述了研究彝文分词规范的必要性和重要意义; 然后提出了彝文分词规范的基本原则; 讨论了研制彝文分词规范中存在的一些问题. 相似文献
9.
自然语言理解涉及的技术很多.现讨论其中的三部分:第一部分讨论自动分词,阐述了自动分词需要解决的问题;第二部分设计了一个快速的直接映射式检索算法;第三部分初步探讨了汉语文摘生成处理的一个方法. 相似文献
10.
本文根据彝文自身的特点,从分词词表、分词算法、设计原则、结构流程、系统界面和功能、实验结果等6个方面详细分析了彝文自动分词系统的实现过程及自动分词过程实例;最后给出了实验结果,结果表明系统具有较高的切分精度和较好的通用性,对彝文自动分词技术的研究做了一次尝试性探索。 相似文献
11.
12.
论述了一种基于中文分词的主观题自动评分优化算法的设计与实现,详细介绍了中文分词技术及实现方法,对单词串匹配度从单词长度、单词词形、单词顺序及影响因子四个方面进行算法设计与分析,最后进行实验测试,测试结果表明采用此优化算法进行的自动评分准确率有显著提升. 相似文献
13.
词切分是像汉语这类非拉丁语言的一个特有问题,并且由于汉语组词中普遍存在着岐义性和语境依赖性,这一问题也是一个尚未得到彻底解决的难题。本文通过仔细分析汉语分词岐义的规律,将追求整体最优效果的松驰算法引入到汉语自动分词的排岐研究中。借助于语词之间搭配关系等上下文约束条件以及词频、字频等统计数据,构造了一种汉语分词排岐的新方法。实验结果表明,这种方法在切分精度和切分速度上都取得了较好的效果,为解决汉语自动分词难题提供了一种新途径。 相似文献
14.
基于最长次长匹配的汉语自动分词 总被引:12,自引:1,他引:11
汉语自动分词是中文信息处理领域所特有的一个重要研究课题,机器翻译(MT),自然语言理解(NLU),情报检索(IR)等都需以自动分词作为基础。为解决分词中的歧义问题,针对歧义切分字段的分布特点,提出一种基于最长匹配原则的汉语自动分词方法,分词效果较好。 相似文献
15.
汉语的自动分词是汉语语言处理的基础,本文讨论了汉语自动分词歧义问题的产生与分类,重点研究了交集型歧义字段的排歧策略,实现了一种基于Perl的汉语自动分词方法,在比较同种算法的VC 实现上,结果显示基于Perl的实现具有简洁和高效的优点。 相似文献
16.
Finding out out-of-vocabulary words is an urgent and difficult task in Chinese words segmentation. To avoid the defect causing by offline training in the traditional method, the paper ptoposes an improved prediction by partical match (PPM) segmenting algorithm for Chinese words based on extracting local context information, which adds the context information of the testing text into the local PPM statistical model so as to guide the detection of new words. The algorithm focuses on the process of online segmentation and new word detection which achieves a good effect in the close or opening test, and outperforms some well-known Chinese segmentation system to a certain extent. 相似文献
17.
针对目前中文分词技术主要依赖于常用词词典,而词典对未登录词识别率较低的问题,提出一种用双词典识别未登录词的方法,即构建一个常用词词典和一个单字词词典,二者相互结合进行分词,有效解决了对未登录词识别效率偏低的问题.实验表明,采用构建单字词表法对未登录词的识别准确率可达90%以上. 相似文献
18.
一种参数可调的主观题自动阅卷实现 总被引:2,自引:0,他引:2
主观题自动阅卷长期束缚着计算机自动阅卷技术的发展.从分析主观题人工阅卷的思路人手,提出以关键词匹配为主、语意贴近度计算为辅的主观题自动阅卷方案.详细介绍了关键技术:自动分词技术、关键词匹配技术和语意贴近度计算方法.综合设计并实现了一种参数动态可调的主观题自动阅卷方法. 相似文献
19.
自然语言处理涉及的技术很多,许多研究难点的存在给我国计算机应用增加了困难.介绍了一种解决汉语系统中多音字判别和处理的方法;探讨了汉语文摘生成处理的一个方法;讨论自动分词,阐述了自动分词需要解决的问题. 相似文献