期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

梁胜成卫青《南京邮电大学学报(自然科学版)》2013,(6):112-117

在分词过程中如何处理歧义切分是中文分词算法要解决的难点之一.文中提出了一种改进的基于词典和基于统计的组合中文分词算法,能够发现并处理交集型歧义,该算法在发现歧义的过程中没有采取传统的双向匹配法而是采用双栈的结构,减少了匹配花费时间,并分别采取长词优先和最大概率方法处理一般的交集型歧义和特殊的同词长交集型歧义.最后通过实例对文中所提出的算法进行实验验证,结果表明该算法比传统的分词算法有更好的准确率. 相似文献

2.

基于统计的云搜索中文分词算法

《西北大学学报(自然科学版)》2015,(4):568-572

针对当前云搜索系统中中文分词仅仅采用简单的正向匹配最大算法和逆向最大匹配算法容易产生歧义的问题,提出了采用平均最大分词算法分词,并用最小分词偏离标准差消除歧义的方法进行云搜索系统的中文分词。经过测试,该算法明显优于正向最大匹配算法和逆向最大匹配算法。相似文献

3.

文本分词的自动校对

李群《渤海大学学报(自然科学版)》2006,27(3):277-280

讨论和分析了自动分词的现状，并针对分词问题，提出了一种基于规则的中文文本分词自动校对方法。该方法通过对机器分词语料和人工校对语料的对比，自动获取中文文本的分词校对规则，并应用规则对机器分词结果进行自动校对，提高分词语料的质量。相似文献

4.

快速双向中文分词算法

原佳丽杨仁广孟祥增《山东师范大学学报(自然科学版)》2009,24(1):75-77

中文分词是中文信息处理的基础、前提和关键．通过分析已有的中文分词算法,提出了一种新的分词词典机制,并根据新的分词词典机制提出了一种快速双向中文分词算法．使用该算法可以实现快速查找和双向匹配,从而极大地提高中文分词的速度和准确率．相似文献

5.

基于双字词的动态最大匹配分词算法的研究

宋国柱陈俊杰《太原科技大学学报》2009,30(3)

通过研究和分析现有最大匹配分词算法,词库结构的设计和分词算法直接关系着分词的速度和效率,提出了一种改进的最大匹配分词算法--基于双字词的动态最大匹配分词算法,设计并实现了汉语分词词库和算法.实验结果表明,此算法相对于现有最大匹配分词算法有显著提高. 相似文献

6.

消解中文三字长交集型分词歧义的算法 总被引：18，自引：0，他引：18

孙茂松左正平黄昌宁《清华大学学报(自然科学版)》1999,39(5):geMap1

汉语自动分词在中文信息处理现实应用中占据着十分重要的位置。三字长交集型分词歧义是分词歧义的主要类型之一,在真实文本中的出现频率相当高。提出了一种针对这种分词歧义的消解算法,回避了训练代价比较高昂的词性信息而仅仅利用了词的概率信息及某些具有特定性质的常用字集合。从一个６０万字的汉语语料库中抽取出全部不同的三字长交集型分词歧义共５３６７个作为测试样本。实验结果表明,该算法的消解正确率达到了９２．０７％,基本可以满足实用型中文信息处理系统的需要。相似文献

7.

藏文分词中交集型歧义字段的切分方法研究

普布旦增;欧珠《西藏大学学报》2010,(Z1):196-197

藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,文章提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。相似文献

8.

智能人机交互中自动分词技术的实现

赵志靖周静冯锐齐丙辰《扬州大学学报(自然科学版)》2005,8(3):58-61

根据实际工作,开发了一个自动分词系统,对汉语自动分词技术在智能人机交互中的实现进行探讨.基于系统的情况,分词算法采用了最大匹配法,在词库检索中提出了化查询为直接存取的方法,提高了检索效率,节省了内存,有利于分词速度的提高. 相似文献

9.

基于规则的几何语言自动分词算法

解烈军侯晓荣周彩莲《淮阴师范学院学报(自然科学版)》2004,3(2):152-155

对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述.基于几何中的自然语言,结合正向减词最大匹配法,提出了适合几何语言的GMMM分词算法,并给出了算法的实现过程. 相似文献

10.

基于优化最大匹配与统计结合的汉语分词方法 总被引：1，自引：0，他引：1

刘春辉金顺福刘国华李颖《燕山大学学报》2009,33(2)

汉语自动分词足中文信息处理的前提,如何提高分词效率是中文信息处理技术面临的一个主要问题.基于训典和基于统计的分词方法是现有分词技术的主要方法,但是前者无法处理歧义字段,后者需要大量的词频汁算耗费时间.本文提出优化最大匹配与统汁结合的分词方法,首先提出优化最大匹配算法,在此基础上提出了规则判断与信息量统计两种消歧策略.然后,给出了优化最大匹配与统计结合的分词算法,提高了分词的效率.最后,基十分词算法实现中义分词系统,并通过实验对算法进行了分析和验证. 相似文献

11.

基于词形的最佳路径分词算法 总被引：4，自引：0，他引：4

林绮屏《华南师范大学学报(自然科学版)》2002,(4):81-84

在基于词形统计模型分词算法的基础上，通过以存词表结构的有效组织及改进词的匹配算法和切分算法，并以最佳路径法实现了一种快速的基于词形的分词算法，在保证了较高准确率的同时，大大提高了分词速度。相似文献

12.

高校精品课程知识管理中的分词和标引

王玲《奇闻怪事》2008,(12)

分词是汉语文献处理的第一步.目前,在多种分词算法中正向最大匹配算法最为简洁、易于实现、日常应用也最为广泛.我们主要运用理论知识剖析算法中的优缺点,着重研究这种分词算法切分词语的速度,并进一步优化和改进这种分词算法,提出可行性改进方案,最终提高算法切分词语的效率和准确率.高校精品课程的知识管理可以尝试采用基于词表的最大匹配法进行分词,可建立有关词表.在此基础上,可提出一套高校精品课程知识管理的标引方法. 相似文献

13.

基于标记的分词算法 总被引：1，自引：0，他引：1

亢临生张永奎《山西大学学报(自然科学版)》1994,17(3):283-286

目前，自动分词的算法很多，但都有不能满足实用的要求。文中介绍一种在最大匹配法基础上，根据大量的真实语料中出现的语言现象，把汉语中的词按其在分词意义下的特性进行分类，并用不同的标记标识，对每一类词确定一组规则进行处理，使分词算法更接近于实用的目的。相似文献

14.

一种应用分治策略的中文分词方法

赵春红高希龙王柠赵威刘国华《燕山大学学报》2009,33(5):444-449

自动分词是中文信息处理的关键步骤。由于具有结构简单、易于实现和开发周期短等优点,基于词典的分词方法被广泛应用。结合中文多字词数量少,使用频度低的特点,设计实现了一种新的词典机制,在此基础上,把分治策略引入到分词中,提出了一种新的分词算法,幷对该算法进行了理论分析和实验验证。相似文献

15.

汉语音节全分词算法

罗小强王仁华《中国科学技术大学学报》1995,25(2):143-147

本文在统一的分词模型──分词图的基础上，提出了一种汉语音节全分词法，它可以给出在分词词典约束下所有可能的分词结果，为高层的句法、语义分析提供了多个候选结果，避免了在某种具体准则下丢失分词结果的困难，因此适用面比较广．相似文献

16.

中文分词技术研究 总被引：1，自引：0，他引：1

于洪波《东莞理工学院学报》2010,17(5):40-44

随着网络信息资源呈指数级增长,我们已经进入了信息化时代,信息技术已渗透到我们社会生活的方方面面。中文文本分词技术作为中文信息处理中的重要环节,其作用就显得越来越重要。对中文分词的必要性、存在的困难进行了综述,并分析了几种分词方法的原理、特点和算法实现。相似文献

17.

基于统计的无词典分词方法 总被引：17，自引：0，他引：17

下载免费PDF全文

傅赛香袁鼎荣黄柏雄钟智《广西科学院学报》2002,18(4):252-255,264

通过分析词的结合模式，提出无词典分词模型，并对该模型进行实验测试。测试结果表明，无词典分词模型能够满足快速分词的要求。相似文献

18.

一种基于LUCENE的中文分词算法研究

戴洪蒋静樊程于雪丽《青岛大学学报(自然科学版)》2011,(3):53-58

由于Lucene自带的ChineseAnalyzer和CJKAnalyzer两种中文分析器不能够满足全文检索系统的应用,本文给出了一种新的中文分词算法,用于改进Lucene中文分析器。该算法基于字符串匹配原理,实现了正向和逆向相结合的最大增字匹配分词算法。通过实验仿真,比较改进后的分析器与Lucene自带的两种分析器在分词效果和效率上的差异。结果显示,改进后的分析器分词效果明显优于Lucene自带的两种分析器,提高了全文检索系统的中文处理能力,系统的查全率和查准率都达到用户的需求。相似文献

19.

中文分词技术 总被引：3，自引：0，他引：3

《科技信息》2007,(36)

在现代化的社会,为了更好的利用计算机来处理以自然语言为载体的信息,让计算机能读懂人类的语言,只有计算机读懂了人类的语言,人和计算机的交流才成为可能,对于中文来讲,词是语言的最小单位,所以,汉语的文本分词是解决该问题的第一步,本文重要介绍了中文分词的必要性,以及中文分词的方法和存在的问题。相似文献

20.

一种基于语词的分词方法 总被引：10，自引：0，他引：10

赵曾贻陈天娥朱兰《苏州大学学报(医学版)》2002,18(3):44-48

提出了一种基于语词的分词系统 ,设计了相应的分词词典 .该分词词典支持词条首字Hash查找和标准的不限词条长度的二分查找算法 ,并应用于全文检索中 .结果分析表明 ,此分词系统无论是在检索速度上 ,还是在歧义处理上都有很大的改进相似文献