期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

朱岸青黄杰《暨南大学学报(自然科学与医学版)》2009,30(5)

设计实现了一个基于Lucene的全文检索系统模型.在该系统模型中,针对中文分词实现了基于词库的采用正向最大匹配算法的中文分词模块;针对多种格式文档的处理采用接口实现的方式和动态实例化的方法,实现了可以有效地处理txt、xml、html、pdf、doc和rtf等常见格式文档. 相似文献

2.

基于统计的云搜索中文分词算法

《西北大学学报(自然科学版)》2015,(4):568-572

针对当前云搜索系统中中文分词仅仅采用简单的正向匹配最大算法和逆向最大匹配算法容易产生歧义的问题,提出了采用平均最大分词算法分词,并用最小分词偏离标准差消除歧义的方法进行云搜索系统的中文分词。经过测试,该算法明显优于正向最大匹配算法和逆向最大匹配算法。相似文献

3.

基于VC＋＋／MFC的中文自动分词算法及其软件的实现

王艳元昌安覃晓彭昱忠宋叶俊《广西师范学院学报(自然科学版)》2008,25(3)

中文自动分词一直是中文信息处理、Web文档挖掘等处理文档类研究的基础技术之一,传统的中文分词技术研究,主要集中在算法的改进研究上,对实验的平台,有关软件的实现涉及很少.本文通过探讨中文自动分词的重要性和不可或缺性,给出了基于VC /MFC自动分词软件的开发技术,最后对软件实现的四种基于词典的机械匹配的算法进行了实验分析,实验证明该系统能够高效的给中文信息处理提供一个平台. 相似文献

4.

一种基于改进最大匹配快速中文分词算法

林浩韩冰杨乐华《科技咨询导报》2009,(9):248-248

本文提出了一种基于最大匹配快速中文分词算法的改进算法。通过对最大匹配分词算法做出改进,从而解决了最大匹配快速中文分词算法所不能解决的一些问题,并得出较准确的粗分结果。结合本人主持开发的《长春市市长干公开电话之中文分词系统》的项目实践,对系统海量信息的处理起到了关键作用, 相似文献

5.

基于专业词典的带词长的中文分词技术的研究

刘勇王崇《科技信息》2012,(34):188-189

中文分词词典是中文信息处理技术的重要基础,中文分词词典设计的优劣直接关系着分词的速度与效率。本文在研究了各种中文分词算法和中文分词词典机制的基础上,提出了一种基于专业词典的带词长的中文分词词典算法,主要用于对专业文档中进行加工处理,并且基于该算法设计了一个基于专业词典的带词长的中文分词词典的专业文档切分系统。相似文献

6.

基于组合型中文分词技术的改进

梁胜成卫青《南京邮电大学学报(自然科学版)》2013,(6):112-117

在分词过程中如何处理歧义切分是中文分词算法要解决的难点之一.文中提出了一种改进的基于词典和基于统计的组合中文分词算法,能够发现并处理交集型歧义,该算法在发现歧义的过程中没有采取传统的双向匹配法而是采用双栈的结构,减少了匹配花费时间,并分别采取长词优先和最大概率方法处理一般的交集型歧义和特殊的同词长交集型歧义.最后通过实例对文中所提出的算法进行实验验证,结果表明该算法比传统的分词算法有更好的准确率. 相似文献

7.

基于双字词的动态最大匹配分词算法的研究

宋国柱陈俊杰《太原科技大学学报》2009,30(3)

通过研究和分析现有最大匹配分词算法,词库结构的设计和分词算法直接关系着分词的速度和效率,提出了一种改进的最大匹配分词算法--基于双字词的动态最大匹配分词算法,设计并实现了汉语分词词库和算法.实验结果表明,此算法相对于现有最大匹配分词算法有显著提高. 相似文献

8.

基于文档指纹的中文复制检测方法 总被引：1，自引：0，他引：1

麻会东刘国华李现伟刘春辉《广西师范大学学报(自然科学版)》2007,25(4):112-115

文档复制检测技术是保护知识产权和提高信息检索效率的有效有段。目前,关于英文的复制检测技术已经趋向成熟,但关于中文的复制检测技术才刚刚起步。在此提出基于文档指纹的中文复制检测方法,改进了正向最大匹配分词方法并建立了相应的语料库机制,提出k-words分解句子的方法;定义了两篇文档同粒度指纹矩阵之间的匹配运算。实验结果表明,所提出的方法能高效地进行中文文档复制检测。相似文献

9.

基于对偶编码的中文分词算法

《南京理工大学学报(自然科学版)》2014,(4)

为了提高中文分词算法的切分速度和存储效率,提出一种基于对偶编码的特征匹配算法。由中文分词的字符集和字符相邻关系提取特征值,根据此特征值在中文分词词典中进行快速匹配,基于字符的位置相邻关系提取特征值,支持模糊匹配,因此无需对多字词进行单独匹配,从而有效节省匹配时间。实验仿真表明,该算法可以降低特征存储空间,有效提高中文分词精度和效率。相似文献

10.

快速双向中文分词算法

原佳丽杨仁广孟祥增《山东师范大学学报(自然科学版)》2009,24(1):75-77

中文分词是中文信息处理的基础、前提和关键．通过分析已有的中文分词算法,提出了一种新的分词词典机制,并根据新的分词词典机制提出了一种快速双向中文分词算法．使用该算法可以实现快速查找和双向匹配,从而极大地提高中文分词的速度和准确率．相似文献

11.

数据库受限汉语自然语言查询的分词研究与实现

胡婕李跃新《湖北大学学报(自然科学版)》2005,27(4):331-335

对数据库受限汉语自然语言查询语句进行分渊处理．分词算法分为两个部分,第一部分对最大匹配法进行改进,改进的核心思想足体现整句长词优先的原则,改进后的算法能够减少切分歧义;第二部分根据实例数据库的查询需要处理姓名和不稳定的属性值两类未登录词,未登录词的识别对后续句子的理解起着至关重要的作用．相似文献

12.

基于编辑距离的中文组织机构名简称-全称匹配算法

黄林晟邓志鸿唐世渭王文清陈凌《山东大学学报(理学版)》2012,47(5):43-48

在面对中文语言环境下组织机构名简称-全称匹配这一具体问题时,经典的基于编辑距离进行字符串相似匹配方法的实用性有所下降。基于编辑距离的思想,提出了一种改进匹配算法:首先对简称和全称进行分词,以切合中文的语法结构特点;之后结合重定义的词汇语义相似度度量方法,修改编辑操作权重,并通过自适应学习的方式进一步修正;最后选择与简称编辑距离最小的全称作为匹配结果。实验结果表明,该算法匹配准确率比原始方法有较大提升。相似文献

13.

一种基于中文分词的主观题自动评分优化算法研究

胡恩博余腊生《长沙大学学报》2014,(5):59-61

论述了一种基于中文分词的主观题自动评分优化算法的设计与实现,详细介绍了中文分词技术及实现方法,对单词串匹配度从单词长度、单词词形、单词顺序及影响因子四个方面进行算法设计与分析,最后进行实验测试,测试结果表明采用此优化算法进行的自动评分准确率有显著提升. 相似文献

14.

一种基于SVM和规则消除组合型歧义的算法 总被引：2，自引：0，他引：2

刘禹孜何中市《重庆大学学报(自然科学版)》2005,28(10):50-53

歧义的处理是影响分词系统切分精度的重要因素,也是中文自动分词系统中较为困难的问题.提出一种基于支持向量机(SVM)和规则(Rules)相结合的算法(SR算法),对中文分词过程中的组合型歧义字段进行排歧.SR算法主要思想是利用支持向量机分类的原理,结合词性搭配的一些规则排除组合型歧义.实验表明,用此算法对几种不同的语料进行排歧测试,排除组合型歧义字段的切分正确率可达83%左右,为解决中文自动分词难题提供了一条新路径. 相似文献

15.

一种Hash高速分词算法 总被引：9，自引：2，他引：7

下载免费PDF全文

李向阳张亚非《解放军理工大学学报(自然科学版)》2004,5(2):40-44

对于基于词的搜索引擎等中文处理系统,分词速度要求较高。设计了一种高效的中文电子词表的数据结构,它支持首字和词的Hash查找。提出了一种Hash高速分词算法,理论分析表明,其平均匹配次数低于1．08,优于目前的同类算法。相似文献

16.

基于最大熵模型的交集型切分歧义消解 总被引：6，自引：0，他引：6

张锋樊孝忠《北京理工大学学报》2005,25(7):590-593

利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过正向最大匹配(FMM)和逆向最大匹配(BMM)相结合的分词方法,发现训练文本中的交集型歧义字段并进行标注,用于最大熵模型的训练.实验用1998年1月<人民日报>中出现的交集型歧义字段进行训练和测试,封闭测试正确率98.64%,开放测试正确率95.01%,后者比常用的词概率法提高了3.76%. 相似文献

17.

汉语分词中一种逐词匹配算法的研究 总被引：1，自引：0，他引：1

邓曙光曾朝晖《湖南城市学院学报(自然科学版)》2005,14(1):76-78

提出了一种改进的运词匹配算法．该算法通过对非歧义字段切分,对人名地名进行判别,以及对伪歧义字段进行处理,使交集型歧义字段切分正确率有了大幅度提高．在5万汉字语料开放测试中,交集型歧义字鼹切分正确率可达98％以上．相似文献

18.

基于统计规则的交集型歧义处理方法 总被引：1，自引：1，他引：0

翟凤文赫枫龄左万利《吉林大学学报(理学版)》2006,44(2):223-228

中文分词是中文信息处理的基础, 歧义问题是中文分词的一个难点, 而交集型歧义问题占歧义问题的90%以上, 因此对交集型歧义问题的研究是中文分词研究的一个重点. 通过反复的实验和对实验结果的分析, 提出了5条规则, 并根据这5条规则给出了一种针对交集型歧义字段切分的算法, 实验结果表明, 基于该算法实现的分词系统DSfenci, 对于交集型歧义消解的准确率高于95.22%. 相似文献