首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于最大概率分词算法的中文分词方法研究   总被引:1,自引:0,他引:1  
丁洁 《科技信息》2010,(21):I0075-I0075
本文提出了一种基于最大概率分词算法的中文分词方法,以实例贯穿全文系统描述了最大概率分词算法的基本思想与实现,根据针对大规模真实语料库的对比测试,分词运行效率有较大提高,该方法是行之有效的,并且提出了该算法的改进方向。  相似文献   

2.
中文分词技术   总被引:3,自引:0,他引:3  
在现代化的社会,为了更好的利用计算机来处理以自然语言为载体的信息,让计算机能读懂人类的语言,只有计算机读懂了人类的语言,人和计算机的交流才成为可能,对于中文来讲,词是语言的最小单位,所以,汉语的文本分词是解决该问题的第一步,本文重要介绍了中文分词的必要性,以及中文分词的方法和存在的问题。  相似文献   

3.
中文分词技术研究   总被引:1,自引:0,他引:1  
随着网络信息资源呈指数级增长,我们已经进入了信息化时代,信息技术已渗透到我们社会生活的方方面面。中文文本分词技术作为中文信息处理中的重要环节,其作用就显得越来越重要。对中文分词的必要性、存在的困难进行了综述,并分析了几种分词方法的原理、特点和算法实现。  相似文献   

4.
中文文本挖掘中的无词典分词的算法及其应用   总被引:15,自引:2,他引:15  
对中文文本挖掘中的词汇处理技术进行了较深入的探讨 ,提出了针对汉语语言特点的无词典分词算法。该算法基于“找最长字共现”的原则 ,可以准确地将文本中的词汇切分出来。  相似文献   

5.
中文分词是中文信息处理的基础、前提和关键.通过分析已有的中文分词算法,提出了一种新的分词词典机制,并根据新的分词词典机制提出了一种快速双向中文分词算法.使用该算法可以实现快速查找和双向匹配,从而极大地提高中文分词的速度和准确率.  相似文献   

6.
本文通过深入探讨中文分词技术在搜索引擎中的算法描述,并详细介绍机器不断地学习新词、动态地雏护词典的模型,尝试解决最棘手的处理新词问题,使其更好地为分词提供更智能描述特别是对新词。  相似文献   

7.
由于Lucene自带的ChineseAnalyzer和CJKAnalyzer两种中文分析器不能够满足全文检索系统的应用,本文给出了一种新的中文分词算法,用于改进Lucene中文分析器。该算法基于字符串匹配原理,实现了正向和逆向相结合的最大增字匹配分词算法。通过实验仿真,比较改进后的分析器与Lucene自带的两种分析器在分词效果和效率上的差异。结果显示,改进后的分析器分词效果明显优于Lucene自带的两种分析器,提高了全文检索系统的中文处理能力,系统的查全率和查准率都达到用户的需求。  相似文献   

8.
王巧玲  彭静  王春红 《科技信息》2011,(19):I0038-I0039
研究了中文分词技术的原理,比较了现有分词器的速度和准确性。通过研究开源搜索引擎Nutch的架构和工作流程,分析了源代码,在Nutch加入JE中文分词器,实现了Nutch的本土化。  相似文献   

9.
赵源 《科技信息》2010,(35):58-58,49
本文在中文分词技术的基础上,提出了一种基于中文文本主题提取的分词方法,以概念语义网络的思想构造主题词典,描述词间概念语义关系,采用改进的最大匹配算法对文本进行切词,既提高了分词的准确性,又能识别文中的未登录词,并同步完成主题词的规范工作。从而在概念层次上理解用户的需求,实现概念检索,提高查准率。  相似文献   

10.
李娜 《科技资讯》2010,(7):253-254
如何建立适于交通管理系统下信息检索子系统中的分词模块是提高检索性能的关键所在。本文在分析交通管理领域特点的基础上,提出了适合交通管理领域的分词方法,实现了适用于该领域内的分词系统。实验结果表明,系统测试的准确率和召回率分别达到95.9%和95.1%。  相似文献   

11.
中文分词是中文信息处理领域的重要技术,现已成为中文信息处理研究中最成熟的领域.融合多策略的中文分词算法模型在字典匹配的基础上引入了标注统计和规则理解的优化策略,将已有的句法、语义研究应用到分词排歧与未登录词识别领域.通过实验对比,初步证实分词效果较好,达到模型分词的准确率和自适应性的提升.  相似文献   

12.
中文自动分词探讨   总被引:5,自引:2,他引:5  
论述了现有中文自动分词方法,提出了自动分词软件质量评价标准,并对分词正确单和切分过度两个重要特性的度量方法进行了探讨。  相似文献   

13.
针对当前云搜索系统中中文分词仅仅采用简单的正向匹配最大算法和逆向最大匹配算法容易产生歧义的问题,提出了采用平均最大分词算法分词,并用最小分词偏离标准差消除歧义的方法进行云搜索系统的中文分词。经过测试,该算法明显优于正向最大匹配算法和逆向最大匹配算法。  相似文献   

14.
夏利玲 《科技资讯》2011,(32):226-226
目前,中文信息处理涉及面广泛,中分分词作为中文信息处理中的基础环节,其重要性不言而喻。本文主要叙述了中文分词的重要性以及发展中的难点,重点分析了目前典型的分词算法及优缺点。  相似文献   

15.
简要探讨了BP神经网络的学习过程与主要参数,分析了基于BP神经网络的中文分词算法,并在用joone-editor建立的神经网络模型中加以实验。  相似文献   

16.
许华 《科技咨询导报》2010,(20):230-230
中文分词技术是中文信息处理的关键,开发设计中文分词系统需要选择合适的平台构造分词词典,处理分词方法。本文是利用VC++6.0作为开发工具,介绍系统设计之初词典的构造与加载的方法。  相似文献   

17.
通过搭建Hadoop平台,将MapReduce编程思想应用到中文分词的处理过程中,使中文分词技术在云计算环境中实现。研究可以在保证原来分词准确率的基础上,显著提高中文分词的处理速度。  相似文献   

18.
刘勇  范丽辉 《科技信息》2012,(8):264-265
中文分词技术是一项在搜索引擎中广泛应用的关键技术,也是中文信息处理中的一项关键技术。文章通过对中文分词系统中预处理模块的改进提高了分词的速度,改进了分词系统。  相似文献   

19.
一种改进的中文分词歧义消除算法研究   总被引:1,自引:1,他引:0  
随着信息技术的飞快发展,今天的互联网上信息已成爆炸式增长,文本挖掘技术成为目前研究的热点.文章概述了中文分词的算法,通过介绍歧义存在的种类,分析了分词结果歧义性存在的必然性;在中文分词基础上,提出了一种采用"动词优先"的歧义消除算法,使分词结果最大程度地消除歧义,从而提高了分词的精度,为文本挖掘之后的环节打下了基础.  相似文献   

20.
论述了一种基于中文分词的主观题自动评分优化算法的设计与实现,详细介绍了中文分词技术及实现方法,对单词串匹配度从单词长度、单词词形、单词顺序及影响因子四个方面进行算法设计与分析,最后进行实验测试,测试结果表明采用此优化算法进行的自动评分准确率有显著提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号