期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于Nutch的搜索引擎技术 总被引：1，自引：0，他引：1

刘高原张国平《平顶山学院学报》2008,23(5)

Nutch是一个优秀的基于Java的开放源码搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代商业搜索引擎工作原理一样:文本搜集、建立索引和查询.为了使它能够支持中文搜索,在分析了Nutch结构的基础上,采用词表分词技术和前向匹配分词算法对中文信息进行分词,以JavaCC脚本实现上下文相关文法中文分析模块,成功实现了Nutch中文搜索功能. 相似文献

2.

Nutch中文分词插件的编写与配置

赵修文吕大军《科技信息》2007,(27):206

由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行设计,通过对扩展点的扩展,用户可以开发自己的各类插件。由于Nutch的分词器对中文只进行单字切分,若要实现较好的对中文信息的搜索查询,就需要编写一个中文分词器。下面介绍Nutch中文分词插件的实现与配置。相似文献

3.

中文分词技术的研究及在Nutch中的实现

王巧玲彭静王春红《科技信息》2011,(19):I0038-I0039

研究了中文分词技术的原理,比较了现有分词器的速度和准确性。通过研究开源搜索引擎Nutch的架构和工作流程,分析了源代码,在Nutch加入JE中文分词器,实现了Nutch的本土化。相似文献

4.

Nutch0.9中二分法中文分词的实现

刘洋《科技信息》2009,(36):171-172

Nutch是一个优秀的基于Java的开放源码搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代商业搜索引擎工作原理一样：文本搜集、建立索引和查询。Nutch0.9较好地处理了英文分词,但对中文分词处理还不够完善。文章介绍了在Nutch0.9中实现索引及检索的二分法,提出在中文分词上的改进。相似文献

5.

基于Lucene的校园网全文检索系统的研究

梁晟熊莎《科技信息》2011,(32):I0122-I0122

本文通过分析校园网网站信息的特点,采用Nutch网络爬虫和Lucene技术构建一个校园网全文检索系统,解决了中文分词等问题,提高了用户搜索的效率。相似文献

6.

文本分词的自动校对

李群《渤海大学学报(自然科学版)》2006,27(3):277-280

讨论和分析了自动分词的现状，并针对分词问题，提出了一种基于规则的中文文本分词自动校对方法。该方法通过对机器分词语料和人工校对语料的对比，自动获取中文文本的分词校对规则，并应用规则对机器分词结果进行自动校对，提高分词语料的质量。相似文献

7.

基于专业词典的带词长的中文分词技术的研究

刘勇王崇《科技信息》2012,(34):188-189

中文分词词典是中文信息处理技术的重要基础,中文分词词典设计的优劣直接关系着分词的速度与效率。本文在研究了各种中文分词算法和中文分词词典机制的基础上,提出了一种基于专业词典的带词长的中文分词词典算法,主要用于对专业文档中进行加工处理,并且基于该算法设计了一个基于专业词典的带词长的中文分词词典的专业文档切分系统。相似文献

8.

数据清洗中中文地址分词技术研究

郭文龙《齐齐哈尔大学学报(自然科学版)》2012,28(5)

数据清洗中,中文地址类信息对于重复记录的检测起着非常重要的作用。中文地址按照行政归属可划分为五级,通过组建地址信息数据库对中文地址进行匹配,提出基于地址树的中文地址分词技术,构建了中文地址的分词算法流程并设计了算法。相似文献

9.

几种基于词典的中文分词算法评价 总被引：1，自引：0，他引：1

李丹宁李丹王保华马新强《贵州科学》2008,26(3)

基于词典的中文自动分词是中文信息处理的基础.按照使用计算机缓存的优化原则,分析了几种典型的分词词典机制,指出了其中的一些问题.改进了整词二分法,极大地提高了速度.结合哈希索引和PATRICIA tree搜索算法,提出了一个综合最优化的中文分词系统. 相似文献

10.

中文分词技术 总被引：3，自引：0，他引：3

《科技信息》2007,(36)

在现代化的社会,为了更好的利用计算机来处理以自然语言为载体的信息,让计算机能读懂人类的语言,只有计算机读懂了人类的语言,人和计算机的交流才成为可能,对于中文来讲,词是语言的最小单位,所以,汉语的文本分词是解决该问题的第一步,本文重要介绍了中文分词的必要性,以及中文分词的方法和存在的问题。相似文献