首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
王巧玲  彭静  王春红 《科技信息》2011,(19):I0038-I0039
研究了中文分词技术的原理,比较了现有分词器的速度和准确性。通过研究开源搜索引擎Nutch的架构和工作流程,分析了源代码,在Nutch加入JE中文分词器,实现了Nutch的本土化。  相似文献   

2.
Nutch-0.9中JE中文分词的实现   总被引:1,自引:0,他引:1  
Nutch是一个开放源代码的Web搜索引擎,基于开源搜索框架Lucene,扩展性较好。Nutch是针对英文开发的,对中文只进行单字切分。通过分析Nutch的语言分析器结构,结合基于词库的正向最大匹配分词算法的JE分词,实现了Nutch的中文分词。  相似文献   

3.
摘 要 Nutch的排序机制使得一些传统的高质量的页面经常出现Web检索结果的前面,而新加入的高质量的Web页面很难被用户找到。针对传统基于链接算法中对新内容的迟钝性,本文提出了对网页的补偿算法,对Web上在一段时间内好的资源信息使其排名结果上升,而对于不好的资源使其下降,以此来加速优质内容的传播和网络内容的合理化。并最终把改进后的算法应用在基于Nutch的搜索引擎中,通过实验来验证和测试。  相似文献   

4.
顾珺 《科技资讯》2009,(15):20-20,22
Nutch是一个开放源代码的Web搜索引擎,由于不夫杂商业利益,它对搜索结果的排序算法较为透明公平。未来的搜索引擎的发展趋势之一是个性化和智能化,本文在研究开泺Nutch的基础上设计实现了一个具有关联用户搜索行为的搜索引擎。  相似文献   

5.
论述Nutch插件机制的设计目标,分析归纳Nutch轻量级插件体系结构所包括的3组基本概念:微内核、扩展点和扩展;插件、插件清单和插件清单描述器;插件工厂和插件清单解析器。总结Nutch插件的处理流程和概念与实际文件之间的对应关系。对Nutch插件机制的深入理解,有助于灵活构建基于Nutch的新应用。  相似文献   

6.
为在保证中文歧义包容和长度限制的同时提高中文全文检索的速率, 在现有中文分词算法的基础上, 提出了一种改进的中文分词算法。通过在算法中建立索引的过程建立文本中相关词与词库的映射, 对词库进行改造, 使之更好地与相关词进行映射, 以便于实现中文分词。实验证明, 改进的中文分词算法能降低检索耗时, 是已有的分词算法的1/2和1/5, 有效提高中文全文检索的速率。  相似文献   

7.
Web文本挖掘中的一种中文分词算法研究及其实现   总被引:3,自引:0,他引:3       下载免费PDF全文
针对Web文本挖掘中的中文信息处理的问题,介绍了将超文本格式(Html格式)的文档转化为纯文本格式(Txt格式)文档的方法.利用改进的最大匹配法来实现对文档的汉语自动分词,同时,加强消除歧义方面的处理,分词精度有所提高.  相似文献   

8.
Nutch的网页更新预测方法采用的是邻比法,相关更新参数需要人为设定,不能自适应调整,无法应对海量网页更新的差异性.为解决这个问题,提出动态选择策略对Nutch的网页更新预测方法进行改进.该策略在网页更新历史数据不足时,通过基于MapReduce的DBSCAN聚类算法来减少爬虫系统抓取网页数量,将样本网页的更新周期作为所属类其他网页的更新周期;在网页更新历史数据较多时,通过对网页更新历史数据进行泊松过程建模,较准确地预测每个网页的更新周期.最后在Hadoop分布式平台下对改进该策略测试.实验结果表明,优化后的网页更新预测方法表现更优.  相似文献   

9.
由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行设计,通过对扩展点的扩展,用户可以开发自己的各类插件。由于Nutch的分词器对中文只进行单字切分,若要实现较好的对中文信息的搜索查询,就需要编写一个中文分词器。下面介绍Nutch中文分词插件的实现与配置。  相似文献   

10.
赵源 《科技信息》2010,(35):58-58,49
本文在中文分词技术的基础上,提出了一种基于中文文本主题提取的分词方法,以概念语义网络的思想构造主题词典,描述词间概念语义关系,采用改进的最大匹配算法对文本进行切词,既提高了分词的准确性,又能识别文中的未登录词,并同步完成主题词的规范工作。从而在概念层次上理解用户的需求,实现概念检索,提高查准率。  相似文献   

11.
本文讨论一类递推问题的并行算法,文中应用二分法构造了两种算法。  相似文献   

12.
思想与表达二分法是著作权法中的一个十分重要的原则。二分法为平衡公众接近信息的需要和报偿、鼓励作者创作的需要提供了一个基础。二分法不仅在著作权立法上得到了广泛认可,在司法实践中也具有重要的指导意义,其中特别表现为平衡作者或其他著作权人与广大作品使用者之间的利益。二分法原则在著作权法中的适用具有充分的正当性。  相似文献   

13.
本文提出了O_n计数树的概念,并证明了O_n的计数树具有良好的性质。最后通过{O_n}这个实例证明了基于二分法所构造出的算法均具有指数型时间复杂度。  相似文献   

14.
文中给出一种解非线性超越方程组的数值方法,先用二分法原理给出解一个一元方程的流程,继而利用这个流程给出解二元方程组的流程,再推广到N元的方程组中。在数值计算过程中,通过对超越方程组的一元化处理,便利用方程有根区间两端的函数值互为相反数这一特性便可得到方程根,拓展了数值计算的收敛区同,克服了传统拜法中初值难以确定的问题。在工程可靠度的计算中,采用本文方法具有独特的优势。  相似文献   

15.
对德尔菲法进行扩展,给出了一种新的方法:区间二分法.即将专家组的定量预测区间按分值大小排序后分为两个区间,再取均值,循环该过程到专家意见收敛到一个满意的预测区间,即为专家意见集成.  相似文献   

16.
基于Lucene的中文分词方法设计与实现   总被引:1,自引:2,他引:1  
本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构Lucene,实现了带有歧义消除功能的正向最大匹配算法.在系统评测方面,比较了该方法与现有方法的区别,对于如何构建一个高效的中文检索系统,提出了一种实现.  相似文献   

17.
本文主要分析了中文全文检索技术中有关内容,并根据此内容设计实现了一个中文全文检索系统.针对汉语词法的特殊性,在基于词表的全文索引方面,本文应用了一种改进的倒排索引结构,同传统索引结构相比,更便于索引的构建、维护、更新.并根据其特征,设计了优化的查询策略.  相似文献   

18.
中文分词中歧义切分处理策略   总被引:1,自引:0,他引:1  
文章试图从歧义字段本身的特点,即从伪歧义与真歧义这两个角度,以规则库为辅助手段,构建相应概率统计模型来解决歧义字段切分的问题.概率模型中特征的选取考虑了相邻词语和相邻词语的语义信息.实验表明该模型在解决歧义切分问题上是有效的.  相似文献   

19.
汉语自动分词中中文地名识别   总被引:6,自引:0,他引:6  
以词语级的中文地名为识别对象,根据地名内部用字的统计信息和地名构成特点产生潜在地名.在汉语自动分词中将可信度较高的潜在地名等同于句子的候选切分词,利用候选切分词本身的可信度和上下文接续关系评价句子的各种切分方案.在确定句子最佳切分时识别句子中的中文地名.对真实语料进行封闭和开放测试,封闭测试结果为召回率93.55%,精确率94.14%,F-1值93.85%;开放测试结果为召回率91.27%,精确率73.48%,F-1值81.42%.取得了比较令人满意的结果.  相似文献   

20.
在"民"或"俗"之间做出一种选择,这对民俗学者来说可能是个奇怪的问题。究竟是侧重对"民"的研究,还是将"俗"作为主要的研究对象?根本上来讲,"民"和"俗"两者本身相辅相成,缺一不可。但民俗学学科内部的这两种观点的分界是真实存在的,并对民俗学界产生了重要影响。从客观的角度分析,必须在"民"或"俗"之间做出一个选择,想要否定或杜绝这样的二分法是没有益处的,事实上,两种方式各有其意义,旨在将民俗学引向不同的发展前景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号