首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
为在保证中文歧义包容和长度限制的同时提高中文全文检索的速率, 在现有中文分词算法的基础上, 提出了一种改进的中文分词算法。通过在算法中建立索引的过程建立文本中相关词与词库的映射, 对词库进行改造, 使之更好地与相关词进行映射, 以便于实现中文分词。实验证明, 改进的中文分词算法能降低检索耗时, 是已有的分词算法的1/2和1/5, 有效提高中文全文检索的速率。  相似文献   

2.
设计实现了一个基于Lucene的全文检索系统模型.在该系统模型中,针对中文分词实现了基于词库的采用正向最大匹配算法的中文分词模块;针对多种格式文档的处理采用接口实现的方式和动态实例化的方法,实现了可以有效地处理txt、xml、html、pdf、doc和rtf等常见格式文档.  相似文献   

3.
由于Lucene自带的ChineseAnalyzer和CJKAnalyzer两种中文分析器不能够满足全文检索系统的应用,本文给出了一种新的中文分词算法,用于改进Lucene中文分析器。该算法基于字符串匹配原理,实现了正向和逆向相结合的最大增字匹配分词算法。通过实验仿真,比较改进后的分析器与Lucene自带的两种分析器在分词效果和效率上的差异。结果显示,改进后的分析器分词效果明显优于Lucene自带的两种分析器,提高了全文检索系统的中文处理能力,系统的查全率和查准率都达到用户的需求。  相似文献   

4.
梁晟  熊莎 《科技信息》2011,(32):I0122-I0122
本文通过分析校园网网站信息的特点,采用Nutch网络爬虫和Lucene技术构建一个校园网全文检索系统,解决了中文分词等问题,提高了用户搜索的效率。  相似文献   

5.
微信小程序因无需安装、无需卸载、使用方便等优点,其应用已渗透到高校服务的多个方面.本文基于微信小程序,利用51单片机、RFID射频识别技术及WiFi无线通信技术,实现了图书馆座位线上预约及现场身份确认,解决了图书馆占座、进馆高峰期用户难以找座等问题,并通过在桌面安装简易嵌入式设备,使得用户对座位预约、使用情况一目了然,让进馆的无预约用户也能在不打扰他人的情况下快速找到座位.  相似文献   

6.
流行的数据库管理系统通常实现了全文检索子系统,从而方便对数据库表中的文本数据建立全文索引,进而借助于这个索引来检索文本数据.达梦数据库管理系统提供多文本数据检索服务.包括全文索引和全文检索.达梦数据库实现了全文检索系统.但是此系统存在着索引膨胀率过高,索引填充时间较长的问题.全文检索,是一门综合性很强的技术.它牵扯到了很多的技术点,主要有分词技术,数据源提取和文档解析技术,相关度计算技术,存储技术.压缩技术等.  相似文献   

7.
基于Lucene的中文分词方法设计与实现   总被引:3,自引:2,他引:1  
本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构Lucene,实现了带有歧义消除功能的正向最大匹配算法.在系统评测方面,比较了该方法与现有方法的区别,对于如何构建一个高效的中文检索系统,提出了一种实现.  相似文献   

8.
介绍开放源代码的全文检索引擎工具包Lucene的系统结构和实现机制,分析Lucene的组织结构及全文检索的分词的相关方法后,给出Lunene在全文检索领域中的应用方式。  相似文献   

9.
互连网上信息浩瀚无限,各种搜索引擎是人们获得信息常用的工具,但是它的可用性和易用性还有待进一步提高。为了更有效的获得用自然语言提问的问题的答案,本文提出了运用中文分词技术在获取的搜索网页的基础上进行全文检索和进行问题答案匹配,获得对应的答案列表的一种实现方法。  相似文献   

10.
通过搭建Hadoop平台,将MapReduce编程思想应用到中文分词的处理过程中,使中文分词技术在云计算环境中实现。研究可以在保证原来分词准确率的基础上,显著提高中文分词的处理速度。  相似文献   

11.
全文检索是一种有效的信息检索技术,改进最大熵模型的应用研究在自然语言处理领域中受到关注。笔者利用语料库中词性标注和词频标注的上下文信息,建立基于互信息的最大熵方法的检索系统,研究的重点在于提出一种中文分词算法,并从实际问题出发,采用面向对象和模型驱动的设计方法,将该算法应用于实际的全文检索系统的设计中。  相似文献   

12.
孙德  李爱东 《科技资讯》2022,(4):197-199
通过将微信小程序合理应用到图书馆移动服务中,图书馆可以对广大读者的阅读行为进行引导,创新读者服务模式,全面提升读者的阅读水平。该文通过具体论述微信小程序在图书馆移动服务中的应用优势,并根据实际情况提出微信小程序在图书馆移动服务中的应用途径,全面提升图书馆移动服务水平,以此推动图书馆移动服务工作顺利开展。  相似文献   

13.
中文自动分词一直是中文信息处理、Web文档挖掘等处理文档类研究的基础技术之一,传统的中文分词技术研究,主要集中在算法的改进研究上,对实验的平台,有关软件的实现涉及很少.本文通过探讨中文自动分词的重要性和不可或缺性,给出了基于VC /MFC自动分词软件的开发技术,最后对软件实现的四种基于词典的机械匹配的算法进行了实验分析,实验证明该系统能够高效的给中文信息处理提供一个平台.  相似文献   

14.
张锐 《科技信息》2011,(24):I0234-I0235,I0237
本文主要介绍图书馆网站实现全文检索的几种方法以及各自的优缺点,以便图书馆网站根据实际需求及自身情况进行选择,使全文检索技术能广泛应用于各类型图书馆网站。  相似文献   

15.
基于Nutch的搜索引擎技术   总被引:1,自引:0,他引:1  
Nutch是一个优秀的基于Java的开放源码搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代商业搜索引擎工作原理一样:文本搜集、建立索引和查询.为了使它能够支持中文搜索,在分析了Nutch结构的基础上,采用词表分词技术和前向匹配分词算法对中文信息进行分词,以JavaCC脚本实现上下文相关文法中文分析模块,成功实现了Nutch中文搜索功能.  相似文献   

16.
中文自动分词技术在中文信息处理、Web文档挖掘等处理文档类研究中是一项关键技术,而分词算法是其中的核心.正向最大匹配算法FMM( Forward Maximum Match)具有切分速度快、简洁、容易实现等优点,但是还存在分词过程中设定的最大词长初始值固定不变的问题,带来匹配次数相对较多的弊端.针对此问题提出了根据中文...  相似文献   

17.
中文分词是中文信息处理的基础、前提和关键.通过分析已有的中文分词算法,提出了一种新的分词词典机制,并根据新的分词词典机制提出了一种快速双向中文分词算法.使用该算法可以实现快速查找和双向匹配,从而极大地提高中文分词的速度和准确率.  相似文献   

18.
刘勇  王崇 《科技信息》2012,(34):188-189
中文分词词典是中文信息处理技术的重要基础,中文分词词典设计的优劣直接关系着分词的速度与效率。本文在研究了各种中文分词算法和中文分词词典机制的基础上,提出了一种基于专业词典的带词长的中文分词词典算法,主要用于对专业文档中进行加工处理,并且基于该算法设计了一个基于专业词典的带词长的中文分词词典的专业文档切分系统。  相似文献   

19.
中文分词是中文自然语言处理中的关键基础技术之一.目前,传统分词算法依赖于特征工程,而验证特征的有效性需要大量的工作.基于神经网络的深度学习算法的兴起使得模型自动学习特征成为可能.文中基于深度学习中的双向长短时记忆(BLSTM)神经网络模型对中文分词进行了研究.首先从大规模语料中学习中文字的语义向量,再将字向量应用于BLSTM模型实现分词,并在简体中文数据集(PKU、MSRA、CTB)和繁体中文数据集(HKCity U)等数据集上进行了实验.实验表明,在不依赖特征工程的情况下,基于BLSTM的中文分词方法仍可取得很好的效果.  相似文献   

20.
随着水产行业的不断发展,养殖密度不断加大,智能化养殖成为趋势.针对水产养殖的特点,本文设计了一种基于STM32的智能水产养殖系统.使用微处理器STM32103RCT6实现信号处理,采用pH值传感器、水浑浊度传感器和TDS传感器进行参数采集,采用两个直流电机与一个步进电机模拟对水质环境的净化、增氧和对鱼饲料的投放.微处理器对数据进行处理并上传服务器端,当检测超过设定的阈值时,系统可以实现自行的换水和增氧等操作.使用WIFI通讯技术,通过WIFI模块连接云服务器并将数据打包上传服务器和实现指令接受.利用微信小程序,养殖人员可以通过微信小程序访问互联网随时查看水产养殖环境的参数,并且实现指令下发,大大减少人工成本.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号