首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
针对基于位置的web搜索需要将网页中位置信息和文本信息相结合进行索引的应用需求,提出了先倒排表再R-tree索引和先R-tree再倒排表索引两种混合索引结构,同时处理文本和位置信息.大规模真实数据集上的实验表明,这两种方法在查询效率上明显优于已有的倒排表和R-tree相互独立的索引模式.  相似文献   

2.
没有语言ID的维、哈、柯文部分字母在Unicode代码区域中共享字符代码,因此在信息交换、自动分词和检索应用中,很难区分维、哈、柯文字母.存在语言上的二义性.另外,该区域中字母的顺序符合阿拉伯字母表,维、哈、柯文字母的顺序非常混乱,这对于维、哈、柯多文种数据的索引、排序和查询处理带来了很大困难.针对以上问题,研究了一种内部Unicode编码方法和基于词根的多文种索引技术.研究结果表明,这种方法完全解决了多文种信息的存储、排序等数据库管理问题,大大简化了索引技术及实现难度.  相似文献   

3.
针对主题爬行器获取网页更新速度快的特点, 提出一种用于网络搜索引擎的增量索引结构. 在建立倒排索引时, 每个词项的记录表以链接块的形式存放于倒排索引文件中, 每次新分配的块大小递增. 该索引结构解决了倒排索引连续存储所带来的难以更新问题. 实验结果表明, 与支持实时更新的传统链表式存储方式相比, 这种索引结构能提供更高效的检索, 采用以空间换时间的方法有效地提高了索引的更新效率.  相似文献   

4.
黄羿  马新强  李丹宁 《贵州科学》2009,27(3):47-50,57
随着Intemet网络的迅猛发展,个性化信息服务越来越成为信息检索领域的研究热点。本文分析了国内外个性化信息服务研究现状,提出了基于综合倒排索引的搜索思想,从关键词、主题词和评语3个角度出发建立综合倒排索引进行全文搜索;达到用户个性化搜索的目的。  相似文献   

5.
本文简要介绍了计算机多媒体技术的发展及其主要产品;介绍了《维哈柯汉英多媒体触摸咨询系统制作工具平台PMJL》的开发过程和主要功能;应用该平台研制了《维哈柯汉英多文种多媒体触摸咨询系统》,并结合其制作过程介绍了各种多媒体资源在应用系统中的逻辑关系、组织处理及合成等方法.  相似文献   

6.
高效FTP搜索引擎的设计与实现   总被引:1,自引:0,他引:1  
为了解决传统FTP搜索引擎对检索结果优化程度不够而造成的检索质量低的问题,在对FTP用户查询日志进行统计分析的基础上,采用双字节倒排索引、检索结果自动分类以及查询自动纠错等技术设计了一种高性能的智能化FTP搜索引擎.双字节倒排是对文件名中每两个字节建立倒排索引表,自动分类是对检索结果按主题划分为层次结构,查询自动纠错是以用户查询日志中的高频查询词为数据源构建拼写错误词典.试验结果表明,该方案能够有效地提高FTP搜索引擎的文件检索效率与质量.  相似文献   

7.
对于提高网络搜索引擎系统的性能而言,有效的存取倒排索引表和快速的响应搜索操作起着关键的作用,故提出了一种能够有效提高索引压缩率的文档重排算法--Star-Scan算法.该算法是利用聚类算法将相似的文档排列到一起,从而减少编码文档编号(DocID)之间的差值所需要的字节数,达到提高索引压缩率的效果.在TREC12数据集上进行的多个实验表明,与随机排列相比,通过Star-Scan算法重新排列后的倒排表在Delta编码方式上压缩率平均提高了大约30.22%,从而有效地提高了搜索引擎的效率.  相似文献   

8.
随着互联网的迅速发展,搜索引擎变得越来越重要,人们对信息检索的要求越来越高.XML不仅仅关注文档结构.而且关注其中的语义内容.而倒排索引则是搜索引擎的核心技术.结合两种技术设计了一个基于XML的检索系统.并对其中的关键技术倒排索引更新优化提出新的方法.  相似文献   

9.
本文分析了搜索引擎在医学网站中应用,重点阐述了图像文件的搜索方法,在站内搜索引擎的设计过程中,主要以人工方式搜集信息,由编辑人员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类中,并对重要内容建立索引。在进行搜索的同时自动连接数据源之后,首先对用户输入的索引词进行格式处理,删除出现在关键字前后的空格,而且把无效字改成空格,接下来把它与数据库内容进行近似匹配,并使用递归方法把所有相关内容作为结果进行输出。  相似文献   

10.
为了提高FTP搜索引擎的并发效率,避免单点失效,通过引入分布式和P2P技术建立了一种基于P2P技术的大型分布式FTP搜索引擎,叙述了其3个主要部分:搜集、索引和检索模块,并针对分布式的搜集模式和基于DHT的倒排索引算法的实现进行了讨论。  相似文献   

11.
文章通过文献资料、数理统计、对比分析等研究方法,利用新疆地区1985年和2010年7~12岁少数民族学生体质健康调研所获得的数据,对该地区维、哈、柯等三个少数民族女生的身体形态发育状况作25年的动态观察、对比和分析。结果表明近25年间,新疆7~12岁维、哈、柯等少数民族女生的身高、体重、胸围平均增长值基本保持增长,平均增长值分别为:维女生1.9cm、2.2kg、1.3cm;哈女生8cm、5.7kg、2.8cm;柯女生5.4cm、2.7kg、1.4cm。维、哈、柯等少数民族女生的身体形态发育各有差异,总体水平:哈女生的身体形态发育水平优于维、柯女生,柯女生的优于维女生,且差异均有统计学意义(P〈0.05~0.001)。其原因是多方面的,除了遗传、历史、自然环境、学校、家庭、社会等因素外,最主要与新疆经济发展区域间存在不均衡性有关。  相似文献   

12.
为提高大数据环境下的数据查询分析效率,该文结合内存计算技术和批量更新技术提出一种优化倒排索引方法——内存磁盘索引(RFDirectory)。基于Lucene实现内存和磁盘相结合的倒排表管理技术。将新增数据写入缓存中,并周期性地写入磁盘索引结构中,从而提升倒排索引的写入性能。通过整合磁盘和内存的多分块倒排结构,为用户提供高效的数据查询分析结果。实验结果表明:在大数据环境下,RFDirectory方法的索引构建时间缩短为磁盘索引(FSDirectory)、内存索引(RAMDirectory)方法索引构建时间的50%,返回1个关键字的检索结果耗时缩短了近15%。  相似文献   

13.
FTP(file transfer protcol)搜索引擎的重点在于中文分词技术和检索技术.使用了一种面向FTP搜索优化的最大前向匹配分词算法,并将用户查询作为反馈来更新分词算法中所使用的字典,结合倒排索引技术实现了一个高性能的FTP搜索引擎的原型系统.压力测试结果表明此FTP搜索引擎具有很高的性能.  相似文献   

14.
根据校园舆情和信息安全管理的需要,结合垂直搜索的特点,提出了一种面向主题的域内垂直搜索引擎模型.给出了模型在信息采集、分词处理、主题识别、网页索引、检索处理5个功能模块的实现过程,并对模型涉及的中文分词方法、隐形关键词组的扩展运算、检索正态化因子的调整等关键技术进行了讨论.建成的搜索引擎能够很好地满足用户主题检索服务的需要.  相似文献   

15.
BBS搜索系统是为公安系统等监管部门了解年轻人思想动态,及时发现证据,防止案件发生而建立的.针对如何搜索各BBS上把符合搜索要求的信息检索出来,设计了一个面向BBS的关键词搜索引擎系统.首先从BBS搜索系统的需求分析入手,其次进行技术分析和方案设计,同时提出了一个索引倒排的索引算法,以此并设计了一个检索器将检索结果呈现,最后参考典型搜索引擎的实现,完成了一套小型的针对BBS进行扒取和检索的系统.目前该系统运行良好,结果表明该系统性能高,易于维护,对同类研究有一定借鉴作用  相似文献   

16.
Internet中文信息检索技术   总被引:1,自引:0,他引:1  
本文主要介绍了INTERNET中文搜索引擎索引数据库建设中的分词技术、文档的相关性等技术特点;中文搜索引擎的系统结构;网上中文信息检索方法。并提出了中文搜索引擎存在的检索方式单一、缺少全文引擎等问题。  相似文献   

17.
为了解决传统FTP搜索引擎对检索结果优化程度不够而造成的检索质量低的问题,本文在FTP用户查询日志的统计分析基础上采用双字节倒排索引、检索结果自动分类以及查询自动纠错等技术设计了一种高性能的智能化FTP搜索引擎,试验表明该方案能够有效地提高了FTP文件检索效率与质量。  相似文献   

18.
网络搜索引擎的工作原理是利用蜘蛛程序发现和搜集网页信息,建立索引库,再在索引库中快速检出文档。本文分析了搜索引擎的工作原理,研究了常用搜索引擎的类型与基本技术指标。探讨了搜索引擎的应用方法和技巧。  相似文献   

19.
针对传统搜索引擎的不足,论述了个性化综合倒排索引的基本思想,结合词频渠道奖励算法、遗忘算法和文档关注度算法来动态获取用户兴趣变化,从而满足个性化搜索的需求.  相似文献   

20.
高性能网页索引器JU_Indexer的实现   总被引:4,自引:1,他引:3  
高性能网页索引器JU_Indexer用倒排索引表存储网页索引数据, 以多线程并行的方式对网页建立索引数据, 采用经过优化的检索算法实现用户的查询. 首先给出了JU_Indexer的系统框架, 然后描述了索引数据在JU_Indexer中的存储结构、 建立网页索引的算法、 以及实现用户查询的检索算法. 实验结果表明, JU_Indexer能在毫秒级的时间内完成用户的查询, 它采用的经过优化的词组检索算法缩短了词组的检索时间.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号