首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
对于提高网络搜索引擎系统的性能而言,有效的存取倒排索引表和快速的响应搜索操作起着关键的作用,故提出了一种能够有效提高索引压缩率的文档重排算法--Star-Scan算法.该算法是利用聚类算法将相似的文档排列到一起,从而减少编码文档编号(DocID)之间的差值所需要的字节数,达到提高索引压缩率的效果.在TREC12数据集上进行的多个实验表明,与随机排列相比,通过Star-Scan算法重新排列后的倒排表在Delta编码方式上压缩率平均提高了大约30.22%,从而有效地提高了搜索引擎的效率.  相似文献   

2.
随着互联网的迅速发展,搜索引擎变得越来越重要,人们对信息检索的要求越来越高.XML不仅仅关注文档结构.而且关注其中的语义内容.而倒排索引则是搜索引擎的核心技术.结合两种技术设计了一个基于XML的检索系统.并对其中的关键技术倒排索引更新优化提出新的方法.  相似文献   

3.
结合同义词的Web搜索匹配算法初探   总被引:2,自引:0,他引:2  
对结合同义词的中文全文信息检索算法进行了探讨,在已有的基于字串匹配算法的基础上,加入了同义词数据库的搜索,使得搜索更加全面和合理,更加符合人们的思维方式。本文对语义判定模块在搜索引擎机构中的定位及语义字典的构造进行了讨论,同时给出了具有语义匹配的中文全文信息搜索的流程。  相似文献   

4.
针对网页质量参差不齐、重要程度差别巨大的问题,提出了按照网页重要程度确定其剪枝幅度的静态索引剪枝方法,并在GOV2数据集上进行了验证.实验结果表明:这种方法体现了静态索引剪枝能极大降低存储需求、提高查询效率的优点;当剪枝后的索引大小是原始大小的13%时,P@10、P@20值能达到甚至超过使用完整索引时的结果;在相同的剪...  相似文献   

5.
倒排索引是搜索引擎的核心组成部分,对搜索的效率与质量有着较大的影响.在一些主题搜索引擎中,关键词被划分为多个域以提高检索质量,针对这种特点,本文提出了一种新的面向域的高效倒排索引结构,以及实时更新倒排索引的算法.实验结果表明,在每个域内索引词项个数接近词典大小的情况下,本文提出的倒排索引结构可以有效地提高搜索引擎的检索效率.  相似文献   

6.
黄羿  马新强  李丹宁 《贵州科学》2009,27(3):47-50,57
随着Intemet网络的迅猛发展,个性化信息服务越来越成为信息检索领域的研究热点。本文分析了国内外个性化信息服务研究现状,提出了基于综合倒排索引的搜索思想,从关键词、主题词和评语3个角度出发建立综合倒排索引进行全文搜索;达到用户个性化搜索的目的。  相似文献   

7.
为了提高FTP搜索引擎的并发效率,避免单点失效,通过引入分布式和P2P技术建立了一种基于P2P技术的大型分布式FTP搜索引擎,叙述了其3个主要部分:搜集、索引和检索模块,并针对分布式的搜集模式和基于DHT的倒排索引算法的实现进行了讨论。  相似文献   

8.
针对主题爬行器获取网页更新速度快的特点, 提出一种用于网络搜索引擎的增量索引结构. 在建立倒排索引时, 每个词项的记录表以链接块的形式存放于倒排索引文件中, 每次新分配的块大小递增. 该索引结构解决了倒排索引连续存储所带来的难以更新问题. 实验结果表明, 与支持实时更新的传统链表式存储方式相比, 这种索引结构能提供更高效的检索, 采用以空间换时间的方法有效地提高了索引的更新效率.  相似文献   

9.
在语言信息加工过程中,词类激活(词性提取)直接关系到对语言的理解,词类激活问题本质上是句法问题。该研究采用重复启动方法考察汉语名动兼类词的词类激活问题和词类(形容词和副词)的启动效应(PE)问题,以期加深对词汇信息提取过程的认识。研究认为,词类具有启动效应,汉语名动兼类词的词类激活与启动词类型、启动时间(SOA)密切相关。名动兼类词的词汇信息,尤其是词性信息的提取受到前置词的词类及阅读时间的影响。  相似文献   

10.
通过分析XML的数据特点以及一些已有的系统,提出一个带反馈的系统,充分利用XML文档的结构信息,帮助用户构建“相关的”、“感兴趣”的查询式,以便进一步的查询能有较高的准确率.具体的工作是建立路径关键词的倒排索引。在界面方面作一些扩充。提高检索系统的易用性.同时提出进一步的工作:在文档类型未知的情况下,通过聚类,为用户提供大概的分类,指导用户进行信息搜索.  相似文献   

11.
Web环境下藏文信息处理技术   总被引:1,自引:0,他引:1  
文章就浏览器中藏文字体显示的解决方案作了描述.它是建立在Microsoft提供的IE基础之上,利用IE 的ActiveX Control扩展特性以及Windows操作系统对True Type字体的底层基础设施,在应用层上实现了浏览器中藏文字体信息显示,并对现有技术的弊端加以阐释.  相似文献   

12.
从传统网络挖掘面临的一些问题出发,在介绍Web2.0环境下信息的新特性基础上,着重分析了Web2.0网络挖掘的流程,并针对网络挖掘的内容提出了一些新的挖掘技术.  相似文献   

13.
藏文有着悠久的历史,是藏族人民交流思想的工具。1997年,藏文编码字符集国际、国家标准的制定作为藏文信息处理的开始,至今正好20年。这20年中藏文信息处理起步、发展,取得了较好的成绩。本文简要回顾了藏文信息处理中字、词、句、段、篇的特点、处理方法及取得的典型成果,也回顾了藏语资源建设和应用研究取得的成果,并对藏文信息处理未来的发展方向进行展望。希望能为迈入藏文信息处理的初学者展示一个藏文信息处理发展的脉络,提供一个参考。  相似文献   

14.
目的:通过比较初进高原(1周之内)的汉族与高原世居藏族的血常规18项指标及血压、心率、血氧饱和度,研究低氧对机体代谢功能的影响,尤其是低氧对机体血液学指标的影响。方法:采用指尖采血的方法,利用Sysmax的Poch100i型血液自动分析仪(日本产)进行血常规18项指标的检测;使用水银血压测量仪进行静息状态下右上肢肱动脉血压的测定;测定静息状态下的心率;使用NP-40型血氧饱和度测定仪(日本)检测血氧饱和度。采集的数据利用SPSS统计软件进行分析。结果:①进藏1周之内的汉族,其血红蛋白、红细胞压积、平均血红蛋白量、平均血红蛋白浓度、血小板、白细胞计数均小于世居高原的藏族(P〈0.05),而红细胞计数、平均红细胞体积与世居高原的藏族无差别(P〉0.05);②进藏1周之内的汉族的收缩压、舒张压、心率均高于世居高原的藏族(P〈0.05),而血氧饱和度却低于世居高原的藏族(P〈0.05);结论:进藏1周之内的汉族在红细胞系统指标(HGB、HCT、MCH、MCHC)及血压、心率、血氧饱和度等指标与世居高原的藏族青年存在明显差异。应进一步扩大样本量,以阐明汉族在高原习服过程中上述指标的变化程度和变化规律,为更好地了解高原习服的机制提供理论依据。  相似文献   

15.
罗予东 《甘肃科技》2006,22(7):36-40
本文首先指出了传统Web GIS存在的问题,然后介绍了Web Service和GML相关技术,接着提出了GIS互操作的一种应用模式———基于OPEN GIS框架模式,最后总结了Web Service和GML技术对WebGIS系统的作用和意义。  相似文献   

16.
基于异步Web Service调用的Web应用程序研究   总被引:4,自引:0,他引:4  
随着Web应用的高速发展,多服务、多功能的Web应用程序成为研究热点。依据Web Service技术和异步数据请求的一般性原理,提出了结合两者优点构建的异步Web Service调用的Web应用程序的优势,采用Ajax等技术实现了简要的代码,对该技术的发展和应用前景提出了看法。  相似文献   

17.
通过对Web页面的超链接分析来发现Web社区,构建了社区主题和成员的存储结构,用有无交叉子集两种情况来研究社区的组织体系,目的是为感兴趣的使用者提供有价值的且最可靠的、周期性的、最新的信息资源。  相似文献   

18.
Web应用软件测试方法的研究   总被引:1,自引:0,他引:1  
为了适应Web软件具有的异构、分布、开发平台无关的特性,提出了一种web软件测试过程模型,将测试流程划分为Web测试准备过程模型和执行过程模型两类活动对其进行建模,分析并讨论了软件测试过程中采用的各种测试方法和工具。可帮助软件开发人员提高测试效率,提高web软件系统的质量和可靠性。  相似文献   

19.
网络爬虫技术研究   总被引:3,自引:0,他引:3  
网络爬虫为搜索引擎从互联网上下载网页,是搜索引擎不可或缺的组成部分.介绍网络爬虫的分类、工作原理及存在的问题,并对主题爬虫进行了详细设计,最后总结了设计高性能网络爬虫需要解决的技术难题.  相似文献   

20.
为了解决网络广告投放效果监测困难的问题,基于网络广告的搜索引擎和网络爬虫等Web智能技术,设计了一种独立的、第三方的网络广告监测器,描述了当前网络广告的发展现状、系统的结构模块设计、时序调度设计以及相应的系统实现方案和核心算法。通过实验评测表明,该系统能够取得较好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号