首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
对BBS的数据结构进行了分析研究,并根据BBS特点设计了一种用于BBS信息检索的主题网络爬虫算法.通过主题网络爬虫能够提高抓取网页的效率,同时又可以保证较高的召回率.实验表明,该算法大幅提高了信息检索的效率,改善了信息检索的效果.  相似文献   

2.
为了让用户从海量知识信息中精确、快速地获取到感兴趣的信息内容,综合考虑文档的头部信息(标题、摘要、关键词)和重点主体内容,采用基于主题词迭代提取的信息检索算法,使得主题词的提取在兼顾效率的同时准确率达到83%以上,主题信息检索的性能也随之增加.实验结果表明,在文档查询词频和倒排文档频率(TF-IDF)的基础上对候选主题词相关度权值的计算进行合理化调整,并利用所提出的主题词迭代提取算法,主题信息检索的有效性将显著增加.  相似文献   

3.
针对现有的主题模型不能随时空情境准确反映主题的周期变化和空间分布的问题,根据互联网信息通常包含发布时间地点等情境数据的特点,提出一种用于主题跟踪的时空情境主题模型.首先将数据集的多主题分布与时空信息关联起来建立时空情境主题模型,对主题周期和强度进行描述;然后通过EM算法估计模型参数,利用该参数分别计算主题快照和主题周期;最后利用时序相似度计算判断后续主题信息,实现主题跟踪.食品安全事件主题跟踪的实验表明:与单纯依赖文本特征的主题跟踪方法相比,文中提出的方法能够明显提高跟踪效率和多个主题的跟踪准确性,这有助于进一步实现精准的主题信息检索.  相似文献   

4.
基于社区的对等网络信息检索   总被引:1,自引:0,他引:1  
定义了反映用户偏好的用户模式树,根据用户模式树之间的近似性来判断用户模式之间的近似性,进而构造用户社区,并提出了基于社区的信息检索算法(CBSA算法).实验结果表明,该算法利用用户搜索的行为模式有效地减少了检索时的网络带宽消耗,缩短了检索的响应时间,提高了检索效果.  相似文献   

5.
循证医学信息化若干关键技术的研究   总被引:1,自引:1,他引:0  
由于Web信息检索返回页面的数量巨大,对搜索结果进行排序成为影响搜索质量的一个重要问题.分析了搜索引擎Google采用的PageRank算法,指出其具有偏重旧网页和忽视专业站点的不足,考虑网页日期这一重要因素改进了PageRank算法,试验结果表明,改进的算法可以提高判断网页重要性的准确度.最后介绍了如何通过个性化服务来发现与用户兴趣相似的资源.  相似文献   

6.
在互联网信息检索中,多样化排序方法力求在排序结果列表靠前的位置为用户提供多样的结果文档.文中提出一种基于聚类和用户点击的在线多样化排序算法CRBA,通过结合文档的相似性以及用户的点击反馈,在与用户的不断交互中为用户提供多样化的排序结果.该算法将在线和离线的思想进行融合,既可以利用主题聚类的优点,根据主题对候选文档集合进...  相似文献   

7.
基于HTML标记信息的主题相关性判定方法   总被引:1,自引:0,他引:1  
从目前互联网的信息发展现状出发,讨论了在信息采集过程中判断要采集的网页与主题的相关性,给出了一个基于HTML标记信息的主题相关性判定模型和算法实现.通过对试验数据分析,算法显示较好性能.  相似文献   

8.
根据不良信息的特点对潜在语义分析(Latent Semantic Analysis LSA)进行了简化,并设计了基于简化的潜在语义分析(Latent Semantic Analysis Of a Simplified LSAS)的藏文Web不良信息检索算法.该检索算法能够对具有关于某个主题的特定倾向的文本进行过滤.该系统充分利用了领域知识,采用了潜在语义模式分析等技术.实验表明该系统具有查全率和查准率高,速度较快的特点.  相似文献   

9.
可扩展的分布式信息检索的设计与实现   总被引:2,自引:0,他引:2  
为了弥补集中式信息检索系统在覆盖率、更新率、访问权限控制、专业性及网络负载等方面存在的缺陷,设计并实现了一个可扩展性强的分布式信息检索系统,采用统计信息及查询日志描述各节点的信息资源,提出基于日志的CORI算法进行资源选择.实验结果显示,维护该系统所需的存储空间、更新时间及网络传输量等仅为集中式信息检索系统的1%左右,系统的可扩展性较强.提出的基于日志的CORI算法较传统CORI算法在查全率-查准率指标上提高了9.8%,在Kendall'S τ距离指标上提高了8.1%,是一种有效的资源选择算法,提高了分布式信息检索系统的检索性能.  相似文献   

10.
本体相似度计算是信息检索的重要研究课题并广泛应用于计算机科学的诸多领域.运用变换模型提出本体相似度计算和本体映射的新算法.通过排序学习函数,将本体图映射成实直线,将本体图中的顶点映射成对应实数.通过比较本体图中顶点所对应实数的差值来判断两个顶点的相似程度.两个实验显示,所提出的算法对计算本体相似度和建立本体映射是有效的.  相似文献   

11.
如何准确表达用户意图,判断网页与用户需求的相关性是信息检索技术研究的重要方向。本文提出了一种基于网页内容分割的语义信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用内容相似性和视觉相似性进行节点的整合。根据用户的查询,充分利用区域信息来对相关的检索结果进行排序。实验表明,本文提出的方法可以显著地提高搜索引擎的查询效果。  相似文献   

12.
利用超链接信息改进网页爬行器的搜索策略   总被引:5,自引:0,他引:5  
网页爬行器在Web空间中爬行时,要面对如下两个问题:1)由于Internet上的信息量十分巨大,网络搜索引擎不可能包含整个Web网页;2)受到硬件资源的限制,它所能存储的网页是有限的.爬行器如果按照传统的宽度优先搜索策略在Web空间中爬行,它对所有的网页都采取一视同仁的态度,这样爬行的结果就导致了它所爬行回来的网页质量不高.为此,给出了利用超链接信息改进网页爬行器搜索策略的算法.该算法充分考虑了网页之间的超链接信息,克服了传统的宽度优先搜索策略的盲目性爬行.实验表明,利用该算法爬行得到的网页与某一特定主题相关的网页超过50%.  相似文献   

13.
基于Agent的个性化智能Web信息检索   总被引:2,自引:2,他引:0  
介绍了Web信息检索的定义,并对web信息检索的原理、技术进行分析,针对存在的问题,结合智能Agent技术、神经网络、最好优先算法、信息过滤、相关反馈等多种算法,提出了一个基于Agent的个性化智能Web信息检索系统模型。  相似文献   

14.
Web信息查询研究进展   总被引:3,自引:1,他引:2  
Web上大量、分布、动态的信息,造成了用户在查询Web上的信息时产生的"信息过载”和"信息迷向”现象.Web信息检索与查询是目前的研究热点,本文分析和比较现有Web信息检索和查询语言技术的发展现状,介绍了基于人工智能领域中机器学习方法的Web信息检索和查询以及信息抽取技术的研究,以供研究者参考.  相似文献   

15.
网页作弊与反作弊技术综述   总被引:1,自引:0,他引:1  
随着网络信息爆炸式的增长,搜索引擎成为人们首选的获取信息的主要途径。能否在搜索引擎的排名中占有比较靠前的位置,将在一定程度上决定网页的访问量。一些网站并不是通过提高网页质量来提高其在搜索引擎中的排名,而是根据搜索引擎自身的特点,采用欺骗手段来提高排名,这就是网页作弊。网页作弊是搜索引擎面临的重大挑战之一。本文将结合常见的网页作弊的方法,阐述当前已经存在的比较有效的反作弊技术。  相似文献   

16.
网络爬虫是全文搜索引擎系统的核心模块,它实现对站内信息的检索和特定Web信息的搜索。然而,万维网规模越来越巨大,产生了专业爬虫。主要研究了怎样建立一个有效的专用爬虫,它可以自动发现和下载用户感兴趣的页面。包括的内容:超文本分类器、提取器、爬虫的基本功能、数据存储及核心算法。  相似文献   

17.
提出一种基于语义Web的信息检索模型,它能够实现准确高效的网络信息检索,克服传统信息检索的局限。介绍了语义Web、本体以及Lucene全文检索技术,详细阐述该模型的六大模块,其中在本体基础之上充分利用Jena查询和推理技术进行查询扩展,以及Lucene技术来建立索引和检索,改进排序算法使得返回结果更加满足用户需求。  相似文献   

18.
设计了一种基于统计的多层次分类算法:在一个树状的层次分类体系中,对文档进行自动分类时,首先从根结点开始找到对应的大类,然后递归往下直到找到对应的最底层子类.每一层中使用支持向量机作为分类模型,并使用类别均衡的方法解决数据稀疏的问题,在经过大规模网页语料训练后取得了很好的分类效果.  相似文献   

19.
基于对深网(DeepWeb)网页公共框架的定义,提出一种在信息抽取算法中增加公共框架检测阶段,采用序列比对算法提取公共框架的方法.与原始网页数据相比,去除公共框架的数据域信息对模板抽取更有利.基于真实网站的数据密集型网页集合,测试和对比了序列比对算法中参数不同取值以及公共框架检测阶段在数据量和抽取准确率等方面对信息抽取算法的影响.实验结果表明了算法的有效性.  相似文献   

20.
针对传统Web缓存技术不能加速动态页面传输的局限性,提出了一个新的动态页面缓存加速算法,实现对动态页面的网络传输加速功能,并且在现有的缓存加速系统squid上实现了该算法,最后对其进行了测试和结果分析.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号