首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
元搜索基于源搜索引擎的链接优化   总被引:1,自引:1,他引:0  
现有的Internet网站中一些大的搜索引擎,其功能很全,正因其功能强大,则难免在细节上出现一些不太完善的地方,如对搜索结果的链接没有实现有效性检测,导致了在网页中搜索结果出现了许多无效链接.针对这一缺点,本文先给出了元搜索引擎的定义、元搜索引擎的原理及搜索引擎与元搜索引擎的主要区别,同时还指出了搜索引擎的不足,最后提出了一个搜索引擎改进方法,给出了思路流程与方案解析,即在客户端实现过滤,这样既可以保持搜索的快速性,又能达到过滤链接的效果,并用UML时序图描述了搜索引擎的检索结果,同时进行有效性检查,建立这样的元搜索构想功能即是对如上搜索得到的网址进行检测过滤,以提示或去除其中无效的链接,使用户能够更加准确、快捷地获取所需要的资料信息.  相似文献   

2.
PageRank算法根据网络链接来计算网页的重要度,虽成功用于网页搜索,但仍存在着许多不足,如网页垃圾、无效链接等,不能很好地描述用户真实行为等问题.通过对成千上万网络用户真实行为数据的分析,提出了以半马尔科夫过程来模拟用户浏览行为,将其平稳概率分布作为页面重要度计算的测量方法.同时考虑网页内容和长度对停留时间的影响,结合传统链接分析法,使新网页被重视,旧网页能得到恰当的排名.实验结果证明,该方法比PageRank算法的查询结果满意度提高约24%,能更好的计算网页页面的重要度.  相似文献   

3.
企业外网应用系统作为企业面向社会和外部企业运营的通道,在提高企业运营效率的同时面临着来自互联网安全危险。因此研究实时在线信息安全评估与分析具有很重要的作用。本文结合企业互联网应用系统面临的信息安全现状,研究基于强化学习的WEB信息抓取RLC模型,通过模型来完成WEB页面结构化、页面特征提取、链接特征抽取等任务,同时利用综合回报评价模型中的Q值评价算法评价链接的接口相关度,根据该接口相关度数值进行WEB信息抓取对象选择,为WEB信息抓取提供最优选择策略,减少对无效页面检测的次数,从而提高整体安全检测效率。  相似文献   

4.
在前期工作发现景区链接数能够反映景区旅游吸引力的基础上, 探讨了北京A级景区的链接动机。首先, 根据景区属性建立链接动机的分类体系; 然后, 通过搜索引擎采集景区链接数据, 并随机抽取485个链接样本; 最后, 由3个研究者分别独立地进行分类。调查结果显示景区链接的创建动机主要是旅游, 总体上比例超过了70%。但是, 不同类型景区链接的旅游动机比例存在差异。景区的功能越多, 则景区链接的旅游动机比例越低, 如博物馆和工农业旅游示范企业。如果除去以上两类景区, 则旅游动机比例上升到了90%左右。研究结果说明景区链接数的意义是由旅游动机产生的链接决定的。这个结论为景区链接的吸引力解释提供了证据。  相似文献   

5.
基于扩展标记树,提出了一种从中心网页中自动抽取主题网页链接的方法。首先构建链接有序表,利用链接前缀树发现主题网页链接拒绝规则,实现对网页链接类型的预判定;其次,通过分组分割和相似分组重新合并,把页面中的链接归入到不同分组之中,进而识别分组的类型和核心区域所在的分组,最终把链接归入三类链接集合之中。实验结果表明该方法无需训练即可实现中心网页中主题网页链接的高精度抽取。  相似文献   

6.
传统的社交网络社区划分分为两种,一种是以链接属性进行划分,另一种是以用户自身属性进行划分.近年来出现了融合节点自身属性和链接属性的社区划分算法,但是这些算法只是单纯地将链接属性融为节点自身属性进行划分,忽略了链接属性强弱对节点间兴趣度的反映程度.针对这些问题,对微博中用户的链接属性进行了分类,采用直接链接节点链接关注度和间接链接节点链接关注度的概念,以链接强度为搜索顺序,提出一种基于链接强度的兴趣相似社区划分算法.实验表明,本算法划分的社区内链接度质量较高且用户兴趣相似.  相似文献   

7.
本文对WINDOWS的动态链接进行了深入的讨论,指出了动态链接相对于静态链接的优越性以及动态链接在WINDOWS应用程序开发中的应用。  相似文献   

8.
随着Web上数据量的不断增加,利用RDF组织数据并形成链接数据已经成为一种有效的应用方式。目前,链接数据的访问控制仍然没有形成规范,极大地阻碍了人们对链接数据的发布。传统的数据访问控制技术不能满足链接数据的开放环境要求,需要寻求新的控制模式以对链接数据进行有效保护。RIF是W3C推出的规则交换语言,适合于链接数据环境下的规则描述;基于属性的访问控制模型将是网络访问控制的一种趋势,将RIF与基于属性的访问控制结合起来是链接数据的访问控制的有益尝试。通过对链接数据的特点分析,给出了RIF+ABAC访问控制的定义,描述了关键的控制算法。实验表明,基于RIF+ABAC的访问控制机制非常适合链接数据的应用环境。  相似文献   

9.
鉴于现有中文实体链接基准语料库的缺乏, 在ACE2005中文语料库和中文维基百科的基础上, 通过自动构造和人工标注的方法, 构建一个中文实体链接语料库及其相关的中文知识库。与传统的英文实体链接语料库不同, 构造的中文实体链接语料库是基于实体而非单个实体指称(Mention)。中文实体链接语料库的构建, 将为中文实体链接研究提供一个可用的基准平台。  相似文献   

10.
链路预测与虚假链接是复杂网络的两大研究热点,目前为止,链路预测方法的研究已经非常成熟,而对于虚假链接的研究却仍旧没有得到太多的关注.根据链路预测与虚假链接的联系,用17种经典的链接预测算法,研究了这些算法在8个真实网络数据集中的识别虚假链接效果.实验结果表明,这些算法在识别虚假链接中的AUC值明显低于在链接预测中的AUC值;并且随着测试集比例的增加,在给定某个算法和数据集上,AUC值逐渐降低.  相似文献   

11.
在Internet高速发展的信息时代,网络搜索引擎是人们快速获得信息的重要工具之一。然而由于传统的搜索引擎基本上都是采用基于关键词匹配的全文检索技术,导致检索结果不全、无关信息过多。本文给出了一种基于概念检索的中文搜索引擎模型,采用“以网对网”技术来实现概念检索,使搜索引擎从基于关键词的检索提高到基于知识的智能检索。基于概念检索的中文搜索引擎对知识有一定的理解和处理能力,在一定程度上提高了搜索引擎的智能化。  相似文献   

12.
赵力 《科技信息》2009,(11):32-33
本文简要介绍了Web搜索引擎的基本原理、核心技术和处理流程,并详细介绍了相关组成技术的概念和系统整体工作流程。并基于c≠≠的全文索引引擎DotLucene软件包入手,简要介绍了Web网站站内信息搜索系统的基本开发过程和方法。  相似文献   

13.
FTP(file transfer protcol)搜索引擎的重点在于中文分词技术和检索技术.使用了一种面向FTP搜索优化的最大前向匹配分词算法,并将用户查询作为反馈来更新分词算法中所使用的字典,结合倒排索引技术实现了一个高性能的FTP搜索引擎的原型系统.压力测试结果表明此FTP搜索引擎具有很高的性能.  相似文献   

14.
一种新型的互联网智能元搜索引擎   总被引:3,自引:0,他引:3  
介绍了搜索引擎的一般工作原理,分析了现有搜索引敬尤其是中文搜索引擎的不足,提出了一种基于互联网的改进型元搜索引擎模型--智能元搜索引擎。详细介绍了智能元搜索引擎的设计和工作过程。  相似文献   

15.
一些网页为了更容易被用户检索访问,采用作弊手段欺骗搜索引擎来提高排名。搜索引擎作弊具备多样性和复杂性,而且往往是多种作弊方式相互结合共同作弊,给搜索引擎的反作弊检测带来了不小困难。文章从分析搜索引擎作弊流行原因出发,对当前比较流行的搜索引擎作弊方式进行了初步研究及分类,对作弊的工作过程及方式进行了综述,针对目前每种作弊技术对应的反作弊技术进行了比较分析,并对未来反作弊技术的发展方向进行了展望。  相似文献   

16.
针对当前大数据时代的背景,信息数据的海量化现象与日俱增,为了实现数据搜索的低成本、高效率,对Google搜索引擎的PageRank算法进行了综合性的研究分析,分别介绍了MapReduce框架和Hadoop实现平台,在此基础上,在Hadoop平台详细分析了基于MapReduce的PageRank算法的并行实现过程,以实现海量数据的并行处理,极大地提高了搜索引擎的性能.  相似文献   

17.
At present, how to enable Search Engine to construct user personal interest model initially, master user's personalized information timely and provide personalized services accurately have become the hotspot in the research of Search Engine area. Aiming at the problems of user model's construction and combining techniques of manual customization modeling and automatic analytical modeling, a User Interest Model (UIM) is proposed in the paper. On the basis of it, the corresponding establishment and update algorithms of User lnterest Profile (UIP) are presented subsequently. Simulation tests proved that the UIM proposed and corresponding algorithms could enhance the retrieval precision effectively and have superior adaptability.  相似文献   

18.
对北大天网实验室发布的搜索引擎Tiny Search Engine的原理进行分析,指出其在实际应用过程中的一些缺陷,并针对这些缺陷对软件体系结构加以改进,增加主控模块,实现了一种可扩展的分布式网页搜集系统.  相似文献   

19.
赵源 《科技信息》2010,(35):58-58,49
本文在中文分词技术的基础上,提出了一种基于中文文本主题提取的分词方法,以概念语义网络的思想构造主题词典,描述词间概念语义关系,采用改进的最大匹配算法对文本进行切词,既提高了分词的准确性,又能识别文中的未登录词,并同步完成主题词的规范工作。从而在概念层次上理解用户的需求,实现概念检索,提高查准率。  相似文献   

20.
简析搜索引擎中网络爬虫的搜索策略   总被引:4,自引:0,他引:4  
随着网络信息的迅速发展,搜索引擎已成为人们获取有用信息必不可少的工具.以何种策略有效地访问网络资源是专业搜索引擎中网络爬虫研究的主要问题.本文对搜索引擎中网络爬虫的搜索策略进行简要分析,比较各种搜索算法的优缺点,总结提高搜索效率的因素,使人们对网络爬虫的搜索算法有个大概了解,以及对新一代搜索引擎的期望,以便更快捷获取自己需要的信息.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号