期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于链接聚类的Shark-Search算法 总被引：1，自引：0，他引：1

苏祺项锟孙斌《山东大学学报(理学版)》2006,41(3):1-04

根据对Shark-Search主题爬取算法的分析，提出了一种基于链接聚类的改进Shark-Search算法. 并通过几个对比实验对该算法进行了验证. 实验结果表明,新算法能够更有效地识别链接与主题的相关性. 相似文献

2.

于淑云《长春工程学院学报(自然科学版)》2016,17(2):95-98

在校园 BBS 的基础上研究了网络爬虫程序的4个关键模块：页面抓取、页面解析、任务调度和去重模块。探讨了 HTMLParser 和正则表达式在解析页面时的运用方法。在处理爬取数据时,改进了任务调度算法,提高了爬取速度,并针对校园论坛 BBS 经关键词搜索的页面进行了爬取。相似文献

3.

基于复杂网络局部社团发现的主题爬行研究

沈桂兰孙洁杨小平《河南师范大学学报(自然科学版)》2014,(4):134-138

从全局上限定采集范围可以有效地提高主题爬虫的查准率.结合Web链接分析和页面内容特征分析,提出了一种基于复杂网络局部社区发现的主题爬行方法,将主题爬行分为两个阶段,第一阶段采用复杂网络的局部社区发现算法进行Web链接分析,构建主题网站群,缩小爬行范围.在第二阶段,在限定的范围内,对爬取到的页面进行主题相似度判定,并对下一步的链接目标进行预测.实验证明,该方法显著提高了主题爬虫的查准率. 相似文献

4.

基于主题相关性和链接权重的PageRank算法

杨格兰涂立《华中科技大学学报(自然科学版)》2012,(Z1):300-303

在基于链接分析的排序算法PageRank分析基础上,提出了一种基于主题相关性和链接权重的Page-Rank改进算法.该方法首先随机选取任一链出页面,通过主题相关性评价算法获得改进的PageRank值,并重新排序.实验结果显示该算法提高了查询速度、查询准确率,并且算法具有良好的稳定性和可扩展性. 相似文献

5.

基于FDOD的Web用户分类新算法(英文)

周文刚马占欣王勇献《河南科学》2007,25(1):112-117

了解用户的行为与特征对网站的设计与维护非常重要,分析网站日志可有效获取Web的访问信息.提出一种利用对网站日志文件的分析实现Web用户分类的新算法.首先对日志文件进行数据筛选及事务识别,构建出一个链接网络图;然后利用页面之间的链接关系定义评估页面之间相似性的新指标,合并相似的页面,形成一个压缩链接图;使用FDOD对链接图中的链接路径进行分类.实验表明,该分类算法具有易于使用、响应迅速以及准确性高等优点。相似文献

6.

基于PageRank算法的引擎搜索优化策略研究

王毅江小玲《科技资讯》2008,(11)

本文针对目前主流的PageRank算法,集中研究了该算法的形成思路、计算方法,并分析该算法在独立网站、包含索引页面、入站链接和出站链接等几种模型下的效果,提出了相应的优化策略。从而有效指导网站链接结构优化,有组织,有规划地提高网页在搜索结果中的排名,避免盲目处理造成的混乱结果。实验证明了所提出优化策略的有效性。相似文献

7.

融合链接结构的主题爬虫算法

刘韶涛李洪胜《华侨大学学报(自然科学版)》2017,(2):195-200

通过分析基于内容的链接选择Best-First算法,引入能够体现链接价值的HITS(hyperlink induced topic search)算法,提出了新的链接选择策略.将两种算法相结合,新的爬虫不仅仅考虑页面内容,同时将链接结构加入进来,使得在下载的过程中能够保证主题相关性和权威性,缓解爬虫在爬行阶段的“近视”现象.结果表明:新的爬行策略比单一的Best-First算法具有更好的性能表现. 相似文献

8.

基于用户行为模型的网页排序算法

贺元香史宝明杨生举吴万琴《甘肃联合大学学报(自然科学版)》2015,29(3):63-67,111

PageRank算法根据网络链接来计算网页的重要度,虽成功用于网页搜索,但仍存在着许多不足,如网页垃圾、无效链接等,不能很好地描述用户真实行为等问题.通过对成千上万网络用户真实行为数据的分析,提出了以半马尔科夫过程来模拟用户浏览行为,将其平稳概率分布作为页面重要度计算的测量方法.同时考虑网页内容和长度对停留时间的影响,结合传统链接分析法,使新网页被重视,旧网页能得到恰当的排名.实验结果证明,该方法比PageRank算法的查询结果满意度提高约24％,能更好的计算网页页面的重要度. 相似文献

9.

基于URL类型和网页链接变化的信息采集更新算法

陈晓志董守斌张凌张元丰《郑州大学学报(理学版)》2007,39(2):60-64

通过观察网站呈现网页的规律及网页本身的结构特点,提出基于URL类型及网页链接变化规律的入口页面识别算法,优先抓取入口页面.在实际应用中,取得了较好的更新效果. 相似文献

10.

Web信息检索排序算法研究 总被引：2，自引：0，他引：2

张春元康耀红伍小芹《海南大学学报(自然科学版)》2009,27(1):78-83

系统地研究了Web信息检索常用排序算法,即基于Web页面内容的排序算法、基于Web页面链接分析的排序算法和基于检索用户的排序算法,并对其优缺点进行了分析．在此基础上,对Web信息检索排序算法的发展趋势进行了展望．相似文献

11.

基于随机森林的文本分类模型研究 总被引：1，自引：1，他引：1

张华伟王明文甘丽新《山东大学学报(理学版)》2006,41(3):139-143

随着WWW的迅猛发展，文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成，并且由一随机向量决定决策树的构造. 当森林中决策树的数目增大，随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reuter21578数据集上的实验表明，分类效果比较好，性能比较稳定，将其同C4.5, KNN, SM0, SVM 4种典型的文本分类器进行了比较，结果显示它的分类性能胜于C4.5，同KNN, SMO和SVM方法相当. 相似文献

12.

Nutch中网页更新预测研究与优化

胡伟吴海涛《上海师范大学学报(自然科学版)》2016,45(4):448-457

Nutch的网页更新预测方法采用的是邻比法,相关更新参数需要人为设定,不能自适应调整,无法应对海量网页更新的差异性.为解决这个问题,提出动态选择策略对Nutch的网页更新预测方法进行改进.该策略在网页更新历史数据不足时,通过基于MapReduce的DBSCAN聚类算法来减少爬虫系统抓取网页数量,将样本网页的更新周期作为所属类其他网页的更新周期;在网页更新历史数据较多时,通过对网页更新历史数据进行泊松过程建模,较准确地预测每个网页的更新周期.最后在Hadoop分布式平台下对改进该策略测试.实验结果表明,优化后的网页更新预测方法表现更优. 相似文献

13.

基于关联图的改进关联规则在推荐系统中的应用

王林林石冰胡元邢海华《山东科学》2011,24(5):76-80

提出了推荐模型中的关联规则挖掘方法的改进,给出了自定义的页面权值的定义,并改进了基于关联图的关联规则挖掘算法,将页面权值应用于关联规则的挖掘中。此算法是利用Web日志中经过预处理后得到的数据进行规则挖掘,将处理后的数据应用正态分布函数来得到页面权值。用页面权值重新计算支持度,最后将得到的支持度应用于改进的规则挖掘算法中,形成一种基于权值的关联图的关联规则算法。相似文献

14.

基于渗透测试的网络安全漏洞实时侦测技术研究

张志华《科学技术与工程》2018,18(20)

传统网络安全漏洞侦测技术无法准确得到攻击注入点,和服务器交互频繁,导致侦测结果不可靠、效率低下。为此,提出一种新的基于渗透测试的网络安全漏洞实时侦测技术。设计了渗透测试下网络安全漏洞实时侦测系统,构建系统架构,在生成攻击图时,将网络当前节点漏洞看作单位编码,利用进化计算对不同漏洞属性权重进行调整,获取攻击图库。在设计攻击注入点分析模块时,利用广度优先爬取法,依据网页目录层次实现网络页面爬取;通过爬取过程获取网络全部页面攻击注入点,根据Bloom Filter对重复的URL进行去重处理。利用渗透测试实现攻击和分析模块设计,以此生成攻击图对注入点注入攻击;对攻击反馈进行研究,判断注入点是否存在网络安全漏洞。渗透测试时为了降低交互频率,通过探子请求技术完成探测,对是否进行进一步侦测进行判断。实验结果表明,所提技术侦测结果可靠,效率高。相似文献

15.

基于分块的网页主题信息自动提取算法 总被引：3，自引：0，他引：3

殷贤亮李猛《华中科技大学学报(自然科学版)》2007,35(10):39-41

对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率. 相似文献

16.

利用超链接信息改进网页爬行器的搜索策略 总被引：5，自引：0，他引：5

赫枫龄左万利《吉林大学学报(信息科学版)》2005,23(1):59-63

网页爬行器在Web空间中爬行时,要面对如下两个问题:1)由于Internet上的信息量十分巨大,网络搜索引擎不可能包含整个Web网页;2)受到硬件资源的限制,它所能存储的网页是有限的.爬行器如果按照传统的宽度优先搜索策略在Web空间中爬行,它对所有的网页都采取一视同仁的态度,这样爬行的结果就导致了它所爬行回来的网页质量不高.为此,给出了利用超链接信息改进网页爬行器搜索策略的算法.该算法充分考虑了网页之间的超链接信息,克服了传统的宽度优先搜索策略的盲目性爬行.实验表明,利用该算法爬行得到的网页与某一特定主题相关的网页超过50%. 相似文献

17.

一种新型垂直搜索引擎构建方法

王美霞李玉坤肖迎元《天津理工大学学报》2012,28(4):84-88

如何有效地构建面向领域的垂直搜索引擎,是信息检索领域众多研究者关注的问题．本文提出了一种通用的基于专业词汇表构建垂直搜索引擎的方法,通过分析网页特征,提出了基于链接结构和文本内容的启发式网页爬取策略．该策略结合网页的结构信息特征,在网页和主题相关度计算中考虑了特征词汇在网页中的权重,有效地提高了专业搜索引擎的查询效率．通过具体实现一个面向医疗领域的垂直搜索引擎,验证了本文所提出的方法的有效性．相似文献

18.

基于贝叶斯分类的主题爬虫

下载免费PDF全文

贾海军陈海光《上海师范大学学报(自然科学版)》2013,42(6):595-598

随着网络的高速发展,其信息资源越来越庞大,面对巨量的信息库,搜索引擎起着重要的作用．主题爬虫技术作为搜索引擎的主要核心部分,计算搜索结果与搜索主题的关系,该关系被称为相关性．一般主题爬虫方法只计算网页内容与搜索主题的相关性,作者所提主题爬虫,通过链接内容和锚文本内容计算链接的重要性,然后利用贝叶斯分类器对链接进行分类,最后利用余弦相似函数计算网页的相关性,如果相关值大于阀值,则认为该网页与预定主题相关,否则不相关．实验结果证明：所提出主题爬虫方法可以获得很高的精确度．相似文献