共查询到20条相似文献,搜索用时 109 毫秒
1.
互联网的迅速发展,数据不断增加,使得个性化数据的获取难度越来越大.主题爬虫作为一种垂直检索方式,已经成为一个热门研究领域.传统的主题爬虫往往是通过网页链接之间的关系下载网页,然后再计算下载的网页与给定主题之间的相关关系.传统的主题爬虫一方面割裂了网页链接结构和网页内容主题之间的关系,使得两个部分分开计算; 另一方面下载过程的网页主题相关性不强,会下载大量的主题无关网页.本文提出一种新的基于PageRank 算法主题爬虫算法将网页主题相似度计算与传统的PageRank 算法相结合,将网页链接结构与网页主题相关性结合在一起.另外本文将语义相似性引入到主题爬虫里,实验结果表明本文提出的基于语义相似聚合的主题爬虫算法大大提高了主题爬虫的查全率. 相似文献
2.
随着网络的高速发展,其信息资源越来越庞大,面对巨量的信息库,搜索引擎起着重要的作用.主题爬虫技术作为搜索引擎的主要核心部分,计算搜索结果与搜索主题的关系,该关系被称为相关性.一般主题爬虫方法只计算网页内容与搜索主题的相关性,作者所提主题爬虫,通过链接内容和锚文本内容计算链接的重要性,然后利用贝叶斯分类器对链接进行分类,最后利用余弦相似函数计算网页的相关性,如果相关值大于阀值,则认为该网页与预定主题相关,否则不相关.实验结果证明:所提出主题爬虫方法可以获得很高的精确度. 相似文献
3.
从全局上限定采集范围可以有效地提高主题爬虫的查准率.结合Web链接分析和页面内容特征分析,提出了一种基于复杂网络局部社区发现的主题爬行方法,将主题爬行分为两个阶段,第一阶段采用复杂网络的局部社区发现算法进行Web链接分析,构建主题网站群,缩小爬行范围.在第二阶段,在限定的范围内,对爬取到的页面进行主题相似度判定,并对下一步的链接目标进行预测.实验证明,该方法显著提高了主题爬虫的查准率. 相似文献
4.
5.
基于SVM预测的金融主题爬虫 总被引:2,自引:2,他引:0
随着Internet上信息的爆炸,利用通用搜索引擎检索用户相关的信息变得越来越困难,而主题爬虫成为WEB上检索主题相关信息的重要工具.目前大部分基于分类器预测的主题爬虫的训练数据是不同类别网页的内容,但是在实际预测过程只能根据父网页中的一些链接信息进行预测,所以造成主题爬虫的预测的准确率较低.本文使用SVM分类器对标注了类别的URL以及上下文和锚文本进行训练,并分别使用了DF和信息增益两种不同的特征选择方法进行特征筛选,对影响分类器的各种因素进行了实验对比,并对分类器进行了在线的实验.实验证明这种方法在实际预测过程中效率很高. 相似文献
6.
陈黎 《四川大学学报(自然科学版)》2010,47(2)
随着Internet上信息的爆炸,利用通用搜索引擎检索用户相关的信息变得越来越困难,而主题爬虫成为WEB上检索主题相关信息的重要工具。目前大部分基于分类器预测的主题爬虫的训练数据是不同类别网页的内容,但是在实际预测过程只能根据父网页中的一些链接信息进行预测,所以造成主题爬虫的预测的准确率较低。本文使用SVM分类器对标注了类别的URL以及上下文和锚文本进行训练,并分别使用了DF和信息增益两种不同的特征选择方法进行特征筛选,对影响分类器的各种因素进行了实验对比,并对分类器进行了在线的实验.实验证明这种方法在实际预测过程中效率很高。 相似文献
7.
《烟台大学学报(自然科学与工程版)》2017,(3):255-260
主题网络爬虫技术是获取特定主题的有效手段,其搜索算法的性能直接决定着搜索结果的优劣.文章综合分析了现有的网络信息搜索算法,并将遗传算法思想应用到主题网络爬虫技术中,提出了非贪婪遗传主题网络搜索算法.实验结果表明,该算法能够采集到更多主题相关度高的网页,提高信息采集正确率,快速高效获取交通相关的信息. 相似文献
8.
基于本体语义的定题爬虫 总被引:3,自引:0,他引:3
定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性. 相似文献
9.
10.
《山东师范大学学报(自然科学版)》2018,(4)
针对基于文本内容的主题爬虫算法引入过多无关特征属性以及没有考虑出现频次不同的特征属性对相关性判定影响的不足,提出一种基于候选链接主题边缘文本的主题爬虫.使用杜威十进分类法提取锚文本关键词和与锚文本关键词词义相近的网页正文中的关键词,称为候选链接主题边缘文本.在使用朴素贝叶斯分类器进行相关性判定时,对出现频次不同的特征属性进行加权,获取的候选链接按照判定结果的大小顺序存入队列等待下一轮的访问.实验结果表明,该爬虫有效提高了相关网页获取的准确性. 相似文献
11.
模型重用一直是作战仿真领域研究的热点和难点。本文从作战行动建模入手,利用基于过程的作战行动分解方法,研究和探讨了面向重用的元行动模型。首先提出了元行动、元行动模型等相关概念并分析了基于可重用元行动模型的作战行动模型开发方式的优越性,然后从理论上探讨了三种元行动模型重用类型,最后提出了基于开发框架的元行动模型重用开发方法及其具体实现。 相似文献
12.
企业信息化水平测评理论模型比较分析 总被引:8,自引:0,他引:8
企业信息化是我国当前广泛关注的热点问题 ,而企业信息化水平的测评是该过程的基础工作。本文分析了社会信息化水平测评方法不能完全适用于企业信息化过程的原因 ,介绍并比较了诺兰模型、软件能力成熟度模型和技术信息卓越度模型等企业信息化水平测评模型 相似文献
13.
洪灾避难迁移决策模型研究与实现 总被引:1,自引:0,他引:1
洪涝灾害发生时,灾区人民人身和财产的安全转移至关重要,本文主要研究受灾居民撤离路线选取,以撤离时间最短为原则选择最优路线.撤离路线模型利用了ARCGIS网络分析和空间分析功能,结合Model Builder进行设计,采用COM技术实现模型调用.模型运行结果为洪涝灾害救助决策支持系统建立提供了宝贵的经验,并在洞庭湖地区示范运行. 相似文献
14.
朱红康 《山西师范大学学报:自然科学版》2006,20(3):27-30
为了适应中小企业对MDA的部署,在分析MDA体系结构和开发模式的基础上,结合领域模型构建理论,提出一种扩展的MDA开发模型。该模型既可解决系统在不同中间件平台中的集成、互操作性、可移植性等问题,又有利于将MDA用于项目开发实践. 相似文献
15.
多级评分CAT的认知诊断方法 总被引:1,自引:0,他引:1
认知诊断因其能识别被试认知状态已成为CAT研究的重要部分之一,但目前研究大多都基于0-1评分,这与我国试题也采用多级评分现状不相适应.因此,研究基于多级评分的认知诊断具有重要意义.该文主要研究开发多级评分模型下有认知诊断功能的CAT测试系统,采用等级反应模型(GRM),使用先认知诊断后估计能力的方法.该系统的认知诊断正确率较高,且诊断结果较稳定,能力估计也较准确,测验安全性好. 相似文献
16.
TARCH-M模型在上证指数波动率的实证分析 总被引:1,自引:0,他引:1
本文应用TARCH-M模型,并且引入迭代累计平方和(ICSS)法则对上证指数进行波动时段进行划分,针对不同波动时段分析其上证指数日收益率上涨和下跌对上海股票市场非对称的影响特点.结果表明,上海股市在1997年以前,收益率的上涨比下跌对股市造成的影响更大,即与通常定义的“杠杆效应”相反;而在1997年以后,其“杠杆效应”才显著.此外,收益率和波动性在后两阶段出现明显的正相关关系,说明了投资者正从以前盲目投资逐渐转变为理性投资,上海股市已日趋成为一个成熟的市场. 相似文献
17.
结合仿真模型库应用和管理的需要,提出了开发仿真模型库管理系统的设想。并设计了仿真模型库管理系统的功能结构和层次体系。提出了模型库仿真模型的建立方法和模型字典设计方法。采用MATLAB和VB混合编程技术,开发出仿真模型库管理系统应用程序框架,并实现了各个功能模块。 相似文献
18.
主要介绍了MVC(模型-视图-控制)模型的Model2架构,以及基于Model2的应用开发架构Struts的体系结构。通过一个实际系统(警卫系统)的开发,说明了Struts在开发应用系统中的优越性,和一些流行的框架做了比较并且指出了Struts架构的有待改进的地方。 相似文献
19.
基于信任网的推荐机制研究 总被引:1,自引:1,他引:0
针对信任和声誉模型中推荐机制存在一些的问题,结合主观逻辑,提出了基于信任网的推荐机制,给出信任网的基本定义,对信任网中推荐链的依赖关系进行形式化描述,给出相应的解决策略,并利用信任强度解决了主观逻辑中无法对恶意推荐实体进行惩罚的问题,提高推荐信息的精确度。模拟实验结果表明,基于信任网的推荐机制能在一定程度上减少访问到恶意实体的次数,并惩罚提供恶意推荐的实体。 相似文献
20.
随着计算机网络的普及,计算机的安全成为网络发展的一个制约因素。而网络蠕虫是其中的一个重大危险。本文介绍了网络蠕虫的几种主要的传染病传播模型。 相似文献