首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
互联网的迅速发展,数据不断增加,使得个性化数据的获取难度越来越大.主题爬虫作为一种垂直检索方式,已经成为一个热门研究领域.传统的主题爬虫往往是通过网页链接之间的关系下载网页,然后再计算下载的网页与给定主题之间的相关关系.传统的主题爬虫一方面割裂了网页链接结构和网页内容主题之间的关系,使得两个部分分开计算; 另一方面下载过程的网页主题相关性不强,会下载大量的主题无关网页.本文提出一种新的基于PageRank 算法主题爬虫算法将网页主题相似度计算与传统的PageRank 算法相结合,将网页链接结构与网页主题相关性结合在一起.另外本文将语义相似性引入到主题爬虫里,实验结果表明本文提出的基于语义相似聚合的主题爬虫算法大大提高了主题爬虫的查全率.  相似文献   

2.
针对现存的语义主题爬虫没有考虑主题意义的延伸、页面与主题的相似度计算模型存在的缺陷及主题词项细化过于苛刻导致返回结果较少等不足,采用LDA(Latent Dirichlet Allocation)模型,对主题词项描述文档进行降维,改进语义相似度计算模型.引入语义信息的相似度计算模型(SVSM),用SVSM计算文档和主题模型的相似度.从本体中获取该主题词项的上位词,构建主题上位词的主题模型,爬虫依据现有网络中的主题重新获取主题相关信息,提出语义聚焦爬虫(ESVSM),通过不同主题下多个爬虫进行实验对比,发现所提出的基于主题建模和上位词替换的ESVSM算法在收获率、相关网页数量和网页平均相关度中均优于其他算法,平均抓取精度达到85%.  相似文献   

3.
给出了一种基于网页内容相似度和网页之间链接关系的社区发现方法.该方法不仅考虑了网页之间的超链接关系,而且着重考虑了网页在内容上的相似度并克服了传统社区发现算法忽略网页内容的局限性,使发现的社区在内容上更相关.在原始社区的基础上对其进行动态添加,将网络中新出现的与原始社区中的网页存在链接关系同时与主题相关的网页加入到原始社区.实验表明,此方法可以有效地应用于网络的社区发现,使发现的社区在内容上更相关.  相似文献   

4.
网页内容提取在信息检索、文本分析以及网络资源数据处理等领域具有重要的工程与应用价值.针对网页中的大量无关内容及网页结构的异构性所造成的网页内容提取难题,提出一种基于文本对象模型(DOM)的自动化网页内容提取方法.首先,在节点过滤后,对网页的DOM模型进行压缩,便于后续分析处理;然后,提出基于文本-链接密度的内容提取方法来识别网页内容;最后,基于节点熵来识别并去除网页内容中的噪声链接.实验结果表明,相比于传统的网页内容提取方法,该方法的准确率和F1分数均有明显提升,而召回率仅有轻微下降.  相似文献   

5.
基于本体语义的定题爬虫   总被引:3,自引:0,他引:3  
定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性.  相似文献   

6.
随着网络的高速发展,其信息资源越来越庞大,面对巨量的信息库,搜索引擎起着重要的作用.主题爬虫技术作为搜索引擎的主要核心部分,计算搜索结果与搜索主题的关系,该关系被称为相关性.一般主题爬虫方法只计算网页内容与搜索主题的相关性,作者所提主题爬虫,通过链接内容和锚文本内容计算链接的重要性,然后利用贝叶斯分类器对链接进行分类,最后利用余弦相似函数计算网页的相关性,如果相关值大于阀值,则认为该网页与预定主题相关,否则不相关.实验结果证明:所提出主题爬虫方法可以获得很高的精确度.  相似文献   

7.
基于结构与内容的网页主题信息提取研究   总被引:11,自引:0,他引:11  
结合HTML网页内部特征与外部的结构布局,提出采用映射表这种网页映射模式对网页视图进行变换,基于结构与启发式规则对网页进行区域分割与识别,并利用向量空间模型对网页内容分析,从而准确得到具有高语义内聚性的网页主题内容.实验结果表明,此方法对各种复杂结构的网页主题信息提取较为理想.  相似文献   

8.
主题爬虫是垂直搜索引擎的核心组成部分,它为面向主题的用户查询准备数据资源;提出了一种基于HMM的主题爬虫方法,方法不仅分析网页内容,而且还考虑网页的上下文链接结构,首先将当前网页的聚类结果作为观察状态、将当前网页到目标网页的链接距离作为隐含状态,然后通过HMM模型学习用户的主题浏览模式并利用它采集更多的主题网页;实验结果表明:方法能采集大量与指定主题相关的高质量网页,主题爬行效率优于Best-First主题爬虫。  相似文献   

9.
搜索引擎垃圾网页的检测已经成为近年来机器学习领域的研究热点.在对搜索引擎垃圾网页及其使用的各种作弊技术进行介绍的基础上,针对各种垃圾网页检测模型进行综述,分别介绍和分析基于网页内容特征的检测模型、基于链接结构的检测模型、结合网页内容特征和链接特征的检测模型以及各种其它类型的检测模型,并对搜索引擎垃圾网页检测的未来研究方...  相似文献   

10.
WEB搜索引擎关键技术研究   总被引:1,自引:0,他引:1  
随着WWW的飞速发展,网络搜索引擎已经成为广大用户获取网络信息的主要检索工具。本文在阐述Web搜索引擎的工作原理基础上,深入研究了网页搜集、网页内容分析和链接分析、索引技术、检索技术等构建搜索引擎的关键技术,最后探讨了衡量Web搜索引擎的主要性能指标。  相似文献   

11.
随着乡村旅游的发展,近几年提出很多围绕特色村寨的原创乡村旅游新概念和新理论,如:游居、野行、诗意栖居、场景时代等.特色村寨的旅游形象是检验和衡量地区开发特色村寨旅游目的地的重要依据.以湖南武陵山片区为例,使用python网络爬虫技术从马蜂窝、携程等网站获取游记、评论等样本,利用ROSTContentMining软件对文本进行高频特征词分析、语义网络分析和情感分析,研究游客对景区的旅游形象感知.(1)128篇游记样本中提取出162条高频词汇,频次排在前60位的词汇表明游客的主要关注点集中在村寨的景观,高频词汇的语义网络矩阵以村寨为核心,其他特征词向周围发散状;(2)游客对特色村寨旅游认知形象主要为村寨形象、旅游吸引物、村寨设施及服务三个方面;(3)综合来说,游客对于湖南武陵山片区的村寨旅游形象感知以正向情感为主,通过后续人工读取文本发现,负向情感主要源于村寨的道路交通以及卫生环境等基础设施服务不完善.  相似文献   

12.
大数据时代网络舆情数据逐年增多,单依靠传统方法识别,存在效率低、反馈不及时等诸多问题。本文研究利用人工智能的思维与技术手段来解决网络舆情数据的识别及管理,首先借助爬虫技术,通过网络平台爬取舆情数据;接着对标注好的文本数据进行清洗、中文切词、停用词过滤等预处理操作;再使用支持向量机构建数据识别模型,对数据进行文本识别;最后将识别后的诉求件反馈到相关职能部门,以确保管理落到实处。研究结果表明识别效果好,诉求件的识别准确率高达95.3%,采用人工智能数据挖掘技术识别网络舆情数据是有效可行的,其应用实施能有效提高政府部门的管理效率。  相似文献   

13.
0 IntroductionTIon tceorpneet w ,itthhefr cerqauwelnetr sch oafn sgeeasr cohf tehneg iinnfeo rnemeadti toon uopnd tahteethe web pages visited. Different pages have different changefrequencies[1].Sothe crawlers must firstly esti mate which pa-ges need to b…  相似文献   

14.
陈雷  王晓东 《河南科学》2004,22(5):708-710
简单论述了语义Web的体系结构及其与Ontology的关系,根据应用需求,提出了一种基于Ontology的知识获取模型,这对语义Web的应用具有一定的意义。  相似文献   

15.
网络爬虫技术研究   总被引:3,自引:0,他引:3  
网络爬虫为搜索引擎从互联网上下载网页,是搜索引擎不可或缺的组成部分.介绍网络爬虫的分类、工作原理及存在的问题,并对主题爬虫进行了详细设计,最后总结了设计高性能网络爬虫需要解决的技术难题.  相似文献   

16.
提出了基于LDA(Latent Dirichlet Allocation)主题模型的Web文本分类方法,利用MCMC方法中的Gibbs抽样获得模型参数从而获取词汇的概率分布,使隐藏于WEB文本内的不同主题与WEB文本字词建立关系。将LDA算法应用于WEB文本分类识别领域,在实验中与k均值聚类和贝叶斯网络方法进行了对比,其结果表明LDA与其他同类算法相比具有一定的优势。  相似文献   

17.
基于关键字和链接的搜索引擎优化策略   总被引:2,自引:1,他引:2  
搜索引擎优化是近年来兴起并不断发展的技术,目前被广泛的应用于电子商务网站的优化。介绍了关键字和链接在网站优化中的应用,提出了相关的优化方案,并把它应用于网站的优化,提高了网站在搜索引擎中的排名。  相似文献   

18.
用有向图法解决网页爬行中循环链接问题   总被引:4,自引:0,他引:4  
提出网页构成的有向回路问题, 描述了由网页构成有向图的形式定义, 并给出了用有向图法发现网页构成的有向回路算法. 所给定的算法能使网页爬行器避免掉入由已爬行过的网页构成的有向回路陷阱.  相似文献   

19.
针对位置语言模型没有考虑词与词之间语义关系的问题, 提出一种结合语义的位置语言模型。首先采用高斯核函数来度量词与词之间的位置关系; 然后提出一种平滑互信息的技术来度量词与词之间的语义关系, 证明了平滑互信息能够有效解决大量词对之间无法通过互信息来计算转移概率的问题; 还证明了位置语言模型是结合语义位置语言模型的一个特例; 最后将结合语义的位置语言模型应用于信息检索, 得到一个基于该模型的检索模型。实验结果表明, 基于该模型的检索模型在性能方面要优于基于位置语言模型的检索模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号