首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
基于概念树的主题搜索机器人系统研究   总被引:3,自引:0,他引:3  
采用基于概念树的主题爬取算法,构造了一个主题搜索机器人系统。对文档与主题层的向量表示进行简化.设计与实现了一个主题搜索机器人原型。  相似文献   

2.
提出了基于本体概念图的web文档的主题爬取,采用本体概念图构造主题层次图,赋予待爬取的URL对象以层次语义信息,按照语义相关性与重要性选择爬取URL对象,搜索属于特定语义相关主题的重要web文档的WWW子集。  相似文献   

3.
蔡迪阳 《科技资讯》2023,(13):31-34
基于大规模数据下载的需求,针对以往人工下载数据过程中存在的影响效率的问题,结合Python语言提出一种能够用于网页信息数据爬取的技术,用于减少数据下载前期的繁琐工作,提高网络信息系统和技术的开发效率。该文以网页信息爬取技术为主要研究对象,基于现代化信息数据的应用和发展需求,着重对融合了Python语言的网页信息爬取技术进行研究和分析。  相似文献   

4.
为解决现有长白山景点旅游数据不够集中、缺乏有效利用问题,通过合理制定基于Python的网络爬虫,实现了对部分旅游网站长白山旅游数据的爬取,并利用Tableau工具对数据进行可视化分析,从多个维度精准挖掘旅游人数与各个因素之间的潜在关系,得到了更为直观的效果,有利于趋势分布的观察,为长白山地区进一步制定合理的旅游策略奠定...  相似文献   

5.
提出一种基于概念联想网络的网页预取模型,挖掘用户访问模式中蕴含的概念间联想模式,结合在线学习和离线挖掘两种方式,建立面向用户的概念联想网络,并基于概念联想网络实现网页预取评价。模型对网页进行概念层次的分析,提高了预取的准确性,实现了基于语义的客户端网页预取。  相似文献   

6.
为免去人工下载的烦琐,满足大规模下载数据的需求,基于Python设计了网页信息数据爬取程序,并对其进行实例分析。通过获取Web数据资源,收集大量数据进行分析挖掘,并研究其所需的原始统计数据。为了减少重复烦琐的前期工作,提高开发效率,进一步搭建Scrapy工程,并采用决策树算法规避网站反爬虫,基于Python编写爬虫程序下载数据,存入数据库中完成网页信息数据爬取设计。爬取某购物网站的信息数据,并对数据进行简单统计分析得到可视化示例,所设计的方法获取的某购物网站信息清晰明了,为网页信息数据爬取设计提供了参考。  相似文献   

7.
基于云有序概念层次树的时间序列距离计算模型   总被引:1,自引:0,他引:1  
时间序列是一类广泛存在的、重要的复杂数据.时间序列的知识发现成为知识发现的研究热点之一.而时间序列间的距离计算是很多时间序列知识发现的核心.针对目前时间序列距离模型的不足,基于云的时间序列线性形态表示,提出一种新的时间序列距离计算模型———基于云有序概念层次树的时间序列距离计算模型.该计算模型具有如下优点:允许时间序列存在某种程度的变形,能在一定程度上消除噪声、数据中的不连续性、偏移性和漂移性;用户可在比较时间序列距离时控制距离计算颗粒度;有效、简洁直观、易于理解.    相似文献   

8.
基于概念的信息检索模型研究   总被引:24,自引:2,他引:24  
随着Internet的迅速发展,WWW已经成为世界上最大的信息库,它正日益改变着人类的生活方式。然而,由于WWW信息资源庞大,结构复杂,如何高效地从中找到需要的信息,已经成为困扰网络用户的一大难题。许多著名的站点,如Yahoo,Alta Vista,Infoseek均使用基于关键字的搜索引擎,存在明显的缺陷,当查询用的关键字与目标文档尽管语义相同,但用词不一致时,将检索失败,导致召回率很低。提出一个基于概念的信息检索模型,它不是以关键字为核心,而是以概念为核心来实现信息检索。着重介绍了基于概念的信息检索模型的设施、方法和工具。  相似文献   

9.
以机器翻译领域为应用目标, 以概念层次网络理论的语义网络和句类分析方法为理论基础, 探讨句类依存树库构建的理论和标注实践等问题。详细描述了构建树库所需的概念类别标注集和句类关系标注集, 并给出了句类依存树样例。  相似文献   

10.
数据采掘是数据库中知识发现的核心,详细描述了数据采掘中概念树方法在模糊性问题中的应用.  相似文献   

11.
从全局上限定采集范围可以有效地提高主题爬虫的查准率.结合Web链接分析和页面内容特征分析,提出了一种基于复杂网络局部社区发现的主题爬行方法,将主题爬行分为两个阶段,第一阶段采用复杂网络的局部社区发现算法进行Web链接分析,构建主题网站群,缩小爬行范围.在第二阶段,在限定的范围内,对爬取到的页面进行主题相似度判定,并对下一步的链接目标进行预测.实验证明,该方法显著提高了主题爬虫的查准率.  相似文献   

12.
可在线增量自学习的聚焦爬行方法   总被引:9,自引:0,他引:9  
将Web爬行看作执行序列动作的过程,结合改进的快速Q学习和半监督贝叶斯分类器,提出一种新的具有在线增量自学习能力的聚焦爬行方法.该方法从获取的页面中抽取特征文本,根据特征文本评估页面的主题相关性,预测链接的Q值,然后基于Q值过滤无关链接.当得到主题相关页面时产生回报,将回报沿链接链路反馈,更新链路上所有链接的Q值,并选择相应的特征文本作为训练样本,增量地改善主题评估器和Q值预测器.实验结果表明,该方法具有很快的自学习能力,获取的页面数目和精度均优于离线聚焦爬行方法,更符合Web资源发现的要求.  相似文献   

13.
采用计算向量之间相似度的方法, 通过实验分析验证了表格信息在主题爬行中的重要性. 研究结果表明, 与整个网页相比, 表格所能提供的与用户相关的信息占整个网页信息总量的80%以上, 因而在主题爬行领域可以充分利用这一结论进行网页解析. 在舍弃除表格和标题之外的其他元素后, 提高了爬行程序的效率.  相似文献   

14.
主题爬虫是垂直搜索引擎的核心组成部分,它为面向主题的用户查询准备数据资源;提出了一种基于HMM的主题爬虫方法,方法不仅分析网页内容,而且还考虑网页的上下文链接结构,首先将当前网页的聚类结果作为观察状态、将当前网页到目标网页的链接距离作为隐含状态,然后通过HMM模型学习用户的主题浏览模式并利用它采集更多的主题网页;实验结果表明:方法能采集大量与指定主题相关的高质量网页,主题爬行效率优于Best-First主题爬虫。  相似文献   

15.
基于网页分块技术主题爬行器的实现   总被引:1,自引:0,他引:1  
针对目前通用搜索引擎搜索到的结果过多、 与主题相关性不强的现状, 提出一种基于网页分块技术的主题爬行器实现方法, 并实现了一个原型系统Crawler1. 实验结果表明, 本系统性能较好, 所爬网页的相关度在55%以上.  相似文献   

16.
全面详细地研究了用户个性化W eb信息采集算法,并提出了一个基于指定站点的用户个性化W eb信息采集模型;实验结果表明,在一个用户指定的站点内,该模型可以快速的采集到根据用户需求定制的页面,并存储到本地的文件系统中.这个采集模型具有较强的实用价值,可以为创建某方面的资源库快速的采集信息.  相似文献   

17.
在面向领域的信息搜索中,本体作为相关的领域知识往往有助于改善搜索效果,在信息检索中被广泛应用.基于本体增量学习的主题爬行技术的研究工作主要包括:首先,利用本体对领域概念及关系的描述作为网页主题判定的依据;其次,在爬行过程中,将学习得到的新概念和关系加入到本体中,以丰富完善领域本体,进而提高主题爬虫的收获率;最后,经过大量的实验数据分析,在词条提取准确率、收获率和响应速度等多个指标方面,证明了所提出的方法是可行的并且是高效的.  相似文献   

18.
基于概念图的教学内容智能调整模型及算法实现   总被引:8,自引:0,他引:8  
课件教学是Web教学过程中的主体核心,其内容组织与安排将直接关系到整体教学效果,通过对学生头脑中课程的知识与内容的概念图(Concept Map)进行表示和分析,定制出面的每个特定学习者的课件浏览概念图,实现个性化的自主学习,采用概念图理论,在前期的人性化学习分析模型研究基础上,对于个性化分析结果作了进一步的探讨,同时借鉴最小生成树算法,构建了教学内容智能调整模型并给出了相应算法实现。  相似文献   

19.
李仲生  王家琴 《科学技术与工程》2007,7(10):2396-23982411
针对本体对其上层概念进行了具体划分,单纯地计算概念间语义相似度不能满足实际应用需求的问题。提出一种基于本体底层概念间相似度计算上层概念间相似度的方法;该方法通过比较底层概念间相似度获得初始上层概念间相似度,然后结合影响概念间相似度的密度系数,完成上层概念间相似度计算。实验结果表明了该方法有效。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号