期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于概念树的主题搜索机器人系统研究 总被引：3，自引：0，他引：3

曾义聪杨贯中《科学技术与工程》2006,6(16):2458-2463

采用基于概念树的主题爬取算法,构造了一个主题搜索机器人系统。对文档与主题层的向量表示进行简化．设计与实现了一个主题搜索机器人原型。相似文献

2.

基于本体概念图的web文档主题爬取探讨

曾义聪邱春荣《科技咨询导报》2010,(8):24-25

提出了基于本体概念图的web文档的主题爬取,采用本体概念图构造主题层次图,赋予待爬取的URL对象以层次语义信息,按照语义相关性与重要性选择爬取URL对象,搜索属于特定语义相关主题的重要web文档的WWW子集。相似文献

3.

基于Python的网页信息爬取技术分析

蔡迪阳《科技资讯》2023,(13):31-34

基于大规模数据下载的需求,针对以往人工下载数据过程中存在的影响效率的问题,结合Python语言提出一种能够用于网页信息数据爬取的技术,用于减少数据下载前期的繁琐工作,提高网络信息系统和技术的开发效率。该文以网页信息爬取技术为主要研究对象,基于现代化信息数据的应用和发展需求,着重对融合了Python语言的网页信息爬取技术进行研究和分析。相似文献

4.

长白山旅游数据爬取及可视化分析

孙文杰张素莉许骏郑国勋张维轩《吉林大学学报(信息科学版)》2021,39(4):416-420

为解决现有长白山景点旅游数据不够集中、缺乏有效利用问题,通过合理制定基于Python的网络爬虫,实现了对部分旅游网站长白山旅游数据的爬取,并利用Tableau工具对数据进行可视化分析,从多个维度精准挖掘旅游人数与各个因素之间的潜在关系,得到了更为直观的效果,有利于趋势分布的观察,为长白山地区进一步制定合理的旅游策略奠定... 相似文献

5.

基于概念联想网络的网页预取模型

孙强李建华李生红许欢庆《上海交通大学学报》2004,38(5):779-782

提出一种基于概念联想网络的网页预取模型，挖掘用户访问模式中蕴含的概念间联想模式，结合在线学习和离线挖掘两种方式，建立面向用户的概念联想网络，并基于概念联想网络实现网页预取评价。模型对网页进行概念层次的分析，提高了预取的准确性，实现了基于语义的客户端网页预取。相似文献

6.

基于Python的网页信息数据爬取设计与实现分析

林军《长春工程学院学报(自然科学版)》2022,(2):108-112

为免去人工下载的烦琐,满足大规模下载数据的需求,基于Python设计了网页信息数据爬取程序,并对其进行实例分析。通过获取Web数据资源,收集大量数据进行分析挖掘,并研究其所需的原始统计数据。为了减少重复烦琐的前期工作,提高开发效率,进一步搭建Scrapy工程,并采用决策树算法规避网站反爬虫,基于Python编写爬虫程序下载数据,存入数据库中完成网页信息数据爬取设计。爬取某购物网站的信息数据,并对数据进行简单统计分析得到可视化示例,所设计的方法获取的某购物网站信息清晰明了,为网页信息数据爬取设计提供了参考。相似文献

7.

基于云有序概念层次树的时间序列距离计算模型 总被引：1，自引：0，他引：1

姜跃《云南大学学报(自然科学版)》2003,25(2):115-120

时间序列是一类广泛存在的、重要的复杂数据.时间序列的知识发现成为知识发现的研究热点之一.而时间序列间的距离计算是很多时间序列知识发现的核心.针对目前时间序列距离模型的不足,基于云的时间序列线性形态表示,提出一种新的时间序列距离计算模型———基于云有序概念层次树的时间序列距离计算模型.该计算模型具有如下优点:允许时间序列存在某种程度的变形,能在一定程度上消除噪声、数据中的不连续性、偏移性和漂移性;用户可在比较时间序列距离时控制距离计算颗粒度;有效、简洁直观、易于理解. 相似文献

8.

基于概念的信息检索模型研究 总被引：24，自引：2，他引：24

李振东费翔林《南京大学学报(自然科学版)》2002,38(1):99-109

随着Internet的迅速发展，WWW已经成为世界上最大的信息库，它正日益改变着人类的生活方式。然而，由于WWW信息资源庞大，结构复杂，如何高效地从中找到需要的信息，已经成为困扰网络用户的一大难题。许多著名的站点，如Yahoo,Alta Vista,Infoseek均使用基于关键字的搜索引擎，存在明显的缺陷，当查询用的关键字与目标文档尽管语义相同，但用词不一致时，将检索失败，导致召回率很低。提出一个基于概念的信息检索模型，它不是以关键字为核心，而是以概念为核心来实现信息检索。着重介绍了基于概念的信息检索模型的设施、方法和工具。相似文献

9.

汉语句类依存树库的构建研究

王慧兰《北京大学学报(自然科学版)》2013,49(1):25-30

以机器翻译领域为应用目标, 以概念层次网络理论的语义网络和句类分析方法为理论基础, 探讨句类依存树库构建的理论和标注实践等问题。详细描述了构建树库所需的概念类别标注集和句类关系标注集, 并给出了句类依存树样例。相似文献

10.

概念树方法在F--KDD中的应用研究

谢印宝鹿宏《山东理工大学学报：自然科学版》2001,15(4):30-33

数据采掘是数据库中知识发现的核心,详细描述了数据采掘中概念树方法在模糊性问题中的应用. 相似文献

11.

基于复杂网络局部社团发现的主题爬行研究

沈桂兰孙洁杨小平《河南师范大学学报(自然科学版)》2014,(4):134-138

从全局上限定采集范围可以有效地提高主题爬虫的查准率.结合Web链接分析和页面内容特征分析,提出了一种基于复杂网络局部社区发现的主题爬行方法,将主题爬行分为两个阶段,第一阶段采用复杂网络的局部社区发现算法进行Web链接分析,构建主题网站群,缩小爬行范围.在第二阶段,在限定的范围内,对爬取到的页面进行主题相似度判定,并对下一步的链接目标进行预测.实验证明,该方法显著提高了主题爬虫的查准率. 相似文献

12.

可在线增量自学习的聚焦爬行方法 总被引：9，自引：0，他引：9

傅向华冯博琴马兆丰何明《西安交通大学学报》2004,38(6):599-602

将Web爬行看作执行序列动作的过程，结合改进的快速Q学习和半监督贝叶斯分类器，提出一种新的具有在线增量自学习能力的聚焦爬行方法．该方法从获取的页面中抽取特征文本，根据特征文本评估页面的主题相关性，预测链接的Q值，然后基于Q值过滤无关链接．当得到主题相关页面时产生回报，将回报沿链接链路反馈，更新链路上所有链接的Q值，并选择相应的特征文本作为训练样本，增量地改善主题评估器和Q值预测器．实验结果表明，该方法具有很快的自学习能力，获取的页面数目和精度均优于离线聚焦爬行方法，更符合Web资源发现的要求．相似文献

13.

表格信息在主题爬行中的作用

黄凤云王辉左万利《吉林大学学报(理学版)》2007,45(3):432-434

采用计算向量之间相似度的方法, 通过实验分析验证了表格信息在主题爬行中的重要性. 研究结果表明, 与整个网页相比, 表格所能提供的与用户相关的信息占整个网页信息总量的80％以上, 因而在主题爬行领域可以充分利用这一结论进行网页解析. 在舍弃除表格和标题之外的其他元素后, 提高了爬行程序的效率. 相似文献

14.

基于HMM的主题爬虫研究

谢治军杨武李稚楹宋静静《重庆工商大学学报(自然科学版)》2012,29(2):66-72

主题爬虫是垂直搜索引擎的核心组成部分,它为面向主题的用户查询准备数据资源;提出了一种基于HMM的主题爬虫方法,方法不仅分析网页内容,而且还考虑网页的上下文链接结构,首先将当前网页的聚类结果作为观察状态、将当前网页到目标网页的链接距离作为隐含状态,然后通过HMM模型学习用户的主题浏览模式并利用它采集更多的主题网页;实验结果表明:方法能采集大量与指定主题相关的高质量网页,主题爬行效率优于Best-First主题爬虫。相似文献

15.

基于网页分块技术主题爬行器的实现 总被引：1，自引：0，他引：1

李晓亚赫枫龄左万利《吉林大学学报(理学版)》2007,45(6):959-965

针对目前通用搜索引擎搜索到的结果过多、与主题相关性不强的现状, 提出一种基于网页分块技术的主题爬行器实现方法, 并实现了一个原型系统Crawler1. 实验结果表明, 本系统性能较好, 所爬网页的相关度在55%以上. 相似文献

16.

个性化Web采集算法研究及其应用

刘彤《贵州大学学报(自然科学版)》2006,23(3):305-313

全面详细地研究了用户个性化W eb信息采集算法,并提出了一个基于指定站点的用户个性化W eb信息采集模型;实验结果表明,在一个用户指定的站点内,该模型可以快速的采集到根据用户需求定制的页面,并存储到本地的文件系统中.这个采集模型具有较强的实用价值,可以为创建某方面的资源库快速的采集信息. 相似文献

17.

基于本体增量学习的主题爬行

王鑫王英《长春工程学院学报(自然科学版)》2010,11(4):81-85

在面向领域的信息搜索中,本体作为相关的领域知识往往有助于改善搜索效果,在信息检索中被广泛应用.基于本体增量学习的主题爬行技术的研究工作主要包括:首先,利用本体对领域概念及关系的描述作为网页主题判定的依据;其次,在爬行过程中,将学习得到的新概念和关系加入到本体中,以丰富完善领域本体,进而提高主题爬虫的收获率;最后,经过大量的实验数据分析,在词条提取准确率、收获率和响应速度等多个指标方面,证明了所提出的方法是可行的并且是高效的. 相似文献

18.

基于概念图的教学内容智能调整模型及算法实现 总被引：8，自引：0，他引：8

申瑞民汤轶阳韩鹏杨帆《上海交通大学学报》2002,36(5):698-701

课件教学是Web教学过程中的主体核心，其内容组织与安排将直接关系到整体教学效果，通过对学生头脑中课程的知识与内容的概念图（Concept Map）进行表示和分析，定制出面的每个特定学习者的课件浏览概念图，实现个性化的自主学习，采用概念图理论，在前期的人性化学习分析模型研究基础上，对于个性化分析结果作了进一步的探讨，同时借鉴最小生成树算法，构建了教学内容智能调整模型并给出了相应算法实现。相似文献

19.

基于本体的上层概念间相似度计算的研究

李仲生王家琴《科学技术与工程》2007,7(10):2396-23982411

针对本体对其上层概念进行了具体划分,单纯地计算概念间语义相似度不能满足实际应用需求的问题。提出一种基于本体底层概念间相似度计算上层概念间相似度的方法;该方法通过比较底层概念间相似度获得初始上层概念间相似度,然后结合影响概念间相似度的密度系数,完成上层概念间相似度计算。实验结果表明了该方法有效。相似文献