首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在校园 BBS 的基础上研究了网络爬虫程序的4个关键模块:页面抓取、页面解析、任务调度和去重模块。探讨了 HTMLParser 和正则表达式在解析页面时的运用方法。在处理爬取数据时,改进了任务调度算法,提高了爬取速度,并针对校园论坛 BBS 经关键词搜索的页面进行了爬取。  相似文献   

2.
主题网络爬虫技术是获取特定主题的有效手段,其搜索算法的性能直接决定着搜索结果的优劣.文章综合分析了现有的网络信息搜索算法,并将遗传算法思想应用到主题网络爬虫技术中,提出了非贪婪遗传主题网络搜索算法.实验结果表明,该算法能够采集到更多主题相关度高的网页,提高信息采集正确率,快速高效获取交通相关的信息.  相似文献   

3.
分析了高校网络舆情监控的现状,提出了基于高校网络舆情监控系统的设计方案.该系统通过网络爬虫将相关网络新闻、博客和论坛的信息采集下来,采用关键词和敏感词匹配的方式对信息进行过滤,将用户关注的信息呈现出来,从而实现对舆情信息及时准确的发现。  相似文献   

4.
本文讨论网络舆情的概念、特点及其信息获取技术,详细分析了网络舆情信息采集技术和信息抽取技术并提出展望。  相似文献   

5.
阐述了开发智能化的网络舆情监测和分析系统的重要意义,介绍了基于高校BBS帖子信息的舆情监测系统主题监测功能的研发情况,提出了一个实现该功能的流程图,并详述了实现这一功能所运用的技术以及今后需要攻克的技术难题。  相似文献   

6.
立足于对高校网络这一校内主要舆论平台的监控的实际需要,结合中文信息处理领域中网络爬虫、网页除噪、特征提取、文本分类等技术,给出了一种高校网络舆情监控系统的实现方案,并通过实验验证了系统的有效性.  相似文献   

7.
在校园网已经成为Internet一部分的今天,构建和谐校园网,不仅需要对校园网内部进行有效的管理,同时还需要动态掌握Internet上的信息,避免不良信息入侵校园为校园管理带来安全隐患.研究了如何通过主题网络爬虫技术实现高校网络信息动态搜索和监控,方便网络管理者及时、有针对性地获取互联网上的相关信息.  相似文献   

8.
网络爬虫技术研究   总被引:3,自引:0,他引:3  
网络爬虫为搜索引擎从互联网上下载网页,是搜索引擎不可或缺的组成部分.介绍网络爬虫的分类、工作原理及存在的问题,并对主题爬虫进行了详细设计,最后总结了设计高性能网络爬虫需要解决的技术难题.  相似文献   

9.
针对舆情监管中数据自动化获取、情感分析和空间可视化显示的相关问题,研究了基于云GIS的网络舆情可视化方法.通过构建基于OpenStack和GeoServer的云GIS平台为舆情数据的采集、分析和显示提供存储和计算支撑;研发了舆情数据自动化采集引擎,根据网页DOM的结构特点,设计了列表项和列表项属性信息获取算法,实现了舆...  相似文献   

10.
刘红梅 《科技信息》2013,(24):252-253
主题爬虫是垂直搜索引擎的关键构建,其搜索算法的优劣直接影响到搜索引擎的查全率和查准率。本文简要介绍了垂直搜索引擎中主题爬虫的工作原理;归纳了常见的几种搜索策略算法;分析了主题爬虫的搜索策略的特点,并比较了几种搜索策略的优缺点;总结了提高主题爬虫搜索效率的关键因素及发展趋势;为后期的学习和研究打下基础。  相似文献   

11.
对BBS的数据结构进行了分析研究,并根据BBS特点设计了一种用于BBS信息检索的主题网络爬虫算法.通过主题网络爬虫能够提高抓取网页的效率,同时又可以保证较高的召回率.实验表明,该算法大幅提高了信息检索的效率,改善了信息检索的效果.  相似文献   

12.
基于LDA的文本聚类在网络舆情分析中的应用研究   总被引:1,自引:0,他引:1  
针对传统的基于词语的文本聚类算法忽略了文本中可能具有的隐含信息的问题,提出了一种基于LDA(latent dirichlet allocation)主题模型的文本聚类算法。该方法利用TF-IDF算法和LDA主题模型分别计算文本的相似度,通过耗费函数确定文本相似度的融合系数并进行线性结合来获取文本之间的相似度,同时使用F-measure值来对聚类结果进行评估。在构建LDA主题模型时,采用Gibbs抽样来进行参数估计,通过贝叶斯统计的标准方法进行最优主题数的确定。从仿真实验的聚类结果的准确性和稳定性来看,该方法相比传统的文本聚类算法具有更良好的效果。  相似文献   

13.
金鹏 《科技信息》2010,(20):222-223
由于民用搜索引擎无法在军队中使用,随着部队人员对提供的各项信息服务的要求越来越高、越来越细,基于整个Web的信息采集越来越力不从心.同时它也无法迅速地搜集到足够的最新的网络信息,也不能满足人们日益增长的个性化需求.本文希望通过开发一个军事教育类主题方面的爬虫以满足用户专门检索军事教育类信息的要求.  相似文献   

14.
随着民族地区信息化建设的不断推进,中国少数民族语言网络舆情研究也逐渐引起了大家的关注,文本分类和情感分析模块是舆情系统的重要组成部分。传统的文本分类方法主要通过统计字面上的词语重复次数,而对于文字背后的语义关联考虑甚少。该文重点介绍了一种基于LDA模型在少数民族语言(以彝文为例)网络舆情信息情感分析方面的应用,对文字隐含的主题进行建模,通过挖掘少数民族网页上的舆情信息所蕴含的主题,以及对这些主题进行情感分析,在事件全面爆发之前,采取应急措施。  相似文献   

15.
网络爬虫的结构设计研究   总被引:1,自引:0,他引:1  
王军  彭建 《科技信息》2007,(27):96-97
搜索引擎技术随着互联网的日益壮大而飞速发展。它成功的商业运作也造就了Google、百度等这样的商业奇迹。作为搜索引擎的重要组成部分,Spider网络爬虫的爬行效率对搜索引擎至关重要。本文对搜索引擎进行了相关介绍,概述了Spider的结构框架、在爬行不同阶段的各个状态等。  相似文献   

16.
网络舆情已经成为反映当今社会舆情重要组成部分,具有传播速度快、信息多元化等特点.建立舆情检测系统能够对大规模网络数据进行采集、挖掘和分析,对网络舆情热点话题进行及时的发现和追踪,为各单位和组织应对舆情危机提供科学、系统的支持.通过对网络爬虫搜索策略、大规模URL去重、页面识别等技术的研究和改进,实现一个高效、快捷的网络爬虫系统.  相似文献   

17.
针对互联网中出现的大量不良内容,分析出其主要特征,首次提出将不良网页的文本特征与搜索引擎中网络爬虫相结合的技术来主动寻找互联网中的不良网页及不良网站,并将结果分级别反馈到用户层以便对不良网页和网站进行处理,以达到净化网络环境的目的.实验结果表明,所提出的算法能够有效检测不良网页,并且能够很好地应对不良网站的反关键字过滤策略.  相似文献   

18.
为了提高网络舆情监测的时效性与准确性,改进了Nutch信息采集的方法,加入了URL分析、判重、页面时限等功能,提高了舆情采集的效率。利用《综合电子政务主题词表》构建了舆情监测领域本体,加入了辖区知识进行了扩展,提出了语义扩展的舆情监测算法。实验结果表明,舆情监测的准确率和召回率都有明显提高。  相似文献   

19.
随着大数据技术的日趋成熟,利用大数据技术实现对海量的网络舆情数据进行采集、分析和展示,对网络舆情信息感知度得到了很大的提升,可以准确地了解网络舆情的发展态势,把握群众的情绪,对舆情事件做出高效、正确的决策。利用分布式爬虫技术来抓取数据,文本分析技术进行数据预处理和数据清洗,对数据仓库的舆情信息进行处理、分析,实现了舆情的监测、舆情的分析和舆情报告。通过大数据技术挖掘网络舆情事件,能够快速准确地感知舆情信息,可以有效提升网络舆情的管控和预防能力。  相似文献   

20.
边疆民族地区高校网络舆情不仅关乎高校稳定,还关乎地区稳定。研究边疆民族地区高校网络舆情监测、研判和应对体系具有理论意义和现实意义。网络舆情监测、研判和应对应当形成有机整体。针对边疆民族地区网络舆情,这个机制要有效发挥先悉必具、见微知著、防微杜渐的作用。这样才能维护高校网络环境稳定,进而有利于高校稳定和民族地区稳定。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号