排序方式: 共有129条查询结果,搜索用时 14 毫秒
1.
2.
《烟台大学学报(自然科学与工程版)》2017,(3):255-260
主题网络爬虫技术是获取特定主题的有效手段,其搜索算法的性能直接决定着搜索结果的优劣.文章综合分析了现有的网络信息搜索算法,并将遗传算法思想应用到主题网络爬虫技术中,提出了非贪婪遗传主题网络搜索算法.实验结果表明,该算法能够采集到更多主题相关度高的网页,提高信息采集正确率,快速高效获取交通相关的信息. 相似文献
3.
网络环境下地理空间信息的搜集与获取,是地理空间研究信息获取重要途径。网络环境中数据信息量大,主题门类多,如何高效快速地获取地理空间主题信息是一个亟待解决的问题。本研究提出了基于网络爬虫的地理空间主题信息采集方法,该方法能高效自动的采集目标网络上的地理空间信息,提高了地理空间信息采集效率,为进一步建立地理空间主题信息库提供数据支撑。 相似文献
4.
集群式智能型网络信息自动搜寻与采集系统 总被引:2,自引:0,他引:2
王宇 《上海交通大学学报》1998,32(8):36-41
互联网上分布的许多用于搜集网络信息的WebSpiders(网络爬虫)一般都工作在单机上,难以快速完成大规模的信息采集工作.对此提出了一种集群式Spider系统的构想,它能够使许多Spider工作在不同的主机上完成同一项任务(每个Spider负责一部分,可动态调整),因此可大大加速信息采集工作.文中描述了这种系统的体系结构与模型,并介绍了该系统的一种实现,即ChinaWebWizard.它不仅可以在集群模式下工作,还能动态地发现新的站点.该系统为搜索引擎提供了底层支持,对网点建设者和开发者具有参考价值. 相似文献
5.
本文针对单机网络爬虫获取Web空间数据在抓取覆盖率和抓取效率上均受到一定程度的限制,难以保证所抓取数据的及时性以及全面性问题,研究了基于分布式网络爬虫的Web空间数据获取方法,设计了基于分布式网络爬虫的Web空间数据获取原型系统并且最终实现,并且通过对原型系统进行相关的测试来证实了本文所提出解决方法的有效性。 相似文献
6.
何春辉 《湖南城市学院学报(自然科学版)》2019,28(1)
随着互联网技术的发展,网页新闻的标题抽取已经成为了信息抽取和网络爬虫中不可避免的一个环节﹒通过分析,发现目前已有的方法存在准确率和通用性无法共存的问题﹒因此,提出了一种基于文本相似度的网页新闻标题自动抽取算法,它通过结合目录型新闻网页的外部标题来抽取详情型新闻网页的真实标题﹒试验结果表明,相对现有方法来说,新算法具有较好的通用性且平均F1值达到了97.58%﹒ 相似文献
7.
针对舆情监管中数据自动化获取、情感分析和空间可视化显示的相关问题,研究了基于云GIS的网络舆情可视化方法.通过构建基于OpenStack和GeoServer的云GIS平台为舆情数据的采集、分析和显示提供存储和计算支撑;研发了舆情数据自动化采集引擎,根据网页DOM的结构特点,设计了列表项和列表项属性信息获取算法,实现了舆情数据的自动化获取;设计了情感分析算法,实现了舆情信息正负面属性的判定.研发了基于云GIS的舆情可视化系统,为基于空间的舆情信息可视化分析提供了实践经验. 相似文献
8.
近年来,我国人才市场出现供需失配的结构性矛盾,尤其是在人工智能(AI)领域。准确感知并描述劳动力市场的需求是解决该问题的重要手段。本研究首先使用网络爬虫抓取智联招聘网站发布的AI岗位相关招聘信息,通过中文分词、K-means等大数据分析方法对招聘岗位名称进行聚类处理,识别出软件工程师、算法工程师、产品经理及产品架构师等4个岗位簇;然后利用概率主题模型(Latent Dirichlet Allocation, LDA)对招聘岗位要求继续进行聚类处理,得到数据库、机器学习、模式识别、大数据、程序设计等5个技能集;最后利用LDA求得岗位簇对其技能集的需求矩阵,以分析各岗位簇对其岗位技能的需求程度。结果表明:程序设计能力对AI软件工程师最重要,模式识别的理论与技术对算法工程师最重要;产品经理岗位对数据库、机器学习和大数据技术等均有较强的技能需求;机器学习的理论与技术对产品架构师最重要。本研究成果可为高校、企业常态化或实时准确感知并描述AI劳动力市场需求提供技术支持。 相似文献
9.
近年来随着"IP"热潮兴起,网络文学市场发展迅速,逐渐成为文化娱乐行业投资热点.本文将机器学习方法引入到小说排行预测方面,通过网络爬虫获取网络小说信息并提取了影响排行的特征,提出了基于BP神经网络模型进行小说排行预测.针对训练数据的不均衡,本文采用ROC和AUC作为预测评价指标;实验结果表明,基于BP神经网络的网络小说排行预测的准确率较高,相比传统的文学定性分析方法,机器学习预测方法可解释性和应用性更高. 相似文献
10.