首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于语义的聚焦爬虫算法研究
引用本文:孙红光,藏润强,姬传德,杨凤芹,冯国忠.基于语义的聚焦爬虫算法研究[J].东北师大学报(自然科学版),2018(2).
作者姓名:孙红光  藏润强  姬传德  杨凤芹  冯国忠
作者单位:东北师范大学信息科学与技术学院;智能信息处理吉林省重点实验室;吉林大学计算机科学与技术学院
摘    要:针对现存的语义主题爬虫没有考虑主题意义的延伸、页面与主题的相似度计算模型存在的缺陷及主题词项细化过于苛刻导致返回结果较少等不足,采用LDA(Latent Dirichlet Allocation)模型,对主题词项描述文档进行降维,改进语义相似度计算模型.引入语义信息的相似度计算模型(SVSM),用SVSM计算文档和主题模型的相似度.从本体中获取该主题词项的上位词,构建主题上位词的主题模型,爬虫依据现有网络中的主题重新获取主题相关信息,提出语义聚焦爬虫(ESVSM),通过不同主题下多个爬虫进行实验对比,发现所提出的基于主题建模和上位词替换的ESVSM算法在收获率、相关网页数量和网页平均相关度中均优于其他算法,平均抓取精度达到85%.

本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号