首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于Hadoop分布式平台的Web文本关键词提取方案
引用本文:姚卫国,张东波.基于Hadoop分布式平台的Web文本关键词提取方案[J].湘潭大学自然科学学报,2016(2):79-83.
作者姓名:姚卫国  张东波
摘    要:针对海量Web文本的关键词提取问题,提出一种基于Hadoop分布式计算平台的关键词提取方案.首先,配置Hadoop平台,使其能够支持自然语言处理过程;然后,使用GATE工具对Web文本进行词句分割、词性标注和注释规则操作,得到候选关键词集;最后,利用单词位置和跨度重要性因子对传统TF-IDF算法进行加权,从而计算候选关键词与文档之间的相关性,最终获得该文档的关键词以标注文档属性.实验结果表明,提出的分布式关键词提取方案能够快速准确地提取Web文档的关键词.

关 键 词:Web文本  关键词提取  Hadoop平台  自然语言处理  分布式
本文献已被 CNKI 等数据库收录!
点击此处可从《湘潭大学自然科学学报》浏览原始摘要信息
点击此处可从《湘潭大学自然科学学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号