首页
|
本学科首页
官方微博
|
高级检索
全部学科
医药、卫生
生物科学
工业技术
交通运输
航空、航天
环境科学、安全科学
自然科学总论
数理科学和化学
天文学、地球科学
农业科学
哲学、宗教
社会科学总论
政治、法律
军事
经济
历史、地理
语言、文字
文学
艺术
文化、科学、教育、体育
马列毛邓
全部专业
中文标题
英文标题
中文关键词
英文关键词
中文摘要
英文摘要
作者中文名
作者英文名
单位中文名
单位英文名
基金中文名
基金英文名
杂志中文名
杂志英文名
栏目中文名
栏目英文名
DOI
责任编辑
分类号
杂志ISSN号
基于Hadoop分布式平台的Web文本关键词提取方案
作者姓名:
姚卫国
张东波
摘 要:
针对海量Web文本的关键词提取问题,提出一种基于Hadoop分布式计算平台的关键词提取方案.首先,配置Hadoop平台,使其能够支持自然语言处理过程;然后,使用GATE工具对Web文本进行词句分割、词性标注和注释规则操作,得到候选关键词集;最后,利用单词位置和跨度重要性因子对传统TF-IDF算法进行加权,从而计算候选关键词与文档之间的相关性,最终获得该文档的关键词以标注文档属性.实验结果表明,提出的分布式关键词提取方案能够快速准确地提取Web文档的关键词.
关 键 词:
Web文本;关键词提取;Hadoop平台;自然语言处理;分布式
本文献已被
CNKI
等数据库收录!
点击此处可从《湘潭大学自然科学学报》浏览原始摘要信息
点击此处可从《湘潭大学自然科学学报》下载全文
设为首页
|
免责声明
|
关于勤云
|
加入收藏
Copyright
©
北京勤云科技发展有限公司
京ICP备09084417号