一种基于文本相似度的网页新闻标题自动抽取算法 |
| |
作者姓名: | 何春辉 |
| |
作者单位: | 湘潭大学 数学与计算科学学院,湖南 湘潭,411105 |
| |
摘 要: | 随着互联网技术的发展,网页新闻的标题抽取已经成为了信息抽取和网络爬虫中不可避免的一个环节﹒通过分析,发现目前已有的方法存在准确率和通用性无法共存的问题﹒因此,提出了一种基于文本相似度的网页新闻标题自动抽取算法,它通过结合目录型新闻网页的外部标题来抽取详情型新闻网页的真实标题﹒试验结果表明,相对现有方法来说,新算法具有较好的通用性且平均F1值达到了97.58%﹒
|
关 键 词: | 网络爬虫 新闻标题抽取 调和相似度 |
本文献已被 CNKI 万方数据 等数据库收录! |
|