一种基于文本相似度的网页新闻标题自动抽取算法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

一种基于文本相似度的网页新闻标题自动抽取算法

作者姓名：	何春辉

作者单位：	湘潭大学数学与计算科学学院,湖南湘潭,411105

摘要：	随着互联网技术的发展,网页新闻的标题抽取已经成为了信息抽取和网络爬虫中不可避免的一个环节﹒通过分析,发现目前已有的方法存在准确率和通用性无法共存的问题﹒因此,提出了一种基于文本相似度的网页新闻标题自动抽取算法,它通过结合目录型新闻网页的外部标题来抽取详情型新闻网页的真实标题﹒试验结果表明,相对现有方法来说,新算法具有较好的通用性且平均F1值达到了97.58%﹒
关键词：	网络爬虫新闻标题抽取调和相似度
本文献已被 CNKI 万方数据等数据库收录！