基于相似度的中文网页正文提取算法 An Extraction Algorithm of Chinese HTML Content Based on Similarity期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于相似度的中文网页正文提取算法

引用本文：	熊子奇,张晖,林茂松. 基于相似度的中文网页正文提取算法[J]. 西南科技大学学报, 2010, 25(1): 80-84

作者姓名：	熊子奇张晖林茂松

作者单位：	西南科技大学计算机科学与技术学院,四川绵阳,621010

基金项目：	国家人事部留学归国人员启动基金，西南科技大学留学归国人员启动基金

摘要：	网页正文提取是WEB挖掘的重要步骤。传统网页正文提取方法都需要经过分块这一步骤之后来识别网页正文块,提出了利用行文本之间的内容相似度和标签相似度结合的方法来提取网页正文。该算法避免了传统网页提取算法的分块步骤,在规范网页之后,先提取网页的最大文本行,然后计算每行文本与最大行的内容相似度和标签相似度,再结合内容相似度与标签相似度来提取网页正文。实验中,利用随机抽取的网页进行了测试,其测试精度接近95%,表明该算法在实际中是有效的。
关键词：	内容相似度标签相似度分块文本挖掘
An Extraction Algorithm of Chinese HTML Content Based on Similarity

XIONG Zi-qi,ZHANG Hui,LIN Mao-song. An Extraction Algorithm of Chinese HTML Content Based on Similarity[J]. Journal of Southwest University of Science and Technology, 2010, 25(1): 80-84

Authors:	XIONG Zi-qi ZHANG Hui LIN Mao-song

Abstract:

Keywords:
本文献已被 CNKI 维普万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏