首页 | 本学科首页   官方微博 | 高级检索  
     

基于相似度的中文网页正文提取算法
引用本文:熊子奇,张晖,林茂松. 基于相似度的中文网页正文提取算法[J]. 西南科技大学学报, 2010, 25(1): 80-84
作者姓名:熊子奇  张晖  林茂松
作者单位:西南科技大学计算机科学与技术学院,四川绵阳,621010
基金项目:国家人事部留学归国人员启动基金,西南科技大学留学归国人员启动基金 
摘    要:网页正文提取是WEB挖掘的重要步骤。传统网页正文提取方法都需要经过分块这一步骤之后来识别网页正文块,提出了利用行文本之间的内容相似度和标签相似度结合的方法来提取网页正文。该算法避免了传统网页提取算法的分块步骤,在规范网页之后,先提取网页的最大文本行,然后计算每行文本与最大行的内容相似度和标签相似度,再结合内容相似度与标签相似度来提取网页正文。实验中,利用随机抽取的网页进行了测试,其测试精度接近95%,表明该算法在实际中是有效的。

关 键 词:内容相似度  标签相似度  分块  文本挖掘

An Extraction Algorithm of Chinese HTML Content Based on Similarity
XIONG Zi-qi,ZHANG Hui,LIN Mao-song. An Extraction Algorithm of Chinese HTML Content Based on Similarity[J]. Journal of Southwest University of Science and Technology, 2010, 25(1): 80-84
Authors:XIONG Zi-qi  ZHANG Hui  LIN Mao-song
Abstract:
Keywords:
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号