首页 | 本学科首页   官方微博 | 高级检索  
     

基于CRFs的新闻网页主题内容自动抽取方法
引用本文:张春元. 基于CRFs的新闻网页主题内容自动抽取方法[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 138-142
作者姓名:张春元
作者单位:海南大学,信息科学技术学院,海南,海口,570228
摘    要:针对当前新闻网页主题内容抽取方法较少利用网页块之间关联特性这一问题,提出了一种基于条件随机场(CRFs)的新闻网页主题内容自动抽取方法.该方法首先将待抽取网页解析成DOM树,经过滤、剪枝以及压缩处理后,然后按照一定的启发式规则将DOM树切割成块并转换成为一个数据序列,再定义CRFs特征函数来提取各网页块自身状态特征和相...

关 键 词:Web信息抽取  条件随机场  网页分块

Automatic Web News Content Extraction Based on CRFs
ZHANG Chun-yuan. Automatic Web News Content Extraction Based on CRFs[J]. Journal of Guangxi Normal University(Natural Science Edition), 2011, 29(1): 138-142
Authors:ZHANG Chun-yuan
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号