首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于分块重要度和二维条件随机场的Web信息抽取
引用本文:吴秦,胡丽娟,梁久祯.基于分块重要度和二维条件随机场的Web信息抽取[J].南京大学学报(自然科学版),2014(1).
作者姓名:吴秦  胡丽娟  梁久祯
作者单位:江南大学物联网工程学院;
基金项目:国家自然科学基金(61202312,61170121)
摘    要:网页分块方法使得Web信息抽取的单位由原来的页面缩小为分块.结合分块重要度模型与二维条件随机场的优点,提出一种Web对象信息抽取方法.该方法利用分块重要度模型对网页分块进行重要度标注,过滤掉大量与主题无关信息,更加准确的定位待抽取信息的位置.二维条件随机场模型相比传统的线性条件随机场模型更好的适应了网页分块的二维结构,有效的提高信息抽取准确率.实验结果表明,该方法对Web对象信息抽取具有良好的效果.

关 键 词:Web对象  信息抽取  网页分块  分块重要度模型  二维条件随机场
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号