基于分块重要度和二维条件随机场的Web信息抽取 |
| |
作者姓名: | 吴秦 胡丽娟 梁久祯 |
| |
作者单位: | 江南大学物联网工程学院; |
| |
基金项目: | 国家自然科学基金(61202312,61170121) |
| |
摘 要: | 网页分块方法使得Web信息抽取的单位由原来的页面缩小为分块.结合分块重要度模型与二维条件随机场的优点,提出一种Web对象信息抽取方法.该方法利用分块重要度模型对网页分块进行重要度标注,过滤掉大量与主题无关信息,更加准确的定位待抽取信息的位置.二维条件随机场模型相比传统的线性条件随机场模型更好的适应了网页分块的二维结构,有效的提高信息抽取准确率.实验结果表明,该方法对Web对象信息抽取具有良好的效果.
|
关 键 词: | Web对象 信息抽取 网页分块 分块重要度模型 二维条件随机场 |
本文献已被 CNKI 等数据库收录! |
|