首页 | 本学科首页   官方微博 | 高级检索  
     

多视角网页分类数据集构建及性能评估
作者姓名:孙辰星  刘伟  卢彬  梁诗宇  诸云强  甘小莺
作者单位:1.上海交通大学电子信息与电气工程学院;2.中国科学院地理科学与资源研究所
基金项目:国家重点研发计划(2022YFB3904204);国家自然科学基金(62272301,42050105,62020106005,62061146002,61960206002);
摘    要:网页分类是互联网数据挖掘中的一项重要任务,在信息搜索、推荐系统和知识发现等领域发挥着关键作用.然而,现有的公开网页数据集缺乏多视角信息,难以适用于蕴含复杂特征的网页分类任务.针对上述问题,基于“收集-处理-标注”构建流程,提出一个涵盖文本语义、网页结构等多视角特征的网页数据集Web-Minds,该数据集包含600余个门户网站下的21828条网页.首先,在开放互联网中通过关键词检索采集得到相关网页数据;其次,使用网页解析工具对收集的数据中的文本、DOM结构树、关键词等多视角信息进行提取与清洗;最后,采用大语言模型与“人在回路”的联合标注策略,形成网页类型与网页主题两种标签.在此基础上,针对Web-Minds数据集,测试评估了机器学习、文本分类和网页分类多种算法,结果表明,综合利用多视角特征能有效提升算法的准确率,和仅应用单视角特征相比,在网页类型和主题分类任务上,准确率分别提升了5.49%和5.61%.

关 键 词:网页数据集  网页分类  文本分类  数据挖掘  深度学习  
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号