多视角网页分类数据集构建及性能评估 |
| |
作者姓名: | 孙辰星 刘伟 卢彬 梁诗宇 诸云强 甘小莺 |
| |
作者单位: | 1.上海交通大学电子信息与电气工程学院;2.中国科学院地理科学与资源研究所 |
| |
基金项目: | 国家重点研发计划(2022YFB3904204);国家自然科学基金(62272301,42050105,62020106005,62061146002,61960206002); |
| |
摘 要: | 网页分类是互联网数据挖掘中的一项重要任务,在信息搜索、推荐系统和知识发现等领域发挥着关键作用.然而,现有的公开网页数据集缺乏多视角信息,难以适用于蕴含复杂特征的网页分类任务.针对上述问题,基于“收集-处理-标注”构建流程,提出一个涵盖文本语义、网页结构等多视角特征的网页数据集Web-Minds,该数据集包含600余个门户网站下的21828条网页.首先,在开放互联网中通过关键词检索采集得到相关网页数据;其次,使用网页解析工具对收集的数据中的文本、DOM结构树、关键词等多视角信息进行提取与清洗;最后,采用大语言模型与“人在回路”的联合标注策略,形成网页类型与网页主题两种标签.在此基础上,针对Web-Minds数据集,测试评估了机器学习、文本分类和网页分类多种算法,结果表明,综合利用多视角特征能有效提升算法的准确率,和仅应用单视角特征相比,在网页类型和主题分类任务上,准确率分别提升了5.49%和5.61%.
|
关 键 词: | 网页数据集 网页分类 文本分类 数据挖掘 深度学习 |
|
|