CrisisNLP-C:中文灾害数据集 |
| |
引用本文: | 李泽荃,张展,张瑞新,李靖.CrisisNLP-C:中文灾害数据集[J].华北科技学院学报,2019,16(5). |
| |
作者姓名: | 李泽荃 张展 张瑞新 李靖 |
| |
作者单位: | 华北科技学院,北京东燕郊,101601;应急管理部通信信息中心网络舆情处,北京,100013;华北科技学院,北京东燕郊101601;中国矿业大学(北京)能源与矿业学院,北京100083 |
| |
基金项目: | 国家重点研发计划;中央高校基本科研业务费专项;中央高校基本科研业务费专项 |
| |
摘 要: | 当灾害发生时,人们经常使用微博、微信等社交媒体发布文本内容,描述伤亡人员、被困人员、车辆受损及基础设施损坏等情况。如果及时有效地处理这些在线信息,构建相应的机器学习模型,对应急响应组织进行态势感知、舆情应对或者救援活动极为有用。然而,目前对于社交媒体信息的有效处理仍存在众多挑战,比如准确分类这些简短和非正式的文本数据。从根本上讲,这些任务均涉及到数据样本问题,特别是国内目前还缺乏人工标注的中文灾害数据。为此,论文收集了2018年发生的与3起自然灾害相关的微博文本数据,并按照多层级分类方法进行了人工标注。该数据集将有助于业界解决自然语言处理时缺少灾害数据样本的现状,为进一步完善灾害危机应对和舆情管理等提供支持。
|
关 键 词: | 自然语言处理 自然灾害 应急响应 社交媒体 |
本文献已被 CNKI 万方数据 等数据库收录! |
|