汉语上下位关系分类数据集构建和基准方法比较 |
| |
作者姓名: | 陆凯华 李正华 张民 |
| |
作者单位: | 苏州大学计算机科学与技术学院 |
| |
基金项目: | 国家自然科学基金(61876116); |
| |
摘 要: | 针对目前缺少较大规模的高质量上下位关系数据集以支持充分的模型训练和评价的问题,提出了一个完整、系统的上下位关系标注规范,并在此规范基础上标注了一个包含15 024个汉语词对的高质量上下位关系数据集.所有数据均采用独立双人标注和专家不一致审核,双人标注一致性达94.20%.并且基于该数据集,对前人提出的几种典型分类方法进行了对比和分析,其中融合多特征的依存路径表示模型的F1值达到91.95%.
|
关 键 词: | 上下位关系 标注规范 数据标注 依存路径 |
|
|