基于BERT-CNN的数据标准化方法 |
| |
引用本文: | 周冰洁,王培培,王鑫,郑昊,查达仁.基于BERT-CNN的数据标准化方法[J].扬州大学学报(自然科学版),2023(1):70-73. |
| |
作者姓名: | 周冰洁 王培培 王鑫 郑昊 查达仁 |
| |
作者单位: | 1. 中国科学院信息工程研究所;2. 国家计算机网络应急技术处理协调中心;3. 北京邮电大学信息与通信工程学院 |
| |
基金项目: | 国家自然科学基金资助项目(61976207); |
| |
摘 要: | 针对复杂多源的非结构化数据,提出一种数据标准化方法,在抽取信息的同时,能将不同来源的数据转换为统一的表示形式.首先,对文本进行词性标注等预处理,提取出需要进一步识别类型的实体;其次,使用语言表征模型对文本信息进行向量表示;最后,通过基于注意力机制的卷积神经网络对抽取出的实体进行分类,以适应不同应用场景的分类标准.实验结果验证了该模型的有效性.
|
关 键 词: | 数据标准化 非结构化数据 实体分类 注意力机制 卷积神经网络 |
|
|