基于相码模型的汉字表征 |
| |
作者姓名: | 范晓明 王斌君 |
| |
作者单位: | 中国人民公安大学信息技术与网络安全学院,北京100038;北京警察学院网络安全保卫系,北京102202;中国人民公安大学信息技术与网络安全学院,北京100038 |
| |
基金项目: | 北京市社会科学基金项目,北京市公安局局级课题 |
| |
摘 要: | 为解决汉语自然语言处理任务中未登录词问题,人们经常利用汉字的笔画、偏旁、拼音等细粒度特征提高模型的学习能力.为找出这类特征的最佳组合,通过统计方法研究了汉字的音节、起笔、偏旁、声调、词频、笔画数等特征,提出一种可融合多种汉字特征的跨象限助记符映射模型,即相码模型,该模型可自动实现中文字、词与字母编码间的可逆映射.在字符...
|
关 键 词: | 汉字表征 助记符 编码 映射 |
收稿时间: | 2020-05-06 |
修稿时间: | 2021-02-05 |
本文献已被 CNKI 万方数据 等数据库收录! |
| 点击此处可从《科学技术与工程》浏览原始摘要信息 |
|
点击此处可从《科学技术与工程》下载免费的PDF全文 |
|