基于BiLSTM_CRF模型的藏文分词方法 |
| |
作者姓名: | 王莉莉 王宏渊 白玛曲珍 杨鸿武 |
| |
作者单位: | 西北师范大学 物理与电子工程学院, 兰州 730070;西北师范大学 物理与电子工程学院, 兰州 730070;甘肃省智能信息技术与应用工程研究中心,兰州 730070;互联网教育数据学习分析技术国家地方联合工程实验室,兰州 730070 |
| |
基金项目: | 国家自然科学基金(11664036, 61263036);甘肃省高等学校科技创新团队项目(2017C-03) |
| |
摘 要: | 藏文分词是实现藏文语音合成和藏文语音识别的关键技术之一。提出一种基于双向长短时记忆网络加条件随机场(bidirectional long-short-term memory with conditional random field model, BiLSTM_CRF)模型的藏文分词方法。对手工分词的语料经过词向量训练后输入到双向长短时记忆网络(bidirectional long-short-term memory, BiLSTM)中,将前向长短时记忆网络(long-short-term memory, LSTM)和后向LSTM学习到的过去输入特征和未来输入特征相加,传入到线性层和softmax层进行非线性操作得到粗预测信息,再利用条件随机场(conditional random field, CRF)模型进行约束性修正,得到一个利用词向量和CRF模型优化的藏文分词模型。实验结果表明,基于BiLSTM_CRF模型的藏文分词方法可取得较好的分词效果,分词准确率可达94.33%,召回率为93.89%,F值为94.11%。
|
关 键 词: | 文本分词 长短时计忆网络 深度神经网络 词向量 民族语言 |
收稿时间: | 2018-12-13 |
修稿时间: | 2020-03-03 |
|
| 点击此处可从《重庆邮电大学学报(自然科学版)》浏览原始摘要信息 |
|
点击此处可从《重庆邮电大学学报(自然科学版)》下载全文 |
|