首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于BiLSTM_CRF模型的藏文分词方法
引用本文:王莉莉,王宏渊,白玛曲珍,杨鸿武.基于BiLSTM_CRF模型的藏文分词方法[J].重庆邮电大学学报(自然科学版),2020,32(4):648-654.
作者姓名:王莉莉  王宏渊  白玛曲珍  杨鸿武
作者单位:西北师范大学 物理与电子工程学院, 兰州 730070;西北师范大学 物理与电子工程学院, 兰州 730070;甘肃省智能信息技术与应用工程研究中心,兰州 730070;互联网教育数据学习分析技术国家地方联合工程实验室,兰州 730070
基金项目:国家自然科学基金(11664036, 61263036);甘肃省高等学校科技创新团队项目(2017C-03)
摘    要:藏文分词是实现藏文语音合成和藏文语音识别的关键技术之一。提出一种基于双向长短时记忆网络加条件随机场(bidirectional long-short-term memory with conditional random field model, BiLSTM_CRF)模型的藏文分词方法。对手工分词的语料经过词向量训练后输入到双向长短时记忆网络(bidirectional long-short-term memory, BiLSTM)中,将前向长短时记忆网络(long-short-term memory, LSTM)和后向LSTM学习到的过去输入特征和未来输入特征相加,传入到线性层和softmax层进行非线性操作得到粗预测信息,再利用条件随机场(conditional random field, CRF)模型进行约束性修正,得到一个利用词向量和CRF模型优化的藏文分词模型。实验结果表明,基于BiLSTM_CRF模型的藏文分词方法可取得较好的分词效果,分词准确率可达94.33%,召回率为93.89%,F值为94.11%。

关 键 词:文本分词  长短时计忆网络  深度神经网络  词向量  民族语言
收稿时间:2018/12/13 0:00:00
修稿时间:2020/3/3 0:00:00

Tibetan word segmentation method based on BiLSTM_CRF model
WANG Lili,WANG Hongyuan,BAIMA Quzhen,YANG Hongwu.Tibetan word segmentation method based on BiLSTM_CRF model[J].Journal of Chongqing University of Posts and Telecommunications,2020,32(4):648-654.
Authors:WANG Lili  WANG Hongyuan  BAIMA Quzhen  YANG Hongwu
Institution:College of Physics and Electronic Engineering, Northwest Normal University, Lanzhou 730070, P.R. China; College of Physics and Electronic Engineering, Northwest Normal University, Lanzhou 730070, P.R. China; Engineering Research Center of Gansu Province for Intelligent Information Technology and Application, Lanzhou 730070, P.R. China; National and Local Joint Engineering Laboratory of Data Learning and Analysis Technology for Internet Education, Lanzhou 730070, P.R. China
Abstract:
Keywords:text segmentation  long-short-term memory network  deep neural network  word vector  national language
点击此处可从《重庆邮电大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《重庆邮电大学学报(自然科学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号