基于双向长短时记忆模型的中文分词方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于双向长短时记忆模型的中文分词方法

作者姓名：	张洪刚李焕

作者单位：	北京邮电大学信息与通信工程学院,北京 100876

基金项目：	国家自然科学基金青年基金资助项目( 61601042)

摘要：	中文分词是中文自然语言处理中的关键基础技术之一．目前,传统分词算法依赖于特征工程,而验证特征的有效性需要大量的工作．基于神经网络的深度学习算法的兴起使得模型自动学习特征成为可能．文中基于深度学习中的双向长短时记忆( BLSTM) 神经网络模型对中文分词进行了研究．首先从大规模语料中学习中文字的语义向量,再将字向量应用于BLSTM 模型实现分词,并在简体中文数据集( PKU、MSRA、CTB) 和繁体中文数据集( HKCityU) 等数据集上进行了实验．实验表明,在不依赖特征工程的情况下,基于BLSTM 的中文分词方法仍可取得很好的效果．
关键词：	深度学习神经网络双向长短时记忆中文分词
收稿时间：	2016-12-08
本文献已被 CNKI 等数据库收录！
	点击此处可从《华南理工大学学报(自然科学版)》浏览原始摘要信息
	点击此处可从《华南理工大学学报(自然科学版)》下载全文