摘 要: | 中文分词是中文自然语言处理中的关键基础技术之一. 目前,传统分词算法依赖于特征工程,而验证特征的有效性需要大量的工作. 基于神经网络的深度学习算法的兴起使得模型自动学习特征成为可能. 文中基于深度学习中的双向长短时记忆( BLSTM) 神经网络模型对中文分词进行了研究. 首先从大规模语料中学习中文字的语义向量,再将字向量应用于BLSTM 模型实现分词,并在简体中文数据集( PKU、MSRA、CTB) 和繁体中文数据集( HKCityU) 等数据集上进行了实验. 实验表明,在不依赖特征工程的情况下,基于BLSTM 的中文分词方法仍可取得很好的效果.
|