首页 | 本学科首页   官方微博 | 高级检索  
     

基于双向长短时记忆模型的中文分词方法
作者姓名:张洪刚 李焕
作者单位:北京邮电大学 信息与通信工程学院,北京 100876
基金项目:国家自然科学基金青年基金资助项目( 61601042)
摘    要:中文分词是中文自然语言处理中的关键基础技术之一. 目前,传统分词算法依赖于特征工程,而验证特征的有效性需要大量的工作. 基于神经网络的深度学习算法的兴起使得模型自动学习特征成为可能. 文中基于深度学习中的双向长短时记忆( BLSTM) 神经网络模型对中文分词进行了研究. 首先从大规模语料中学习中文字的语义向量,再将字向量应用于BLSTM 模型实现分词,并在简体中文数据集( PKU、MSRA、CTB) 和繁体中文数据集( HKCityU) 等数据集上进行了实验. 实验表明,在不依赖特征工程的情况下,基于BLSTM 的中文分词方法仍可取得很好的效果.

关 键 词:深度学习  神经网络  双向长短时记忆  中文分词  
收稿时间:2016-12-08
本文献已被 CNKI 等数据库收录!
点击此处可从《华南理工大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《华南理工大学学报(自然科学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号