首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于自动编码器的短文本特征提取及聚类研究
引用本文:刘勘,袁蕴英.基于自动编码器的短文本特征提取及聚类研究[J].北京大学学报(自然科学版),2015,51(2):282-288.
作者姓名:刘勘  袁蕴英
作者单位:中南财经政法大学信息与安全工程学院,武汉,430074;中南财经政法大学信息与安全工程学院,武汉,430074
基金项目:国家社会科学基金(14BXW033);教育部人文社会科学基金(11YJAZH060)资助
摘    要:针对短文本的特点,提出一种基于深层噪音自动编码器的特征提取及聚类算法。该算法利用深度学习网络,将高维、稀疏的短文本空间向量变换到新的低维、本质特征空间。首先在自动编码器的基础上,引入L1范式惩罚项来避免模型过分拟合,然后添加噪音项以提高算法的鲁棒性。实验结果表明,将提取的文本特征应用于短文本聚类,显著提高了聚类的效果,有效地解决了短文本空间向量的高维、稀疏问题。

关 键 词:深度学习  自动编码器  特征提取  聚类

Short Texts Feature Extraction and Clustering Based on Auto-Encoder
LIU Kan , YUAN Yunying.Short Texts Feature Extraction and Clustering Based on Auto-Encoder[J].Acta Scientiarum Naturalium Universitatis Pekinensis,2015,51(2):282-288.
Authors:LIU Kan  YUAN Yunying
Institution:LIU Kan;YUAN Yunying;School of Information and Safety Engineering, Zhongnan University of Economics and Law;
Abstract:
Keywords:deep learning  auto-encoder  feature extraction  clustering
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号