首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于深度随机森林的商品类超短文本分类研究
引用本文:牛振东,石鹏飞,朱一凡,张思凡.基于深度随机森林的商品类超短文本分类研究[J].北京理工大学学报,2021,41(12):1277-1285.
作者姓名:牛振东  石鹏飞  朱一凡  张思凡
作者单位:北京理工大学 计算机学院, 北京 100081
基金项目:国家自然科学基金资助项目(61370137);教育部-中国移动研究基金资助项目(2016/2-7);国家"九七三"计划项目(2012CB720700)
摘    要:近年来,随着移动通信和信息技术的发展,网络上和实际应用场景中需要处理越来越多的长度不超过20字并且不带有辅助标签信息的超短文本数据.超短文本因其固有的词义多义性、文本特征极度稀疏、上下文明显缺失以及明辨语义困难等特点,如何对其进行有效地分类成为文本分类领域亟需解决的新问题.本文针对传统的短文本分类方法KNN和决策树在商品类超短文本上存在的由于特征稀少而导致分类器性能不佳的问题,提出了一种基于深度随机森林的商品类超短文本分类方法.该方法采用"分流"策略,利用外部知识库进行辅助,对知识库中存在明确类别的商品名直接确定其分类,对无法直接抽取类别的商品名,采用Word2vec对其在外部知识库中的描述进行向量化,并利用深度随机森林对向量进行分类,同时不断优化分类器直到训练集大小达到设定的阈值.实验结果表明,与传统的分类方法KNN和决策树相比,本文提出的分类方法在平均准确率上分别提高了22.78%和17.22%,平均召回率上分别提高了22.85%和15.23%. 

关 键 词:超短文本分类    商品名称    深度随机森林
收稿时间:2019/4/3 0:00:00

Research on Classification of Commodity Ultra-Short Text Based on Deep Random Forest
NIU Zhendong,SHI Pengfei,ZHU Yifan,ZHANG Sifan.Research on Classification of Commodity Ultra-Short Text Based on Deep Random Forest[J].Journal of Beijing Institute of Technology(Natural Science Edition),2021,41(12):1277-1285.
Authors:NIU Zhendong  SHI Pengfei  ZHU Yifan  ZHANG Sifan
Institution:School of Computer Science and Technology,Beijing Institute of Technology,Beijing 100081, China
Abstract:
Keywords:ultra-short text classification  commodity  deep random forest
点击此处可从《北京理工大学学报》浏览原始摘要信息
点击此处可从《北京理工大学学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号