首页 | 本学科首页   官方微博 | 高级检索  
     

基于语料库文本自动分类算法及应用比较研究
引用本文:许和旭,王兰成. 基于语料库文本自动分类算法及应用比较研究[J]. 科技情报开发与经济, 2021, 6(6): 45-53. DOI: 10.3969/j.issn.1005-6033.2021.06.007
作者姓名:许和旭  王兰成
作者单位:国防大学政治学院,上海,200433
摘    要:基于Python语言,利用公开中文语料库,测试不同算法模型对中文文本分类的效果.选择语料中不同数量的语料种类,首先对文本进行格式化读取、清洗等处理,而后以2:1:1的比例,分为训练集、验证集、测试集,最后依照文本表示、特征提取、分类算法选择、效果评估的步骤,依次在词袋、词嵌入、语言3种模型中选取典型代表进行中文文本分类.在深度学习模型的帮助下,文本分类得到了快速的发展,当前的主流分类方法基本都能满足不同任务的文本分类需求,特别是BERT语言模型可极大地提升文本分类的效果.

关 键 词:文本分类  TF-IDF  Word2Vec  BERT  深度学习

A Comparative Study of Corpus Based Automatic Text Classification Algorithms
XU Hexu,WANG Lancheng. A Comparative Study of Corpus Based Automatic Text Classification Algorithms[J]. Sci-Tech Information Development & Economy, 2021, 6(6): 45-53. DOI: 10.3969/j.issn.1005-6033.2021.06.007
Authors:XU Hexu  WANG Lancheng
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号