基于语料库文本自动分类算法及应用比较研究 A Comparative Study of Corpus Based Automatic Text Classification Algorithms期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于语料库文本自动分类算法及应用比较研究

引用本文：	许和旭,王兰成. 基于语料库文本自动分类算法及应用比较研究[J]. 科技情报开发与经济, 2021, 6(6): 45-53. DOI: 10.3969/j.issn.1005-6033.2021.06.007

作者姓名：	许和旭王兰成

作者单位：	国防大学政治学院,上海,200433

摘要：	基于Python语言,利用公开中文语料库,测试不同算法模型对中文文本分类的效果.选择语料中不同数量的语料种类,首先对文本进行格式化读取、清洗等处理,而后以2:1:1的比例,分为训练集、验证集、测试集,最后依照文本表示、特征提取、分类算法选择、效果评估的步骤,依次在词袋、词嵌入、语言3种模型中选取典型代表进行中文文本分类.在深度学习模型的帮助下,文本分类得到了快速的发展,当前的主流分类方法基本都能满足不同任务的文本分类需求,特别是BERT语言模型可极大地提升文本分类的效果.
关键词：	文本分类 TF-IDF Word2Vec BERT 深度学习
A Comparative Study of Corpus Based Automatic Text Classification Algorithms

XU Hexu,WANG Lancheng. A Comparative Study of Corpus Based Automatic Text Classification Algorithms[J]. Sci-Tech Information Development & Economy, 2021, 6(6): 45-53. DOI: 10.3969/j.issn.1005-6033.2021.06.007

Authors:	XU Hexu WANG Lancheng

Abstract:

Keywords:
本文献已被万方数据等数据库收录！