基于关键词的文本向量化与分类算法研究 |
| |
引用本文: | 苏玉龙,张著洪.基于关键词的文本向量化与分类算法研究[J].贵州大学学报(自然科学版),2018(3). |
| |
作者姓名: | 苏玉龙 张著洪 |
| |
作者单位: | 贵州大学大数据与信息工程学院 |
| |
摘 要: | 针对自然语言文本集的预处理和分类问题,将词频统计方法(TF-IDF)引入到关键词提取(TextRank)算法中,并结合word2vec词向量化方法获得基于关键词的改进型文本向量化算法;进而,在k近邻算法中引入k值校正规则,并与该改进型算法结合获得文本集的改进型分类算法。利用格式和类别多样、数据量较大的文本集数据进行实验,结果表明,通过该方法可有效实现文档深层语义特征与浅层词频统计特征的融合,提取的文本关键词能较好表征文档的内容和类别,证明了获得的分类效果具有明显的优势。
|
本文献已被 CNKI 等数据库收录! |
|