摘 要: | 随着信息化的不断发展,越来越多的信息不断涌现出来,如何在海量的信息中快速有效地获取到最有价值的信息成为人们不断关注的热点.中文文本分类作为自然语言处理的一个分支,通过将信息归纳成已知的主题类别,可以有效地帮助用户快速获取海量信息中所需的信息.但由于传统特征选择算法存在着很大的局限性,目前在中文文本分类领域上还存在着很大的不足,集中体现在提取出的特征过于高维和稀疏,不能高效地表示类别的文本.基于此,结合三支决策的思想,提出一种新颖的特征选择算法,将无监督与有监督的特征提取算法相结合,有效减少特征词的数量,使得提取出来的特征词更具有类别代表性.通过在复旦大学语料库上进行的实验,结果表明,所提出的三支决策特征选择算法与传统的特征选择算法相比,具有一定的优势,能够有效地提高文本分类的准确率.
|