分块主成分分析在文本特征抽取中的应用 |
| |
作者单位: | ;1.西藏大学计算机科学系 |
| |
摘 要: | 为了降低原始文本特征空间的维数,获得较高的分类精度与执行效率,对多种文本特征提取方法进行了研究,如卡方、互信息、信息增益、主成分分析(PCA)等。针对传统文本特征抽取方法存在的精度不高、执行效率低等问题,提出了一种基于分块主成分分析的文本特征提取算法。该算法通过K-均值词聚类进行特征词分块,再对各分块实施PCA操作抽取出更具代表性的特征项,最后使用支持向量机分类器对文本进行分类。实验结果表明:分块主成分分析的分类指标F_(β=1)达到了88.7%,执行时间为353 s,能够有效提高文本分类精度与执行效率。
|
关 键 词: | 主成分分析 分块 特征抽取 词聚类 |
Application of Block-Principal Component Analysis In Text Feature Extraction |
| |
Abstract: | |
| |
Keywords: | |
|
|