基于随机森林模型的不平衡大数据分类算法 |
| |
作者姓名: | 魏亚明 孟媛 |
| |
作者单位: | 1. 徐州市中心医院信息处;2. 江苏师范大学研究生院 |
| |
基金项目: | 江苏省自然科学基金资助项目(BK2013573); |
| |
摘 要: | 针对目前不平衡大数据分类算法分类效果较差的问题,提出基于随机森林模型的不平衡大数据分类算法。首先采用SVM(Support Vector Machine)支持向量机算法对不平衡大数据进行信息过滤,然后利用反k近邻法检测并消除离群点,通过增量主成分分析法去掉不平衡大数据中协方差矩阵存在的奇异性,并依据熵值法对其展开权重解析,进而提取不平衡大数据特征信息。将CART(Classification and Regression Trees)决策树当作不平衡大数据的基分类器,进而构建随机森林决策树分类器,最后将提取的不平衡大数据特征信息输入分类器中,实现不平衡大数据分类。实验结果表明,该算法对不平衡大数据的采样效果较好,并且分类精准度、稳定性和性能都较高。
|
关 键 词: | 随机森林模型 不平衡大数据分类 SVM支持向量机 反k近邻法 CART决策树 |
|