改进的k最邻近算法在海量数据挖掘中的应用 |
| |
摘 要: | 为了提高数据挖掘的效率与准确性,将k最邻近算法与样本均衡策略相结合,在海量数据挖掘中进行应用;首先对样本集文本进行分析,找出样本领域的密集分布区域,对样本密集区域进行有效裁剪优化,实现样本分布均衡,然后对经过样本均衡处理的数据样本执行传统k最邻近算法,根据权重获得分类结果,最后对不同k值的k最邻近算法进行实例仿真。结果表明,在相同的数据样本环境中,相比于其他分类算法,采用改进的k最邻近算法的分类准确度和分类效率更高。
|
本文献已被 CNKI 等数据库收录! |
|