基于网格划分和LLE的高维数据离群点自适应检测方法 |
| |
作者姓名: | 叶晟 吴晓朝 |
| |
作者单位: | 广州商学院 信息技术与工程学院,广东 广州 511363 |
| |
基金项目: | 2021年度广东省重点建设学科科研能力提升项目资助(2021ZDJS120) |
| |
摘 要: | 针对目前高维数据量急剧增加,离群点检测技术精准度低、所需内存大、检测时间长等问题,提出了基于网格划分和局部线性嵌入方法(Locally Linear Embedding, LLE)的高维数据离群点自适应检测方法.根据高维数据的空间维度进行网格划分,设定单元格邻近单元数量,降低运行开销,减少计算时间.采用局部线性嵌入方法(LLE),分析不同组合数据点的局部特性,准确描述高维数据结构,完成高维数据集预处理.采集高维数据集合中小部分重要信息,保证采集结果的准确性,利用MapReduce编程模型,将大任务划分为多个不同的小任务,展开分布式处理.通过网格密度计算离群度,提升检测效率,优先过滤空白网格单元,降低空间开销,减小所需内存,从而实现高维数据离群点自适应检测.实验结果表明:所提方法在不同数据集大小测试中,执行时间更短,检测精确度更加稳定;在维度测试中,所需内存更少.证明所提方法能够有效降低执行时间和内存,提升检测结果的精确度.
|
关 键 词: | 网格过滤 LLE 高维数据 离群点 自适应检测 预处理 |
|
| 点击此处可从《湖南科技大学学报(自然科学版)》浏览原始摘要信息 |
|
点击此处可从《湖南科技大学学报(自然科学版)》下载全文 |