基于PAC算法的流数据Top-k实时查询 |
| |
作者姓名: | 杨矫云 郭思伊 李廉 |
| |
作者单位: | 合肥工业大学计算机与信息学院,安徽 合肥 230601;合肥工业大学计算机与信息学院,安徽 合肥 230601;合肥工业大学计算机与信息学院,安徽 合肥 230601 |
| |
基金项目: | 国家自然科学基金;国家重点研发计划;安徽省重点研究与开发计划资助项目 |
| |
摘 要: | 针对流数据的Top-k查询问题,为降低对存储容量和处理时间的要求,利用概率近似正确(PAC)原理,提出了一种实时查询算法,通过随机抽样近似地估计流数据中最大的k个数据,并保证误差和可信度均在规定的范围内.该算法设置k个随机独立排序器,每个排序器独立地抽取N个数据并返回各自不同的最大值d,然后用这k个最大值排序获得该流数...
|
关 键 词: | 流数据 随机抽样 样本复杂度 Top-k问题 PAC算法 |
本文献已被 CNKI 万方数据 等数据库收录! |
|