首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种大规模流式数据聚类方法在交通热点分析中的应用
引用本文:牟向伟,陈 燕,曹妍.一种大规模流式数据聚类方法在交通热点分析中的应用[J].科学技术与工程,2017,17(15).
作者姓名:牟向伟  陈 燕  曹妍
作者单位:大连海事大学,大连海事大学,大连海事大学
基金项目:国家自然科学基金(71271034)、国家科技支撑计划课题(2014BAH24F04)、辽宁省教育厅科技研究项目资助(L2014203)、辽宁省社会科学规划基金项目(L14BGL012)、中央高校基本科研业务费专项资金资助(3132016046)联合资助。
摘    要:为了提高在大规模流式数据环境下交通热点区域分析的算法效率,提出了一种流式数据两阶段方法;该方法在第一阶段使用基于改进Canopy算法进行粗聚类并产生宏簇,在第二阶段使用K-means算法进行细聚类;并以粗聚类产生的宏簇个数和类簇中心位置为指导产生更加准确的微簇聚类结果。在试验中,使用流式数据两阶段方法对北京市出租车的定位数据进行了聚类分析;并结合热力图和电子地图对聚类结果进行可视化表达,在最终的热力分析结果中可以直观地发现出租车活动较为频繁的热点区域和线路,且与日常出行经验相符合。试验结果表明该算法能够实时地对流式数据进行聚类分析,产生的数据结果可供用户在任意时间窗口范围进行查询分析,有助于为交通活动情况实时分析、交通规划和拥堵治理等方面提供有价值的理论参考依据。

关 键 词:流式数据聚类  实时计算  交通热点分析  Canopy  KMeans
收稿时间:2016/11/21 0:00:00
修稿时间:2017/1/5 0:00:00

A two-phase streaming data clustering framework and its application in real-time traffic hotspot analysis
Institution:dalian maritime university,,
Abstract:In order to improve the efficiency of traffic hotspots analysis in large-scale streaming data environment, a two-phase flow data clustering framework is proposed , in the first stage, this framework produces macro cluster based on improved Canopy algorithm, in the second KMeans clustering algorithm uses the cluster center from macro cluster to generate more accurate clustering results. In the experiment, this framework was programed to analyze a dataset of Beijing taxi GPS positioning data which had been simulated as streaming data. Clustering results was used to analyze traffic hotspot and shown in the heat map and WebGIS, which can directly find relatively taxi activity hot spots and road, the results of hot spots are consistent with daily experience. These experiment results show that the two-phase flow data clustering framework can real-time cluster the streaming data and are available for the user query in any time window. the two-phase flow data clustering framework application in real-time traffic hotspot analysis provides theory value and application significance for real time traffic analysis, traffic planning and congestion management.
Keywords:streaming  data clustering  Real-time  computing  Traffic  hotspot analysis  Canopy  KMeans
本文献已被 CNKI 等数据库收录!
点击此处可从《科学技术与工程》浏览原始摘要信息
点击此处可从《科学技术与工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号