期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《科学技术与工程》2018,(7)

针对传统聚类算法效率低、效果差和稳定性弱等弊端,提出一种新的云计算环境下关联性大数据实时流式可控聚类算法。介绍了关联性实时流式数据的定义和特点。通过粗聚类对实时抵达的数据元组进行相应的预处理,确定类簇的数量与中心点位置,形成通过存在差异的宏簇构成的集合,粗聚类采用的算法为Canopy算法。将粗聚类得到的宏簇传至K-means算法,给出了K-means算法的详细步骤,通过K-means算法完成细聚类,介绍了整个细聚类详细步骤。实验结果表明,所提算法具有效率高、质量好、稳定性强等优势,可有效实现云计算环境下关联性实时流式大数据聚类。相似文献

2.

云计算环境下关联性大数据实时流式可控聚类算法研究

李鹏飞刘春宇海军《科学技术与工程》2018,18(7)

针对传统聚类算法效率低、效果差和稳定性弱等弊端,提出一种新的云计算环境下关联性大数据实时流式可控聚类算法。介绍了关联性实时流式数据的定义和特点。通过粗聚类对实时抵达的数据元组进行相应的预处理,确定类簇的数量与中心点位置,形成通过存在差异的宏簇构成的集合,粗聚类采用的算法为Canopy算法。将粗聚类得到的宏簇传至K-means算法,给出了K-means算法的详细步骤,通过K-means算法完成细聚类,介绍了整个细聚类详细步骤。实验结果表明,所提算法具有效率高、质量好、稳定性强等优势,可有效实现云计算环境下关联性实时流式大数据聚类。相似文献

3.

出租车载客热点技术研究

王桐沈昭晛《哈尔滨商业大学学报(自然科学版)》2019,35(5)

通过挖掘北京市出租车历史轨迹数据,分析出租车载客热点区域,从而为空载行驶的出租车司机提供寻客方向.基于大数据平台的历史轨迹数据预处理,按照数据生成时间对出租车历史数据进行排序,提取历史数据中的所有乘客上车地点;使用聚类算法对提取出的上车地点进行聚类分析,提取乘客频繁出现的区域.以出租车寻找乘客为背景,分别采用基于密度的DBSCAN算法和基于距离的K-means算法对载客点进行聚类.采用聚类算法性能评估中的DB内聚指数对两种算法的聚类效果进行评估,结果显示工作日和非工作日DBSCAN算法聚类结果的内聚效果均优于Kmeans算法. 相似文献

4.

结合软约束的演化数据流模糊聚类算法

代少升边志奇袁中明《重庆邮电大学学报(自然科学版)》2024,(2):287-298

多源局部放电检测中,不同类型的局放信号同时存在且不断变化使得信号的分离更具挑战,而这种情况同样存在于许多数据流的聚类分析场景中。为了能够适应类簇内的不均匀密度和类簇间的重叠边界问题,同时对数据流的漂移和演化进行及时跟踪,提出了一种结合软约束的实时数据流模糊聚类算法。算法引入2种模糊性软约束来描述微簇距离和密度上的不确定度,通过阈值划分出核心微簇、边界微簇和离群微簇;在类簇边缘使用模糊隶属度,给予微簇分属不同类簇的可能性,保证类簇的完整性并提高聚类效果;使用两阶段的流程结构和2种时间窗口模型,赋予算法具有对可变化数据流的适应能力和更低的时间空间占用率。在多种数据集上的实验表明,该算法相比同类型算法在聚类效果上提升了1%~3%,且平均运行时间缩短5%~20%,在实际硬件平台的测试中也验证了算法的聚类分离性能。相似文献

5.

基于方差优化谱聚类的热点区域挖掘算法

下载免费PDF全文

梁卓灵元昌安覃晓《广西科学》2020,27(6):616-621

为改善交通拥堵的情况,本文利用聚类分析方法对移动轨迹数据进行挖掘,识别居民出行的热点区域。传统的Ng-Jordan-Weiss （NJW）谱聚类算法常使用K-means聚类算法来实现最后的聚类操作,然而K-means聚类算法存在对初始值敏感、容易陷入局部最优的缺陷,影响对热点区域的挖掘结果。因此,本研究将方差优化初始中心的K-medoids聚类算法运用到谱聚类算法最后聚类阶段,提出基于方差优化谱聚类的热点区域挖掘算法（Hot Region Mining algorithm based on improved K-medoids Spectral Clustering,HRM-KSC）,然后在真实的轨迹数据集上进行试验。试验结果发现,HRM-KSC算法聚类结果的轮廓系数更高,表明HRM-KSC算法改善了NJW谱聚类算法,提高了聚类质量。相似文献

6.

数据挖掘中K-均值聚类算法的缺陷及工作效率改进的实验研究

陈晓勇顾晖彭志娟《科学技术与工程》2013,13(34)

K -均值聚类算法在当前提取数据挖掘的聚类分析方法中已经取得了一定的成就,为了进一步改进其在数据预处理及神经网络结构中的应用,文中对算法进行了缺陷研究,主要做了以下几个方面的工作：对K-means算法进行了思路及算法主要流程分析;得出K-均值聚类算法存在简单、迅速、结果簇密集、簇与簇之间区别较为明显等优点;分析得出算法存在与处理符号属性的数据不太适应、必须事先给出k值(想要生成的簇的个数)、对“噪声数据”以及孤立的点数据有较大影响、需要不断计算更新调整后的新聚类中心等缺点。在实验验证中结果得出：聚类结果可知,选取不同的值初始值对聚类结果的影响很小;如果聚类数据集迭代次数较多时,可以尝试着改变其数据的输入顺序;变动数据集的输入顺序,会直接影响聚类结果。实验结果对于K-均值算法的工作效率提高了具有明显的参考价值,这一研究对于数据挖掘技术的改进具有一定的意义。相似文献

7.

基于多目标数据挖掘的城市交通仿真算法研究

张昕关志超杨东援《中山大学学报(自然科学版)》2007,46(Z2):210-214

城市交通仿真是智能交通系统领域内的核心技术之一,其基础在于实时交通数据的采集和分析整理.而城市实时交通数据包括静态信息和动态数据,需要将多源数据进行融合并对数据进行分析和挖掘,提取交通特征.提出了一种基于聚类集成的多目标聚类分析框架.同时在此框架下,提出了一个启发式的聚类算法k-WANMI,进行快速有效的聚类分析.实验结果表明,提出的方法有效的满足多数据源的应用需求,提出的框架和算法能够处理混合数据、处理具有不同权重的属性并且能够进行多目标分析. 相似文献

8.

近邻密度分布优化样本分配的改进DPC聚类算法

纪霞张涛朱建磊刘诗诚李学俊《华南理工大学学报(自然科学版)》2019,47(2)

DPC算法是一种能够自动确定类簇数和类簇中心的新型密度聚类算法,但在样本分配策略上存在聚类质量不稳定的缺陷.其改进算法KNN-DPC虽然具有较好的聚类效果,但效率不高而影响实用.针对以上问题,文中提出了一种近邻密度分布优化的DPC算法.该算法在DPC算法搜索和发现样本的初始类簇中心的基础上,基于样本的密度分布采用两种样本类簇分配策略,依次将各样本分配到相应的类簇.理论分析和在经典人工数据集以及UCI真实数据集上的实验结果表明:文中提出的聚类算法能快速确定任意形状数据的类簇中心和有效地进行样本类簇分配;与DPC算法和KNN-DPC算法相比,文中算法在聚类效果与时间性能上有更好的平衡,聚类稳定性高,可适用于大规模数据集的自适应聚类分析. 相似文献

9.

PCA-KDKM算法及其在微博舆情中的应用

《山东科技大学学报(自然科学版)》2018,(6)

针对K-means算法因随机选取聚类中心而易造成聚类结果不稳定的问题,提出PCA-KDKM算法。该算法使用主成分分析法对数据集的属性降维,提取主属性;利用k′dist曲线自动获取k值;计算平缓曲线上所含数据对象的均值并选取其中一值,作为首个初始聚类中心;利用基于密度和最大最小距离的算法思想进行聚类;结合类间距离和类内聚类提出聚类质量评价函数。将该算法与K-means、KNE-KM、QMC-KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定,聚类准确率高。将PCA-KDKM算法应用在微博舆情分析中,抓取不同类别的数万条数据进行聚类分析。实验结果表明,PCA-KDKM算法在微博舆情分析中有更高的准确性和稳定性,有利于及时发现热点舆情。相似文献

10.

一种基于引力的聚类算法

张天伍詹自熬《河南科学》2009,27(1):70-73

将万有引力和牛顿第二运动定律的思想引入到聚类分析中,提出了一种基于引力的聚类算法CABG．该算法可以自动决定目标数据集中的簇的个数,并且能发现任意形状的簇且可以过滤“噪声”数据．实验结果表明CABG可以产生高质量的聚类结果．相似文献

11.

基于现实与虚拟交互的交通流再现实验方法

杨晓光张楠《同济大学学报(自然科学版)》2018,46(12):1659-1667

面向连续与间断交通流实验系统框架,利用现实交通流的观测数据,在实验框架的虚拟环境中建立交通流的非参数模型,通过虚拟框架的贝叶斯学习再现与现实等价的实验交通流.选取更为复杂的信号控制交通流场景对该实验方法进行验证.结果表明,该方法在一定精度内可以近似再现信号控制交通流. 相似文献

12.

基于FCD的出租车空驶时空特性及成因研究——以深圳国贸CBD为例

关金平朱竑《中山大学学报(自然科学版)》2010,49(Z1)

国内外对出租车研究,多集中于对其本身运营与管理关注,局限于对交通运输行业内具体应用范畴的探讨,而从人文地理、城市规划视角进行的研究尚未见到。基于实时动态数据,对出租车空驶时空特性及成因研究更无涉及。研究以国家节能与新能源汽车示范推广试点城市深圳为例,运用交通学科方法,采集FCD,进行要素筛选、特征提取、聚类分析、归纳统计等,得到深圳特区出租车空驶分布特征;在此基础上,基于GIS-T平台,绘制出租车空驶分布图,选取出租车空驶现象严重区域国贸CBD作为案例地。通过对其时空特性分析,研究点、线、面交通拥挤制约关系,路网结构导致空驶出租车滞留,罗湖枢纽"五位一体"换乘改造影响,金融、商业、写字楼、酒店、住宅密集分布影响等成因,找出解决办法。出租车在城市快速路、主干路的交通量构成比例较大,对城市交通供需平衡有较高的敏感性。采用FCD提取出租车空驶特征,是当前国内外广泛关注的研究热点。这种跨学科复合型研究的方法,引入大量实时动态数据的量化细分,改变了以往传统的定性判断方式,对于提高研究内容的科学性与有效性具有创新,也是运用动态数据研究城市交通地理的新尝试。相似文献

13.

基于出租车轨迹数据的交通异常识别算法研究

王雷安实杨海强马晓龙《科学技术与工程》2018,18(32)

为了实现基于出租车轨迹数据的交通异常识别,本文首先以城市栅格地图模型为框架,提出了一种针对城市路网的多光谱分隔算法,并根据城市路网分别从区域增长与区域融合两种角度实现了多光谱地图的分割。其次在分割的城市路网基础上,设计了交通异常的识别算法。算法依据单元区域内道路网络拓扑结构构建交通异常图,然后根据出租车路径选择模式的历史规律计算每个单元区域内不同路径上的出租车轨迹流量的变化,最后根据三倍均方差指标识别单元区域内的交通异常。文章最后以哈尔滨为例进行了算例分析,算例结果表明,本文提出的异常识别算法取得了良好的效果,验证了算法的有效性及准确性。相似文献

14.

基于移动信令数据的城市热点识别方法

彭大芹罗裕枫江德潮刘艳林《重庆邮电大学学报(自然科学版)》2019,31(1):95-102

城市热点的识别对于探索解决引导性的人群疏散、规避交通拥堵等问题提供新途径,并为基于位置服务(location based services,LBS)如商铺选址、旅游导航等提供重要的科学参考,具有重要的应用价值。随着个人手机终端的普及与发展,手机已经成为研究用户行为特征的一种理想的探测器。提出了将手机信令数据融合兴趣点(point of interest,POI)数据来挖掘城市的热点区域并进行功能类型标定,重点通过手机信令数据研究人流的出行行为和在蜂窝的驻留时长情况来识别活跃蜂窝,并进一步通过基于密度的聚类算法判别热点区域。选取了重庆市较场口一定范围区域作为研究区域,数据来源于重庆某移动运营商提供的用户手机信令数据,通过实验实例验证分析,证明了该方法可快速识别出城市热点区域,并具有较高的准确性。相似文献

15.

一种面向不确定数据流的聚类算法

韩东红王坤邵崇雷马畅《东北大学学报(自然科学版)》2016,37(12):1677-1682

作为大数据的重要组成,产生于传感器、移动电话设备、社交网络等的不确定流数据因其具有流速可变、规模宏大、单遍扫描及不确定性等特点,传统聚类算法不能满足用户高效实时的查询要求.首先利用MBR(minimum bounding rectangle)描述不确定元组的分布特性,并提出一种基于期望距离的不确定数据流聚类算法,计算期望距离范围的上下界剪枝距离较远的簇以减少计算量;其次针对簇内元组的分布特征提出了簇MBR的概念,提出一种基于空间位置关系的聚类算法,根据不确定元组MBR和簇MBR的空间位置关系排除距离不确定元组较远的簇,从而提高聚类算法效率;最后在合成数据集和真实数据集进行实验,结果验证了所提出算法的有效性和高效性. 相似文献

16.

Identification Method of Urban Road Traffic Conditions in the Internet of Vehicles Environment

王建强李世威张玉召《东华大学学报(英文版)》2015,(2):264-267

In accordance with the specific deployment way of infrastructure and data exchanging technology in the Internet of vehicles(IoV),the acquiring and calculating method for three basic traffic flow parameters in IoV scenarios,including traffic flow,speed and density,was researched.Considering the complexity of traffic flow and fuzziness of human thinking,fuzzy c-means clustering algorithm based on the genetic algorithm(GA-FCM) was adopted in soft classification of urban road traffic conditions.Genetic algorithm(GA) introduced into fuzzy clustering could avoid fuzzy c-means(FCM) algorithm converging to the local infinitesimal point,which made the cluster result more precise.By means of computer simulation,data exchanging environment in IoV was imitated,and then test data set was divided into four parts.The simulation indicates that the identification method is feasible and effective for urban road traffic conditions in IoV scenarios. 相似文献

17.

噪声环境下复杂流形数据的势能层次聚类算法

于晓飞葛洪伟《重庆邮电大学学报(自然科学版)》2018,30(6):848-854

基于势能的快速凝聚层次聚类算法使用一种全新的相似性度量准则,可以更高效地得到聚类结果。针对该算法无法有效处理含噪声的复杂流形数据的缺陷,提出噪声环境下复杂流形数据的势能层次聚类算法。通过势能递增曲线识别噪声点,在新定义的势能最大、最小2层数据上进行自动聚类,以确定类簇的大体框架,并在此基础上对整个数据集进行层次聚类。人工数据集上的实验表明,新算法可以有效处理噪声环境下复杂流形数据;真实数据集上的实验表明,新算法具有更优的聚类效果。相似文献

18.

基于FCM快速路交通状态判别加权指数研究

蔡晓禹吴启顺蔡明《科学技术与工程》2017,17(6)

加权指数m是影响模糊C名)值聚类(fuzzy Cleans,FCM)的一个关键参数,为提高快速路交通状态模糊判別性能,针对m取值的问题提出了一种兼顾算法判別精度和聚类效果的优选方法。该方法以流量、速度为交通状态评价参数在不同加权指数m和样本量n下进行聚类分析,从算法判別精度、类内间距、类间间距、目标函数收敛性四个方面对m的最优取值进行了深入研究。以某市快速路为例別用MATLAB模糊逻辑工具箱分析实验数据的隶属度和聚类中心,以上四个方面在n×m种组合情形下综合分析,得出快速路交通状态模糊判別m的最优取值,并进一步验证了该方法的可行性。实验结果表明,以流量、速度为状态评价参数的快速路交通状态模糊判別加权指数m的最佳取值为2.25。相似文献