首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
为了提高在大规模流式数据环境下交通热点区域分析的算法效率,提出了一种流式数据两阶段方法;该方法在第一阶段使用基于改进Canopy算法进行粗聚类并产生宏簇,在第二阶段使用K-means算法进行细聚类;并以粗聚类产生的宏簇个数和类簇中心位置为指导产生更加准确的微簇聚类结果。在试验中,使用流式数据两阶段方法对北京市出租车的定位数据进行了聚类分析;并结合热力图和电子地图对聚类结果进行可视化表达,在最终的热力分析结果中可以直观地发现出租车活动较为频繁的热点区域和线路,且与日常出行经验相符合。试验结果表明该算法能够实时地对流式数据进行聚类分析,产生的数据结果可供用户在任意时间窗口范围进行查询分析,有助于为交通活动情况实时分析、交通规划和拥堵治理等方面提供有价值的理论参考依据。  相似文献   

2.
为实现大数据场景下高效、可信的服务推荐,将社交网络理论和信任理论的研究成果有机融合,提出了大数据场景下基于可信社团的服务推荐方法.首先,利用现有的信任模型理论研究成果建立用户间的信任关系,计算用户对服务提供者的信任度;其次,在大数据场景下利用信任关系构建用户可信社团,确定社团中新用户的加入、甄别并删除恶意用户的方法;最后,在构建的可信社团基础上,利用MapReduce框架提出大数据场景下的基于可信社团的服务推荐方法.仿真实验结果表明:提出的方法适用于大数据场景,与传统的服务推荐方法相比,具有更好的性能.  相似文献   

3.
海量数据环境下大型ISP网络流量爆炸性增长造成网络阻塞。当前网络流量卸载方法通过预测确定待卸载网络流量,卸载准确率较低,服务质量差。为此,提出一种新的海量数据环境下大型ISP网络流量卸载方法,通过最大熵法,依据采集流量中的语义信息对流量类型进行识别。依据海量数据环境下大型ISP网络流量源节点的位置关系,通过图论法确定最佳传输路线,实现对大型ISP网络流量的卸载。依据中继节点数量与总卸载时间最少原则,通过Dijkstra方法对海量数据环境下大型ISP网络流量最佳卸载路线进行求解。实验结果表明,采用所提方法对大型ISP网络流量进行卸载,不仅流量类型识别精度高,而且卸载率高,服务质量高。  相似文献   

4.
探讨大数据背景下网络攻击同源性的分析方法,为攻击场景还原、攻击定性及攻击者溯源提供依据。提出了一种基于证据链的攻击描述方法,并归纳出各环节代表特异性的关键指纹,进一步构建了相应的网络攻击同源性判定模型,使用编辑距离计算攻击链单一环节之间的特征相似度,通过量子神经网络方法对多个攻击环节的相似性进行算法综合,进而实现网络攻击的同源判定。测试结果表明,该方法能够有效地对网络攻击进行同源性判定,相比基于样本的方法更加准确、可靠。该工作为大数据下提高网络攻击溯源能力及自动化水平探索了一条有效途径。  相似文献   

5.
流式数据中事件的查询及获取是研究流式数据各类操作的基础.现有流式数据系统中的事件查询只针对流中的异常数据点进行查询,而在实际情况下,流式数据中的事件多为一段连续时间的异常,包含时间、空间位置等多种信息,因此,传统的阈值查询方法无法从不同的时间及空间角度对事件进行全面分析,查询准确性极低,导致无法获取事件的全部信息.针对这些问题,本文提出一种基于多粒度Top-k查询的流式数据事件获取方法.该方法首先在监测区域内构建基于投影分区的区域监测簇;在此基础上,提出一种改进的多粒度空间Top-k查询方法对点进行查询,获取异常事件发生的空间位置信息;其次,基于事件峰谷点信息,对流式数据进行时间多粒度Top-k查询,找出异常事件的触发点和终止点,从而获得事件的完整信息.实验表明,本文提出的方法在系统资源开销、查询效率等方面均具有很大优势.  相似文献   

6.
对于多平台数据融合模式下的航迹关联问题,使用了聚类关联的方法进行解决.采用基于地心坐标系的最小二乘方法对航迹数据进行配准,对航迹间的距离使用Hausdorff距离进行衡量.使用了K-均值算法对各平台侦测的航迹进行关联,并将初始聚类中心设定为相距最远的航迹,有效降低了经典K-均值算法过于依赖初始聚类点带来的错误.仿真数据证实,能在目标密度大且航迹存在交错的场景下保持较高的关联正确率,具有较好的可用性.  相似文献   

7.
在大数据背景下,物联网技术的广泛应用产生了大量的时序数据。如何合理选择最适合的数据库来存储时序大数据是一个重要的研究内容。然而现有的数据库性能对比研究没有考虑数据的具体应用场景,缺乏特定场景下的性能对比实验。为了在存储时序大数据时能够从不同存储结构的数据库中选择最适合当前场景的数据库,文章对关系型数据库、本地NoSQL数据库以及公有云NoSQL数据库在燃气大数据的应用场景下进行了定量定性的实验与分析。实验结果表明,相比于关系型数据库,NoSQL数据库更加适合存储时序大数据。然后,进一步提出了针对不同应用场景下时序大数据的数据库选型建议。  相似文献   

8.
针对大斜视合成孔径雷达成像(SAR)模式下,回波存在较大的距离走动和严重的距离 方位交叉耦合等问题,对传统极坐标格式算法(PFA)进行改进,提出了一种基于改进的PFA算法的大斜视SAR成像方法。根据实际回波数据存储的形式,建立了大斜视SAR的斜距模型,通过对距离向与方位向的二维泰勒级数展开设计了一种斜距平面的二维插值函数,有效地提高了成像算法的聚焦深度。与传统PFA不同,斜距平面的距离展开能够避免回波数据的投影,所以改进的算法更适用于地形起伏不平的成像场景。仿真数据和实测数据分析验证了该方法的有效性。  相似文献   

9.
定义了局部规划卸载模式和全局规划卸载模式,分别针对两种卸载模式提出两种卸载策略:局部关联卸载策略和全局关联卸载策略.局部关联卸载策略改进了已有的独立卸载策略,按照某个顺序进行关系上的卸载计算,考虑了关系之间的卸载影响,因而可以比独立卸载策略保留更多的结果.全局关联卸载策略将所有参与连接的关系元组进行全局考虑,从中选择被卸载的数据元组.针对局部关联卸载策略提出两种改进算法:大损失优先关联卸载和多轮关联卸载算法.实验说明提出的数据卸载方法比已有的方法产生更大的卸载后连接结果集.  相似文献   

10.
徐明瑞  肖桂荣 《科学技术与工程》2021,21(35):14918-14926
针对传统三维可视化技术存在数据调度速度慢、场景绘制效率低等问题,本文提出了一种绘制线程与调度线程并行的双线程数据调度策略。该策略将数据调入等待队列,根据视点距离进行顶点层次划分,再利用双线程渲染管线进行场景绘制。为了提升了三维场景处理速度,建立了二级缓存渲染机制与瓦片数据更新策略,并基于Cesium图形引擎,设计并开发了武夷山国家公园时空三维可视化系统,优化了三维场景绘制与数据调度性能,实现了国家公园多源数据集成,提高了虚拟场景中跨平台、跨终端三维展示与交互能力,为国家公园数字化建设提供了行业参考。  相似文献   

11.
为了克服当前图像匹配方法主要通过测量距离的方法来实现图像匹配,忽略了图像间的相似度,导致算法存在错误匹配较多以及鲁棒性较差的问题。本文提出了基于相似度模型耦合角度制约规则的图像匹配算法。采用FAST检测方法对图像特征进行检测,快速获取鲁棒特征点,以改善算法的匹配正确率。随后,利用SURF特征描述机制,通过计算特征圆域内的Haar小波响应值,对特征点进行描述。引入结构相似度SSIM(structural similarity index measurement)模型,将其与欧氏距离模型相结合,构造相似度模型,从结构相似度与测量距离两方面出发,将特征点进行粗匹配。最后,利用特征点的余弦关系,求取特征点间角度,建立角度制约规则,对粗匹配结果完成优化。实验结果显示:与典型的匹配方法相比,该算法具有更好的匹配性能较好,在多种几何变换下仍具有理想的匹配精度。  相似文献   

12.
利用微博数据检测突发事件具有重要意义.针对以往检测方法特征不够丰富、准确率不高等问题,提出了一种基于多种特征融合的微博突发事件检测方法.该方法根据情感符号构建情感特征模型,对微博数据进行情感分类,并采用Kleinberg算法对情感特征进行突发期检测;在突发期内根据词频特征、词频增长特征和话题标签特征融合加权提取突发词,...  相似文献   

13.
对于高光谱向量非线性空间,提出了基于Hausdorff距离的地物光谱相似性测度模型,并对模型的适用性进行讨论.此外通过对试验区域由高分辨率光谱仪实地测得的地物光谱数据进行实验分析,得到各种相似性测度模型的匹配聚类结果,并对其有效性和精度进行评估.  相似文献   

14.
针对客户信用数据款项维度多、数量大、复杂性等问题,提出了一种基于相似性度量的多视角决策融合个人信用评估方法。该方法创新点在于能够细致地考虑不同信用数据的几何形状,多角度划分数据,并进行相似性匹配,此外充分运用随机森林能够进行特征提取的自洽性使得模型的准确性与稳健性同步得到了提高。在UCI数据集上的实验结果表明: 3种距离测度在进行特征提取与异常值去除后,性能均得到了大幅提升,且识别率的波动区间相对于数据预处理前显著缩小,展现了优化后的模型具有更强的稳健性;融合3种测度的决策可以多角度地综合信用信息,使得识别性能较单一测度显著优化,且与其他经典组合方法 比较性能更佳;将随机森林与距离测度相组合应用于个人信用评估领域为个人信用评估方法的多样性增添了新的经验。  相似文献   

15.
针对不同故障特征属性交互重叠导致的故障类别辨识困难问题,提出一种基于Manhattan距离作为特征之间相似度信息测度的权值判别拉普拉斯分值特征选择方法.该方法采用Manhattan距离衡量高维特征矢量之间的相似度,并将数据样本标记信息融入权值计算中以增强权值的判别性,提升了LS算法的敏感特征筛选性能.将M-WDLS和主成分分析相结合,提出基于M-WDLS和PCA的转子故障诊断方法.首先提取原始振动信号的时域、频域、时频域特征构造混合域特征集;然后利用M-WDLS选择敏感特征组成敏感特征矩阵;最后对敏感特征矩阵进行PCA降维处理,并将结果输入到K-近邻分类器中进行模式识别.对比实验的结果表明,该方法能有效提取转子系统振动信号的状态特征,有助于提高故障辨识的准确率.  相似文献   

16.
时空聚类(spatial-temporal density based spatial clustering of applications with noise,ST-DBSCAN)算法只能处理固定属性的时空数据,且其人为设定阈值的方法具有较大随机性会导致聚类结果不理想.基于ST-DBSCAN算法存在的不足,提出了一种改进的多属性时空聚类算法.改进后的新算法采用绘制时空对象距离频数柱状图来设定自适应阈值,通过引入Gower相似系数、Dice相似系数与欧几里德距离来构建多属性相似度模型,计算多个事务对象之间属性特征的相似度大小,从而将ST-DBSCAN时空聚类算法扩展到更多属性的时空数据聚类分析中.以北京市计算机行业职位招聘信息数据进行实验仿真,实验结果表明,新提出的阈值设定方法可以有效识别部分低密度簇,提高聚类的准确性和有效性;改进后的算法具有较好的普适性与包容性,能对多属性的时空数据进行很好的聚类分析.  相似文献   

17.
一种基于语义距离的高效文本聚类算法   总被引:6,自引:0,他引:6  
摘 要:提出了一种基于语义进行文本聚类的新方法。该方法从语义上具体分析文档,利用文档具体语义计算文档间的相似度,使得文档聚类结果更合理。文本聚类主要采用最近邻聚类算法,并提出第二次聚类算法改进最近邻算法对输入次序敏感的问题。类特征词的选择上根据相似度权重优胜略汰类特征词,使得最后类特征词越来越逼近类的主题。实验结果表明本文所提出的算法在聚类精度和召回率上均优于基于VSM的K-Means聚类算法。  相似文献   

18.
针对传统图像检索技术依赖图像单一视觉特征的不足,通过对图像单一特征向量的归一化处理获取图像综合特征向量,并采用加权欧氏距离进行图像相似性度量,再结合基于综合特征向量的相关反馈算法,可取得较理想的图像检索效果。  相似文献   

19.
冷泳林  张清辰  鲁富宇 《河南科学》2014,(11):2259-2262
数据采集过程中存在大量缺失数据,即不完整数据.传统方法在聚类不完整数据时采用填充或丢弃缺失数据方式实现数据的聚类.依据不完整信息系统理论提出一种基于K-means的不完整数据聚类算法,算法首先将数据集划分成完整数据集和非完整数据集两部分,对完整数据集采用K-means算法进行聚类,然后将不完整数据依据设计的相似度度量方法划分到对应的簇中,实现数据集的聚类.实验结果表明,提出的方法能够高效、精确地实现不完整数据聚类.  相似文献   

20.
针对集成多种形状特征、不同的相似度测量用于三维模型检索,提出自适应双阈值的多层次三维模型检索结构.然后将法向量分布直方图和3D Zernike矩两种特征应用于自适应双阈值的三维检索.对一个标准三维模型测试数据库的检索实验表明,采用双阈值多层次检索结构比单特征的检索准确率要高,并且这种非线性组合与固定平均权重和规则的混合特征相比,在提高检索准确率的同时,也能保证检索效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号