首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
彭大为  史惠存 《江西科学》2020,38(2):252-256
随着计算机技术的不断发展,数据处理技术不断推陈出新,特别是大数据、分布式集群、云计算技术的发展使得数字水利开始向智慧水利转变。由数字水利向智慧水利转变的重要技术之一就是对水利大数据的处理,大数据处理是实现智慧的核心技术。一个完整的大数据处理工作流程大致包括数据收集与导入、数据清洗与质量控制、数据管理与存储、数据分析与可视化、数据建模与模型管理。主要对水利自动化实时流式大数据的处理提出了一种解决方法,该方法能够实现对水利自动化设备实时上报的高频流式大数据进行有效的处理。  相似文献   

2.
针对传统协同过滤方法存在数据稀疏问题,该文提出了一种面向稀疏数据的比率相似度计算方法,该方法在相似度计算过程中仅基于用户全部的显式评分数据,并且不依赖于共同评分项。用户的未评分项目通过相似度计算结果和最近邻的评分数据进行预测,并将预测评分较高的项目推荐给用户,实现个性化推荐。实验在两个公开的数据集上进行,结果表明,在数据稀疏的情况,该方法下仍然能够实现较高的推荐精度。  相似文献   

3.
针对传统聚类算法效率低、效果差和稳定性弱等弊端,提出一种新的云计算环境下关联性大数据实时流式可控聚类算法。介绍了关联性实时流式数据的定义和特点。通过粗聚类对实时抵达的数据元组进行相应的预处理,确定类簇的数量与中心点位置,形成通过存在差异的宏簇构成的集合,粗聚类采用的算法为Canopy算法。将粗聚类得到的宏簇传至K-means算法,给出了K-means算法的详细步骤,通过K-means算法完成细聚类,介绍了整个细聚类详细步骤。实验结果表明,所提算法具有效率高、质量好、稳定性强等优势,可有效实现云计算环境下关联性实时流式大数据聚类。  相似文献   

4.
汪晔 《佳木斯大学学报》2021,39(6):137-139,166
随着互联网+时代的来临,在线教育平台推荐系统在大数据技术的帮助下,相较于传统教育有着显著的优势.针对数据稀疏性的教育平台的推荐算法,对推荐系统数据的稀疏性问题及架构进行了分析,并对基于二部图的推荐算法进行了优化,最后对基于改进二部图的推荐算法进行了测试分析.结果显示,虽然二部图优化算法稳定性尚不足,但在整体推荐效果上具有一定的优势,二部图优化算法与协同过滤算法相比,在准确率和召回率上的优势,分别要高25%和23%.  相似文献   

5.
稀疏性SVDD方法在故障检测中的应用研究   总被引:1,自引:0,他引:1  
在支持向量数据描述(SVDD)方法的基础上,通过研究原始正常数据分布在高维映射空间内的稀疏特性,选取前k个高维分布边缘的数据点进行SVDD建模,用于解决SVDD方法处理大样本数据的缺陷,以及建模与过程监视时间长的问题.经过理论推导和仿真分析,验证了稀疏性SVDD建模方法可以有效地提高建模以及过程检测速度;对于大样本数据可以利用筛选后的小样本进行建模,解决了SVDD方法不能很好地处理大样本数据分类的问题;同时,此方法不影响故障检测的精度.在TE过程中的应用验证了该方法的有效性.  相似文献   

6.
面对信息量过载的问题,为了使用户尽快的从大量的数据中找到自己需要的信息,即运用协同过滤算法解决数据稀疏性问题,本文提出了一种基于径向基函数(RBF)神经网络的解决方法.首先构建RBF神经网络并提出了一种新的确定隐层节点方法.然后利用构建的RBF神经网络预测用户评价矩阵中的空缺值,提高用户相似度计算的准确性.最后通过与经典协同过滤算法的对比实验证明所提算法的实用性,实验结果表明,基于RBF神经网络的协同过滤算法可以有效的解决用户评分数据的稀疏性问题,提高推荐的准确度.  相似文献   

7.
海量数据环境下大型ISP网络流量爆炸性增长造成网络阻塞。当前网络流量卸载方法通过预测确定待卸载网络流量,卸载准确率较低,服务质量差。为此,提出一种新的海量数据环境下大型ISP网络流量卸载方法,通过最大熵法,依据采集流量中的语义信息对流量类型进行识别。依据海量数据环境下大型ISP网络流量源节点的位置关系,通过图论法确定最佳传输路线,实现对大型ISP网络流量的卸载。依据中继节点数量与总卸载时间最少原则,通过Dijkstra方法对海量数据环境下大型ISP网络流量最佳卸载路线进行求解。实验结果表明,采用所提方法对大型ISP网络流量进行卸载,不仅流量类型识别精度高,而且卸载率高,服务质量高。  相似文献   

8.
流式数据中事件的查询及获取是研究流式数据各类操作的基础.现有流式数据系统中的事件查询只针对流中的异常数据点进行查询,而在实际情况下,流式数据中的事件多为一段连续时间的异常,包含时间、空间位置等多种信息,因此,传统的阈值查询方法无法从不同的时间及空间角度对事件进行全面分析,查询准确性极低,导致无法获取事件的全部信息.针对这些问题,本文提出一种基于多粒度Top-k查询的流式数据事件获取方法.该方法首先在监测区域内构建基于投影分区的区域监测簇;在此基础上,提出一种改进的多粒度空间Top-k查询方法对点进行查询,获取异常事件发生的空间位置信息;其次,基于事件峰谷点信息,对流式数据进行时间多粒度Top-k查询,找出异常事件的触发点和终止点,从而获得事件的完整信息.实验表明,本文提出的方法在系统资源开销、查询效率等方面均具有很大优势.  相似文献   

9.
提出了一种新的稀疏数据立方计算方法CFD(Computation by Functional Dependencies),它采用自底向上的顺序划分数据立方的各个维,同时按自顶向下的顺序计算聚集,从而充分利用了数据立方的各个group-by之间的共性。CFD和以前所有的立方计算方法不同:一是既能避免计算冰山数据立方中不满足最小支持度的grorp-by,同时也利用了聚集函数的特征来加速聚集计算;二是利用维之间的依赖关系能有效减少划分时间。实验表明,和以前的算法相比CFD的性能明显提高。  相似文献   

10.
11.
在大数据环境下,由于隐私保护、数据丢失等原因,数据普遍存在不确定性;数据流系统中数据不断地到达系统,只扫描一遍且不能一次性全部获得;所以要构建一个增量分类模型来处理不确定数据流分类.本文基于VFDT算法提出了WBVFDTu算法,该算法在学习和分类阶段都可快速而有效地分析不确定信息.在学习期间,采用Hoeffding分解定理构造决策树模型;在分类期间,在决策树的叶子节点利用加权贝叶斯分类算法提高模型的分类准确率和算法的执行效率.最终证明该算法能够非常快速地学习不确定数据流,提高分类的准确率.  相似文献   

12.
By combining multiple weak learners with concept drift in the classification of big data stream learning, the ensemble learning can achieve better generalization performance than the single learning approach. In this paper,we present an efficient classifier using the online bagging ensemble method for big data stream learning. In this classifier, we introduce an efficient online resampling mechanism on the training instances, and use a robust coding method based on error-correcting output codes. This is done in order to reduce the effects of correlations between the classifiers and increase the diversity of the ensemble. A dynamic updating model based on classification performance is adopted to reduce the unnecessary updating operations and improve the efficiency of learning.We implement a parallel version of EoBag, which runs faster than the serial version, and results indicate that the classification performance is almost the same as the serial one. Finally, we compare the performance of classification and the usage of resources with other state-of-the-art algorithms using the artificial and the actual data sets, respectively. Results show that the proposed algorithm can obtain better accuracy and more feasible usage of resources for the classification of big data stream.  相似文献   

13.
Adaptive Under-Frequency Load Shedding   总被引:1,自引:0,他引:1  
Under-frequency load shedding (UFLS) is used in the power industry to rescue systems facing extreme disturbances to avoid system collapse. Traditionally, many computations are repeated to seek the proper power system settings such that the UFLS provides the desired good performance for selected scenarios. An adaptive UFLS method based on the genetic algorithm was developed to automate the finding of optimal parameters to minimize the repetitive trial-error calculations. Simulations demonstrate that the method has better performance than previous schemes and reduces the time and effort of the repetitive simulations.  相似文献   

14.
可靠的荷载取值是建筑结构可靠性设计的基础。传统上采用入户抽样称重的方式调查建筑物活荷载,存在效率低、成本高、周期长、样本少、时效性差以及大件物品称重困难等问题。基于大数据研究思维,提出了室内持久性活荷载的新型研究方式,通过图片、音频、视频、识别码等多源异构数据,结合互联网资源,综合目标检测、图像、语音或文本识别等手段来获得建筑物室内物品的重量。在详细介绍实施方法的流程后,进一步通过案例进行研究,结果表明利用大数据技术可以实现高效、便捷的建筑物活荷载调查,构建全新的荷载研究范式。  相似文献   

15.
回顾大数据统计分析方法的现状,重点分析线性及非线性模型的分治算法, 详细阐述 3 种抽样法, 并比较 其差异,归纳总结在线更新算法和基于变量选择的在线更新算法,最后展望大数据统计分析的未来.  相似文献   

16.
考虑负荷动态的低电压切负荷   总被引:2,自引:0,他引:2  
在分析低电压切负荷机理的基础上,提出了一种新的低电压切负荷控制算法,通过考虑负荷的动态特性,能快速地算出负荷的切除量,将系统稳定在指定的电压上,当电压失稳时,能有效地得出使系统电压保持稳定的负荷切除量,同时分析了负荷的切除量,切除时间同动态负荷参数的关系,及切除时间对控制效果的影响。  相似文献   

17.
低频减载被认为是当电力系统发生频率严重下降事故时所能采取的最后一项补救措施.针对配电系统中的低频减载问题,文中提出了计及分布式电源和负荷静态特性的最优低频减载策略.该策略以频率及频率变化率为执行依据,并由几个基本轮和一个特殊轮组成.在基本轮中,按反馈控制律分轮次快速切除负荷,以保证频率摆脱紧急状态.而在特殊轮中,则优化...  相似文献   

18.
作为大数据的重要组成,产生于传感器、移动电话设备、社交网络等的不确定流数据因其具有流速可变、规模宏大、单遍扫描及不确定性等特点,传统聚类算法不能满足用户高效实时的查询要求.首先利用MBR(minimum bounding rectangle)描述不确定元组的分布特性,并提出一种基于期望距离的不确定数据流聚类算法,计算期望距离范围的上下界剪枝距离较远的簇以减少计算量;其次针对簇内元组的分布特征提出了簇MBR的概念,提出一种基于空间位置关系的聚类算法,根据不确定元组MBR和簇MBR的空间位置关系排除距离不确定元组较远的簇,从而提高聚类算法效率;最后在合成数据集和真实数据集进行实验,结果验证了所提出算法的有效性和高效性.  相似文献   

19.
在临床重症病人的连续观测中,医疗设备及其上的传感器会产生数量庞大的流式数据,传统的数据库管理方式无法适应这一不确定性强、实时处理要求高的数据流.本文提出一个适合医疗设备数据处理的数据流模型,并分析其系统结构、查询计划、查询语言以及网络适应性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号