首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对常用的文本数据挖掘系统在处理海量文本数据时时间效率较低的问题,论文提出了一种基于改进Hadoop云平台的海量文本数据挖掘方法.该方法首先将传统Hadoop云平台进行改进以适应海量文本数据挖掘的需要,然后将海量文本数据集和挖掘任务分解到该改进平台上的多台计算机上并行处理,从而实现了一个基于改进Hadoop云平台的海量文本数据挖掘平台,并通过对10 000篇新闻材料组成的实验数据集进行挖掘验证了该平台的有效性和高效性.  相似文献   

2.
针对大数据时代如何存储、处理、分析、利用海量的电子数据,以及传统数据中心向云数据中心转型进程中大量服务器被闲置的问题,对Hadoop家族中的关键技术HDFS、Map Reduce、Mahout进行深入研究,并在此基础上提出了基于云平台的Hadoop集群应用研究方案。方案包括Hadoop集群拓扑结构、开发运行环境部署流程及基于Hadoop集群的Mahout中贝叶斯分类算法的实现。实验作为整合数据中心资源进行规模部署Hadoop集群的研究基础,证明了Hadoop集群的可用性及其在数据分析方面良好的适应性。  相似文献   

3.
针对聚类算法并行化的需求,该文对基于Hadoop平台Kmeans算法进行了改进,选用Canopy算法对数据进行预处理,并在具有一定数据结构的电影数据集上进行了单机对比实验,集群加速比实验和集群扩展率实验,分别体现改进后算法实现的高效性、良好的加速比和可扩展性,从而可以有效地运用在实际海量数据挖掘中.  相似文献   

4.
本文主要研究基于Hadoop的数据存储平台在分布式能源接入监测数据存储上的应用。首先介绍了分布式能源接入状态监测数据的特征,分析出当前数据集成面临的问题,接着介绍了Hadoop平台,主要介绍了HDFS和Map Reduce的基本原理,然后介绍了传统关系型数据库和HDFS之间数据传输工具Sqoop的原理和使用情景。接着结合分布式能源接入状态监测数据的特征和Hadoop数据处理平台的优点设计出数据集成平台的基础架构,最后提出了几点不足和未来可以改进的方向。  相似文献   

5.
随着信息技术的不断发展,信息化建设已成为建设智慧城市和提高政务服务水平的必要工作。建设基于CloudStack的私有云平台,可以有效地将政务服务应用快速部署到云平台,充分挖掘信息的价值,实现信息共享,提升政府管理能力、工作效率和公共服务水平。本文设计了一个私有云平台,目的是实现快速部署和运维私有云计算平台。该平台可对数据中心的硬件设备与动力环境进行统一管理与监控,将空间信息与监控数据完美融合,使数据中心管理更加直观便捷。  相似文献   

6.
针对海量Web文本的关键词提取问题,提出一种基于Hadoop分布式计算平台的关键词提取方案.首先,配置Hadoop平台,使其能够支持自然语言处理过程;然后,使用GATE工具对Web文本进行词句分割、词性标注和注释规则操作,得到候选关键词集;最后,利用单词位置和跨度重要性因子对传统TF-IDF算法进行加权,从而计算候选关键词与文档之间的相关性,最终获得该文档的关键词以标注文档属性.实验结果表明,提出的分布式关键词提取方案能够快速准确地提取Web文档的关键词.  相似文献   

7.
数字图像自嵌入与恢复是在图像中嵌入与自身相关的信息,用于接收端判断图像是否被篡改并恢复被篡改区域的内容. 提出一种基于显著性分类的数字图像自嵌入方法,根据图像自身的特点对图像进行分类,动态决定每个区域的参考数据量和嵌入容量,采用喷泉码对参考数据进行编码,并将其嵌入到原图像的不同区域中. 与传统方法相比,所提出的方法主要有以下两点优势:在生成参考数据方面,所提出的方法可根据内容分类确定编码长度,在保证整体恢复质量的同时,能重点保护显著性区域;在数据嵌入方面,选择在不同区域中嵌入不等的数据量,可避免传统均匀嵌入法导致图像伪轮廓等缺陷,保证含密图像具有良好的质量.  相似文献   

8.
噪声驱动生成对抗网络(generative adversarial network, GAN)的生成器能生成高质量数字图像,为信息隐藏提供了新的数据载体.利用正交GAN的判别器能提取生成图像特征码的特性,提出了一种基于秘密信息驱动的正交GAN无载体信息隐藏模型.信息隐藏时,将待隐藏信息的二进制序列按分组量化规则映射为噪声向量,由该噪声向量驱动正交GAN的生成器生成含密数字图像.在信息提取时,首先利用正交GAN的判别器提取含密图像的特征码,然后利用U型网络实现从特征码到驱动噪声的映射,进而恢复秘密信息.在CelebA人脸数据集上对搭建的无载体信息隐藏模型进行对抗学习,生成器能够生成高质量的含密图像,判别器与U型网络相结合能从含密图像中提取秘密信息.与最新同类算法相比,在信息隐藏容量相同的条件下,模型具有较好的信息提取准确率、安全性等性能,同时减少了训练开销,提高了算法的实用性.  相似文献   

9.
社交媒体和云平台为图像的传播和存储带来了便利,但同时也引起了人们对于图像隐私的担忧。因此,需要采取一定的措施去保护图像的隐私,以防止隐私被窃取和非法使用。基于上述目标,本文提出了基于循环对抗网络(cycle-consistent generative adversarial networks, CycleGAN)的图像隐私保护。为了在图像隐私保护中兼顾可用性,该方法先用图像分割和CycleGAN组合,选择出不同的分割系数来辅助生成不同程度的隐私保护图像。然后利用可逆信息隐藏对生成的隐私保护图像进行信息的嵌入,从而阻止非法使用者在图像重构中提取隐私信息,进而保证了整个过程图像隐私保护和可用性的平衡。本文用PIPA数据集对该方法进行训练和测试,采用峰值信噪比和结构相似性指数作为客观指标对隐私保护的图像进行评估。实验结果表明,本方案在图像隐私保护和可用性两方面都优于其他对比方案。  相似文献   

10.
结合图像的形状特征、纹理特征和颜色特征,提出一种面向制造过程的海量图像高效检索算法.算法利用傅立叶描述子法和二维形状分布法描述图像的形状特征,利用灰度共生矩阵描述图像的纹理特征,利用颜色直方图表达图像的颜色特征.在得到图像的形状特征、纹理特征和颜色特征后,分别采用欧式距离、马氏距离和夹角余弦距离计算这三种特征的相似度,最后对三种特征的相似度进行综合,得到图像的整体相似度,实现多特征的联合检索.仿真结果表明,本算法应用于不同类型和格式的海量数字图像,具有较高的检索精度和较快的检索速度.  相似文献   

11.
在电子商务中的信息流、物流和资金流三大平台中,每天将产生海量的大数据,而电子商务信息系统最核心的能力是对大数据进行处理、分析和挖掘。本文重点介绍电子商务大数据分析的指标体系。通过电子商务大数据分析的指标体系的研究,可以使大数据驱动电子商务运营精细化,提升运营效果和业绩。  相似文献   

12.
基于云计算的农业信息管理系统设计   总被引:1,自引:0,他引:1  
在已有的地理信息系统技术和相关学科的支持下,提出了基于云计算技术,结合3S集成、GIS资源监控、GIS自动化部署、云安全等多种现代化技术的农业信息管理系统.在该系统中,通过信息采集模块,利用传感器获取到各种气象和环境等方面信息,再通过云数据库将所获得信息进行整合,并对海量数据加以分析,将对作物不利的环境和气象信息进行提取,并提供给有需求的用户.使用户更便捷高效地进行农业生产管理,从而从更专业的层面来满足不同应用人群的需求,为构建下一代农业信息管理平台打下基础,给现代化农业发展提供决策和技术支持.  相似文献   

13.
针对最低有效位水印算法嵌入保真度较差、鲁棒性不高的问题,提出了一种全比特位(All Bits,AB)嵌入的空域数字图像水印算法,分别采用直线方式和三角函数方式将信息嵌入到视觉容易忽略的图像边缘区域。此算法不仅可以把水印嵌入到载体图像的低四位位平面,而且可以嵌入到高位位平面。在数字图像水印嵌入和提取的实验中,分别从主观视觉效果、客观参数(均方差、信噪比和峰值信噪比)的计算和对图像进行攻击等方面,证明这种AB空域数字水印算法具有更强的保真度和鲁棒性。  相似文献   

14.
当前云平台下加密域图像检索存在特定加密算法而不能满足不同应用需求,并且需依靠底层图像特征进行检索,从而导致精度较低,为此提出了一种结合正交分解和视觉词袋模型(BoVW)的图像安全检索方法.引入正交分解框架,将图像数据域分为加密域和检索域,使得加密操作和特征提取操作相互独立,避免加密和特征提取操作相互影响.在加密域用户可以根据需要选择合适的加密方法;在检索域引入视觉词袋模型框架,将图像表示为视觉单词直方图,降低底层特征与高层语义之间存在的语义鸿沟,提高检索精度.实验结果显示,与当前加密域图像检索技术相比,该方法具有更高的安全性和检索精准度,能在云环境下更好地保护图像数据的隐私,且实用性较好.  相似文献   

15.
朱学军 《河南科技》2022,(19):18-21
信息化技术在农村公路管理中发挥着重要作用。笔者以北京市农村公路为研究对象,对农村公路信息化平台建设展开研究。本研究先介绍北京市农村公路的基本情况,提出信息化建设需求,并对农村公路信息化平台进行设计与实现。研究结果表明,当前农村公路管理在信息云交互、信息云储存、信息云管理等方面存在需求,且农村公路信息化平台可实现基础数据管理、工程建设及维护管理、监管以及查询等功能,能有效提高农村公路管理的信息化水平。  相似文献   

16.
现代学徒制是构建"工坊工匠"人才培养体系的基础,而企业、学校与培养对象是这种产教融合体系的重要组成部分。本文设计了一种基于Hadoop大数据平台的高校智慧"工坊工匠"人才培养信息服务平台,用于管理、发布、分析各类工坊数据信息。该方案将所有教学活动都纳入隐式和显式的数据驱动之中,实现工坊信息发布服务、学生信息服务、课程信息服务、项目信息管理、企业信息服务、就业服务管理、工坊综合评价体系管理等,为完善"工坊工匠"人才培养体系提供信息服务与支撑。  相似文献   

17.
为解决受限玻尔兹曼机(restricted Boltzman machine,RBM)理论对高分辨率图像分类的时间复杂度高的问题,提出了一种基于双向二维主成分分析(two-way 2-dimension principal component analysis,(2D)~2PCA)的RBM图像分类算法.该算法首先应用(2D)~2PCA对待处理图像在X和Z两个方向上进行降维处理,从而提取出图像的主成分,将主成分作为RBM网络可见层的输入数据,应用对比散度算法训练构建玻尔兹曼机网络,达到对图像进行分类的目的.该算法有效解决了RBM处理高分辨率图像时网络训练速度慢,甚至整个网络训练状态无法收敛的问题.通过在Hadoop并行数据处理平台的实验表明:该算法不仅能有效提高处理高分辨率图像的速度,而且具备良好的并行性,在具有4台处理机的并行集群下,其加速比达到了3.13.  相似文献   

18.
【目的】提高使用冰川遥感数据进行程序化建模的模型精度,降低因遥感图像RGB色域较窄导致空间矩阵边缘干扰。【方法】提出基于图像熵算法构建90 m的DEM高精度三维模型法。首先,对遥感图像进行灰阶处理,将RGB信息转化为满足图像熵计算的灰度信息;其次,设定特定规格的判定网格,应用HALCON平台来计算各网格的熵值,匹配高程噪波;最后,采用视差融合进行程序化建模。在建模过程中应用高程噪波补偿点云来构建模型细节。【结果】由仿真结果可知,在10 m×10 m高程判断网格下,图像熵能正确反映出高程噪波。【结论】该方法能有效提升冰川遥感图像程序化建模的精度,但要注意的是网格边缘熵值容易突变,从而影响高程噪波的正确性。  相似文献   

19.
随着Internet网络的高速发展,海量的未标签文档和相对少量的已标签文档是当前Web文档的一个普遍情形,如何有效的利用少量的已标签文档去聚类海量的未标签文档,从而更好地获取有价值的信息,即半监督学习问题,已成为当前研究的热点.本文针对目前Web文本挖掘领域的无监督学习算法的检测率不高,而监督学习算法需要大量的标签数据又不易获得的问题,将半监督中的标签绑定技术与优化球形k-均值聚类算法相结合进行Web文本挖掘,并使用真实的测试数据对Web文本挖掘系统进行实验.结果表明本文方法对有价值文本具有较高检测率及较低的误报率,整体检测性能优于基于监督和无监督学习的Web文本挖掘算法.  相似文献   

20.
针对利用点云数据检测航空发动机叶片缺陷显示及提取困难的问题,提出一种基于平面拟合和坐标变换的叶片截面灰度图像生成方法。首先对超声扫查的截面点云数据通过平面拟合,得到点云拟合平面的法向量;接着通过空间坐标变换,使得点云数据在投影面不发生重叠和累积;然后将变换后的点云数据进行平面投影与网格划分;最后对网格中的数据进行几何分析得到截面的灰度图像,并进行了实验。结果表明,通过空间坐标变换后形成的点云截面图像比采用原始点云数据直接获得的截面图像更加清晰,明确地体现出叶片截面的缺陷和扫查轮廓,更加方便三维显示和观察以及自动化缺陷识别。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号