共查询到20条相似文献,搜索用时 31 毫秒
1.
随着计算机和网络在人们工作和生活中的广泛普及,图片数据也成几何倍地急剧膨胀。面对日益增多的海量图像数据,如何进行有效的存储及图像信息数据的快速挖掘,是目前需要解决的主要问题。本文借助云平台Hadoop的分布式文件系统(HDFS)和分布式并行计算框架(MapReduce),进行海量数字图像的数据挖掘。构建基于Hadoop云平台的海量数字图像数据挖掘系统,实现海量数字图像信息数据挖掘。 相似文献
2.
针对聚类算法并行化的需求,该文对基于Hadoop平台Kmeans算法进行了改进,选用Canopy算法对数据进行预处理,并在具有一定数据结构的电影数据集上进行了单机对比实验,集群加速比实验和集群扩展率实验,分别体现改进后算法实现的高效性、良好的加速比和可扩展性,从而可以有效地运用在实际海量数据挖掘中. 相似文献
3.
针对海量Web文本的关键词提取问题,提出一种基于Hadoop分布式计算平台的关键词提取方案.首先,配置Hadoop平台,使其能够支持自然语言处理过程;然后,使用GATE工具对Web文本进行词句分割、词性标注和注释规则操作,得到候选关键词集;最后,利用单词位置和跨度重要性因子对传统TF-IDF算法进行加权,从而计算候选关键词与文档之间的相关性,最终获得该文档的关键词以标注文档属性.实验结果表明,提出的分布式关键词提取方案能够快速准确地提取Web文档的关键词. 相似文献
4.
5.
一种文本分类数据挖掘的技术 总被引:7,自引:0,他引:7
挖掘的理论和应用研究是数据挖掘领域一个新的重要分支,介绍了一种文本数据挖掘方法. 首先,论述了文本挖掘的意义和重要性,探讨了文本挖掘的定义和文本分类的一些形式,然后讨论了一个以数据预处理、特征提取、特征表示和特征匹配等文本分类的一些关键理论问题,并给出了一个基于该方法的文本分类系统的实验结果,实验结果表明了该方法的可行性. 相似文献
6.
随着Internet网络的高速发展,海量的未标签文档和相对少量的已标签文档是当前Web文档的一个普遍情形,如何有效的利用少量的已标签文档去聚类海量的未标签文档,从而更好地获取有价值的信息,即半监督学习问题,已成为当前研究的热点.本文针对目前Web文本挖掘领域的无监督学习算法的检测率不高,而监督学习算法需要大量的标签数据又不易获得的问题,将半监督中的标签绑定技术与优化球形k-均值聚类算法相结合进行Web文本挖掘,并使用真实的测试数据对Web文本挖掘系统进行实验.结果表明本文方法对有价值文本具有较高检测率及较低的误报率,整体检测性能优于基于监督和无监督学习的Web文本挖掘算法. 相似文献
7.
韩成勇 《哈尔滨师范大学自然科学学报》2013,(4):51-54
ID3算法在分类数据挖掘中应用广泛,但其在对大规模训练样本集进行挖掘时,占用主存空间较大,且执行效率不高.运用属性约简和分组计数方法对训练样本集进行数据缩减,得到数据规模较小的新训练样本集,然后再运用ID3算法对新训练样本集进行分类挖掘.整个执行过程全部使用现代数据库技术和存储过程编程加以实现.实验表明,通过改进设计提高了ID3算法的执行效率,增强了算法的扩展性. 相似文献
8.
9.
《哈尔滨师范大学自然科学学报》2017,(1)
实际应用、大数据、挖掘算法和处理平台4个要素的紧密结合构成了大数据挖掘的核心.根据大数据的特征,分析相关案例,指出实际应用的真实需求才是大数据挖掘的目标.大数据挖掘的价值体现必须结合应用数据和与应用匹配的算法,在数据处理平台的支持下,将挖掘到的知识或模型去指导实践. 相似文献
10.
数据聚类是将数据对象划分到不同的类或簇中,是数据挖掘中的一项重要技术.教育领域拥有海量的学生信息数据,把数据挖掘中的聚类技术引入其中,具有很强的实际价值.阐述了运用数据挖掘中改进的引入权重的聚类技术对成绩数据进行选择、预处理和挖掘分析等,展示了3个Matlab实验使成绩数据如何通过K-means算法进行聚类分析,并对3种运行结果的意义各自进行了显示与分析,同时指出了运行结果的不足及意义.针对学生实验中的分类原因进行了研究并在学生成绩分析中发现很多隐含着的不易发现的有价值信息,利用这些聚类结果提出了相应的教学措施及建议,从而有针对性地提高教学质量. 相似文献
11.
针对传统闭频繁项集(CFI)挖掘方法耗时长、效率低的问题,提出一种基于数据变换与并行运算(DTPC)的新型挖掘方法:设计基于质数对数运算的数据变换方法,将大量数据转换成简单的数字;利用Spark并行框架中的平方/开方运算将这些数字转换成频繁项集.3 000万篇文章的大数据集实验结果表明,提出的DTPC算法可以大幅度提升数据挖掘效率,同时减少计算资源的不必要浪费. 相似文献
12.
《哈尔滨师范大学自然科学学报》2017,(5)
针对传统关联规则Apriori算法在挖掘关联规则时需多次扫描事务数据库,增加系统I/O、通信的开销等性能问题,进行了算法的改进,改进后的算法D_Apriori通过去除候选集并结合布尔矩阵方式来压缩存储事务数据,从而减少事务数据库的扫描次数,并借助Hadoop平台的MapReduce并行编程模式,实现D_Apriori算法并行化,简化了生成候选项的连接步骤,同时在计算的过程中对事务进行压缩,提高了运算速度,改善了算法的性能,最后通过实验进行对比分析表明改进后的并行算法能较好地降低挖掘频繁项集时的I/O和通信开销,具有高效性与良好的加速比. 相似文献
13.
14.
15.
16.
关联规则是数据挖掘中的重要研究内容之一,国内现有的关联规则算法大多是研究挖掘数据库不变的限定条件下,发现挖掘数据的各属性间的所有关联型知识.而事实上大多数挖掘数据会随时间的变化不断变化.针对数据库中追加数据时,如何有效地更新关联规则的问题,提出了一种新算法———IUAMAR算法.该算法可以有效地利用知识数据库中保留的最小非高频繁项目集产生新的候选项目集,避免了候选项目集的数量太庞大的问题. 相似文献
17.
基于粗集理论不完备数据的改进算法 总被引:1,自引:0,他引:1
由于经典的粗糙集理论不能处理原始数据中的遗漏信息,需要对这些数据进行补齐才能用于知识获取.因此数据预处理在粗糙集理论应用中非常重要的一环,其结果将直接影响到粗糙集理论应用的效率、准确度.所以有关基于粗集理论的数据挖掘中数据预处理的方法研究具有非常重要的意义.本文分析了当前主要数据补齐算法的特点和不足,并针对已有的基于粗糙集理论的不完备系统补齐算法ROUSTIDA的缺陷,提出了改进的数据补齐算法,使更多的缺损数据得到填补,尽量避免可能导致的决策规则矛盾问题. 相似文献
18.
为了获得流格式数据集的规则挖掘以及降低挖掘过程中的计算开销,提出一种基于动态模糊频繁模式的数据挖掘方法 .首先,确定一种滑动窗口区分新旧事务,以处理连续产生的数据流;然后构建动态模糊频繁模式树(DFFMT),随着滑动窗口的变化,给每个删除的旧窗格添加相应算法,且插入新窗格;最后,当DFFMT构建完成之后,根据当前窗口推理模糊关联规则.两个公开数据集的实验验证了提出方法的有效性.与其他同类方法相比,提出的方法只需要检索数据库一次,可以处理大量的流格式数据集.同时,运行复杂度和存储复杂度表现也较优. 相似文献
19.
关联规则挖掘可以发现大量数据中项集之间相关联系的知识,隐私保护是当前数据挖掘领域中一个十分重要的研究问题,其目标是要在不精确访问真实原始数据的条件下,得到准确的模型和分析结果.提出了关联规则挖掘形式化定义以及它的基本算法,从关联规则挖掘角度对当前流行的隐私保护关联规则挖掘算法进行了深入浅出的分析和介绍,最后系统回顾了目前人们在数据挖掘领域中对隐私保护关联规则研究的现状,阐述了隐私保护在未来数据挖掘中的发展方向. 相似文献
20.
信息量的急剧膨胀向数据库工作者提出了挑战.如何有效地管理这些海量数据是学术界和工业界面临的一个重要问题.将数据压缩技术与海量数据仓库有机结合,提出了基于压缩的属性划分存储结构.不仅可以支持压缩数据上的直接操作,而且利用维属性上的布尔运算提高了OLAP操作的性能,减少了计算量.理论分析结果表明,该数据压缩方法可以获得很高的数据压缩比. 相似文献