共查询到20条相似文献,搜索用时 31 毫秒
1.
《湖南师范大学自然科学学报》2016,(3)
针对常用的文本数据挖掘系统在处理海量文本数据时时间效率较低的问题,论文提出了一种基于改进Hadoop云平台的海量文本数据挖掘方法.该方法首先将传统Hadoop云平台进行改进以适应海量文本数据挖掘的需要,然后将海量文本数据集和挖掘任务分解到该改进平台上的多台计算机上并行处理,从而实现了一个基于改进Hadoop云平台的海量文本数据挖掘平台,并通过对10 000篇新闻材料组成的实验数据集进行挖掘验证了该平台的有效性和高效性. 相似文献
2.
经过数十年的发展,数据挖掘领域产生了众多的算法和挖掘系统.挖掘系统作为研究的有形成果,在展示数据挖掘技术的威力、利用数据挖掘技术产生经济效益方而起着至关重要的作用.目前,各大软件厂商及研究单位都忙着推出了各自的数据挖掘系统.有的作为商业产品,功能强大,集成了数量众多的挖掘算法;有的作为科研试验软件,仅集成了一两个新颖的算法,功能有限.绝大部分的数据挖掘系统采用C/S的两层结构,用户需要安装庞大客户端,使得安装和维护都十分不方便. 相似文献
3.
韩成勇 《哈尔滨师范大学自然科学学报》2013,(4):51-54
ID3算法在分类数据挖掘中应用广泛,但其在对大规模训练样本集进行挖掘时,占用主存空间较大,且执行效率不高.运用属性约简和分组计数方法对训练样本集进行数据缩减,得到数据规模较小的新训练样本集,然后再运用ID3算法对新训练样本集进行分类挖掘.整个执行过程全部使用现代数据库技术和存储过程编程加以实现.实验表明,通过改进设计提高了ID3算法的执行效率,增强了算法的扩展性. 相似文献
4.
<正>经过数十年的发展,数据挖掘领域产生了众多的算法和挖掘系统。挖掘系统作为研究的有形成果,在展示数据挖掘技术的威力、利用数据挖掘技术产生经济效益方面起着至关重要的作用。目前,各大软件厂商及研究单位都忙着推出了各自的数据挖掘系统。有的作为商业产品,功能强大,集成了数量众多的挖掘算法;有的作为科研试验软件,仅集成了一两个新颖的算 相似文献
5.
关联规则挖掘可以发现大量数据中项集之间相关联系的知识,隐私保护是当前数据挖掘领域中一个十分重要的研究问题,其目标是要在不精确访问真实原始数据的条件下,得到准确的模型和分析结果.提出了关联规则挖掘形式化定义以及它的基本算法,从关联规则挖掘角度对当前流行的隐私保护关联规则挖掘算法进行了深入浅出的分析和介绍,最后系统回顾了目前人们在数据挖掘领域中对隐私保护关联规则研究的现状,阐述了隐私保护在未来数据挖掘中的发展方向. 相似文献
6.
在Fp-growth算法的基础上,提出了一种新颖的关联规则挖掘算法.该算法将大型数据库分解成频繁1-项集的项总数个子集,然后对分解得到的各个数据库子集用Fp-growth算法进行约束项数据挖掘,待所有数据库子集的约束项数据挖掘进行完毕后,再合并这些约束频繁项得到大型数据库的频繁项集.实验结果表明新算法所采用的数据库划分策略克服了FP-growth算法对大型数据库进行挖掘时,占用内存大,运行速度慢的不足,是一种适合于大型数据库的关联规则挖掘算法. 相似文献
7.
针对传统闭频繁项集(CFI)挖掘方法耗时长、效率低的问题,提出一种基于数据变换与并行运算(DTPC)的新型挖掘方法:设计基于质数对数运算的数据变换方法,将大量数据转换成简单的数字;利用Spark并行框架中的平方/开方运算将这些数字转换成频繁项集.3 000万篇文章的大数据集实验结果表明,提出的DTPC算法可以大幅度提升数据挖掘效率,同时减少计算资源的不必要浪费. 相似文献
8.
关联规则是数据挖掘中的重要研究内容之一,国内现有的关联规则算法大多是研究挖掘数据库不变的限定条件下,发现挖掘数据的各属性间的所有关联型知识.而事实上大多数挖掘数据会随时间的变化不断变化.针对数据库中追加数据时,如何有效地更新关联规则的问题,提出了一种新算法———IUAMAR算法.该算法可以有效地利用知识数据库中保留的最小非高频繁项目集产生新的候选项目集,避免了候选项目集的数量太庞大的问题. 相似文献
9.
中医肾病治疗信息中关联规则的挖掘算法 总被引:9,自引:0,他引:9
数据挖掘是数据库研究领域的一个热门话题,数据挖掘和中医药相结合,将会为中医药治疗数据的深入研究提供一个热门研究方向与挑战。讨论了中医药方剂规律挖掘技术所涉及到的问题,提出了一种肾病中医治疗信息的关联规则挖掘算法,实验结果证明算法是实用而有效的。 相似文献
10.
11.
针对聚类算法并行化的需求,该文对基于Hadoop平台Kmeans算法进行了改进,选用Canopy算法对数据进行预处理,并在具有一定数据结构的电影数据集上进行了单机对比实验,集群加速比实验和集群扩展率实验,分别体现改进后算法实现的高效性、良好的加速比和可扩展性,从而可以有效地运用在实际海量数据挖掘中. 相似文献
12.
数据聚类是将数据对象划分到不同的类或簇中,是数据挖掘中的一项重要技术.教育领域拥有海量的学生信息数据,把数据挖掘中的聚类技术引入其中,具有很强的实际价值.阐述了运用数据挖掘中改进的引入权重的聚类技术对成绩数据进行选择、预处理和挖掘分析等,展示了3个Matlab实验使成绩数据如何通过K-means算法进行聚类分析,并对3种运行结果的意义各自进行了显示与分析,同时指出了运行结果的不足及意义.针对学生实验中的分类原因进行了研究并在学生成绩分析中发现很多隐含着的不易发现的有价值信息,利用这些聚类结果提出了相应的教学措施及建议,从而有针对性地提高教学质量. 相似文献
13.
随着计算机和网络在人们工作和生活中的广泛普及,图片数据也成几何倍地急剧膨胀。面对日益增多的海量图像数据,如何进行有效的存储及图像信息数据的快速挖掘,是目前需要解决的主要问题。本文借助云平台Hadoop的分布式文件系统(HDFS)和分布式并行计算框架(MapReduce),进行海量数字图像的数据挖掘。构建基于Hadoop云平台的海量数字图像数据挖掘系统,实现海量数字图像信息数据挖掘。 相似文献
14.
一种文本分类数据挖掘的技术 总被引:7,自引:0,他引:7
挖掘的理论和应用研究是数据挖掘领域一个新的重要分支,介绍了一种文本数据挖掘方法. 首先,论述了文本挖掘的意义和重要性,探讨了文本挖掘的定义和文本分类的一些形式,然后讨论了一个以数据预处理、特征提取、特征表示和特征匹配等文本分类的一些关键理论问题,并给出了一个基于该方法的文本分类系统的实验结果,实验结果表明了该方法的可行性. 相似文献
15.
16.
随着数据挖掘新规则或新模式的不断出现,原有的模式已变得不适用,此时需要更新数据仓库,重新处理旧数据,以重新建立挖掘模型.为了充分利用数据挖掘中已经得到的挖掘模型,尽量只对新数据进行处理,以提高挖掘模型更新的效率. 相似文献
17.
18.
一、引言
当前,各相关学科的飞速发展,使得对计算机速度、系统可靠性和成本实效性的要求提高,这必将促使发展另外的计算机模型来取代传统结构的计算机.另外,随着计算机网络的出现以及实际应用中的要求,数据挖掘系统必须具有更好的可扩展性.分布式数据挖掘算法正是在这一背景下产生的,它是数据挖掘技术与分布式计算的有机结合. 相似文献
19.