共查询到19条相似文献,搜索用时 125 毫秒
1.
2.
《湖南师范大学自然科学学报》2016,(3)
针对常用的文本数据挖掘系统在处理海量文本数据时时间效率较低的问题,论文提出了一种基于改进Hadoop云平台的海量文本数据挖掘方法.该方法首先将传统Hadoop云平台进行改进以适应海量文本数据挖掘的需要,然后将海量文本数据集和挖掘任务分解到该改进平台上的多台计算机上并行处理,从而实现了一个基于改进Hadoop云平台的海量文本数据挖掘平台,并通过对10 000篇新闻材料组成的实验数据集进行挖掘验证了该平台的有效性和高效性. 相似文献
3.
4.
为了更好地保留数据之间的同质性,提出了一种整合鲁棒结构化非负矩阵分解(integrated robust structured non-negative matrix factorization, iRSNMF)模型,并在该模型中引入一个结构化项.将该模型用于癌症样本聚类实验和基因共表达网络分析,以验证其有效性.根据现有文献对相关基因和通路进行生物学解释.实验结果表明,iRSNMF模型聚类性能较好并且能够挖掘到的关键基因更多.用iRSNMF模型获得的基因和通路在癌症的发病机制中起着重要作用,并为癌症诊断、治疗和预后提供了新的思路. 相似文献
5.
随着计算机和网络在人们工作和生活中的广泛普及,图片数据也成几何倍地急剧膨胀。面对日益增多的海量图像数据,如何进行有效的存储及图像信息数据的快速挖掘,是目前需要解决的主要问题。本文借助云平台Hadoop的分布式文件系统(HDFS)和分布式并行计算框架(MapReduce),进行海量数字图像的数据挖掘。构建基于Hadoop云平台的海量数字图像数据挖掘系统,实现海量数字图像信息数据挖掘。 相似文献
6.
为了汇总、归类和整合网络上杂乱无章的职位信息,设计基于Python的职位画像系统,该系统将招聘网站的招聘页面进行划分.利用Python使用Encode、Xpath和正则表达式的爬取规则设计网页爬取器,获得职位信息.利用My SQL数据库存储爬取的数据,并进行数据清洗及分析,使用Flask和Echarts实现数据可视化.该系统通过图表直观展现职位画像,帮助用户了解目前各个领域职位的需求情况,为用户提供参考,同时从各个维度搭建职位检索功能.测试结果表明,该系统具有高效的爬取效率. 相似文献
7.
8.
陈显龙 《湘潭大学自然科学学报》2017,(3):107-110
针对目标用户所感兴趣的图书具体特征,开发了一种基于意见挖掘技术结合图分类器的图书推荐系统.首先,基于图的分类器技术对图书条目进行分类;然后,挖掘出图书条目的评价信息,并根据评价内容判定评价的正反面;最后,结合两组技术实现图书的个性化推荐.通过实际案例的数据进行计算,以精确率和召回率评价依据进行综合评价,结果证明了提出的推荐系统的可行性和实用性. 相似文献
9.
为全面了解汉氏葡糖醋杆菌(Komagataeibacter hansenii,K.hansenii)HDM1-3的发酵特性,为提高纤维素产量提供基因组信息,对其基因组数据进行测序分析。采用PacBio RSⅡ平台对该菌株进行全基因组测序,基因组由1个3 659 612 bp染色体和2个质粒组成,编码3 820个蛋白质,含有7个纤维素合成酶基因。基于16S rRNA的系统发育分析表明了K.hansenii HDM1-3相对于醋酸杆菌科菌株的进化地位。在基因组中,共注释到碳水化合物活性酶88个。通过KEGG注释到代谢通路相关基因共3 132个,其中碳水化合物代谢相关基因287个。通过基因组测序获得了K.hansenii HDM1-3完整的基因组信息,为改造该菌株提供了基因组学基础。 相似文献
10.
11.
一种文本分类数据挖掘的技术 总被引:7,自引:0,他引:7
挖掘的理论和应用研究是数据挖掘领域一个新的重要分支,介绍了一种文本数据挖掘方法. 首先,论述了文本挖掘的意义和重要性,探讨了文本挖掘的定义和文本分类的一些形式,然后讨论了一个以数据预处理、特征提取、特征表示和特征匹配等文本分类的一些关键理论问题,并给出了一个基于该方法的文本分类系统的实验结果,实验结果表明了该方法的可行性. 相似文献
12.
在数据采掘中,运用传统的粗略集模型能对完整的数据库进行所需的规则抽取。在此基础上研究了广义粗略集模型对不完整数据库的数据采掘问题。 相似文献
13.
Web文本分类是Web数据挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,本文提出一种综合粗糙集与支持向量机的Web文本分类模型,利用粗糙集的属性约简方法,减少支持向量机训练数据的维数,提高Web文本分类的性能与效率. 相似文献
14.
15.
分类算法是数据挖掘中的最重要的技术之一.通过对当前提出的最新的具有代表性的分类算法,从预测精度、学习效率、健壮性等方面进行深入的分析和比较,总结每类算法的各方面特性,从而便于研究者对已有的算法进行改进,提出具有更好性能的新的分类算法,同时方便使用者在应用时对算法的选择和使用. 相似文献
16.
分类算法是数据挖掘、机器学习和模式识别中一个重要的研究领域.单一的分类算法一般会得到不同的分类结果,多分类器融合算法可以将各分类器的结果进行集成来提高系统的分类性能.该文提出一种多分类器融合算法进行分类分析,结果证明该算法在解决目标分类中具有优越性. 相似文献
17.
18.
19.
基于相似性的数据挖掘模型,主要是用于发现分布式资源之间的相似性,利用相似性,融合分布式数据库,减小数据挖掘的规模.本文主要介绍以关联规则中最大频繁项集为基础的一个相似性的度量方法,并根据对得到的相似性值的判断,来决定数据挖掘的数据源的引用规模. 相似文献