首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
为解决基于密度的聚类算法处理大规模数据集效率低和存储开销大的问题, 提出一种分片的基于K邻近关系的空间均匀抽样算法作为聚类应用的数据预处理过程, 将数据集分片,按密度降序方式去除数据集中部分样本的K邻居, 将剩余样本作为抽样样本, 在保证精度的同时, 可以降低数据规模, 提升计算效率. 实验结果表明, 在数据规模较大且保证聚类结果准确性的前提下, 通过降低聚类数据规模, 可以有效提升聚类效率.  相似文献   

2.
苟和平 《科学技术与工程》2013,13(16):4720-4723
针对KNN算法在分类时的样本相似度计算开销大,在处理不均衡数据集时少数类分类误差大的问题,提出一种在不均衡数据集下基于密度的训练样本裁剪算法。对训练样本的各个样本类进行聚类,删除噪声数据并计算每个样本类的平均相似度和样本平均密度,以此获得样本类裁剪的相似度阈值,然后将样本类内相似度小于类相似度阈值的样本进行合并,减少训练样本总数。实验表明,此样本裁剪算法能够在保持KNN算法分类性能基本稳定的前提下,有效地减少分类计算开销,并能在一定程度上提高少数类的分类性能。  相似文献   

3.
该文探讨了基于大数据技术的机器学习算法,基于大数据进行机器学习的模型提高了算法的准确性,机器学习实现分析更高级别的数据,基于Spark+Hadoop处理技术的机器学习适应迭代式机器学习模型的特定需求,机器学习分析数据中的关系获得规律预测新样本。对数据进行收集、统计和分析的大数据系统引入机器学习进行大数据计算,机器学习的深度和广度也提升了大数据分析效率。  相似文献   

4.
现有大数据的不等概率抽样方法大多基于数据分布,泛化能力较差。为此,利用多层感知机、XGBoost和Kriging模型估计总体单元间的相对距离,提出针对海量数据的不等概率抽样算法。此类算法既不需要考虑总体的分布,又能够保证样本的代表性。实证分析结果表明,基于此算法抽取样本构建的模型与简单随机抽样方法相比,模型参数估计的均方误差更低,效果更稳定。  相似文献   

5.
针对空气处理设备(AHU)故障贫数据,基于深度置信网络(DBN)模型对4种特征选择算法进行对比研究,结果表明最大相关最小冗余算法的特征子集在诊断准确率及子集元素稳定性上表现最优。提出将DBN 嵌入自训练框架的故障诊断模型,发现DBN自训练的诊断准确率较单纯DBN最高可提升19.5%。提出均匀抽样及按比例抽样2种自训练伪标签抽样策略,二者的诊断准确率均随抽样数减小而增大,在不同抽样数中的最大差异为3.42%;在所有贫数据样本中,均匀抽样策略始终优于按比例抽样,诊断准确率最大相差1.39%,表明在故障标签匮乏时,采用均匀抽样策略及较小的抽样数有利于提升DBN自训练的诊断性能。  相似文献   

6.
KNN算法在分类准确率和召回率方面具有较好的性能,但由于样本相似度计算开销大,导致分类效率低.针对此问题,本文提出一种基于密度的训练样本裁剪算法,对训练样本的各个样本类进行聚类,根据密度不同聚集成不同的簇,删除噪声数据并计算每个样本类的相似度阈值,然后将样本类内大于类相似度阈值的样本进行合并,以减少训练样本总数.实验表明,此样本裁剪算法能够在保持KNN算法分类性能基本稳定的前提下,实现各个样本类内高相似度样本的合并,减少分类计算开销.  相似文献   

7.
为进一步提高低秩逼近技术的逼近精度,提出了一种改进的基于内核的低秩逼近算法(IK-BLA).算法利用在数值上呈现递减规律的、与矩阵列相关的非均匀概率分布函数对大规模n×n矩阵W进行抽样,接着用抽样得到的小规模c×c矩阵W逼近矩阵W.在UCI数据库中部分数据集上的实验验证了IKBLA的有效性.  相似文献   

8.
为便于使用不同粒度的建筑能耗数据进行大数据分析,调研了相关标准、导则及研究资料,整理了用于建筑能耗分析的指标,明确了计算这些指标所需要的数据及数据之间的关系.用面向对象的方法,先建立建筑能耗信息总体模型,然后建立了3个相关实体的粒度模型,共同构成面向大数据分析的建筑能耗信息模型.使用MongoDB建立基于该模型的数据库用于大数据分析,从而验证该模型的可行性.本研究使充分利用不同粒度的建筑能耗数据进行大数据分析成为可能.  相似文献   

9.
信息化时代背景中,互联网作业方式使得财务管理领域产生了的海量数据信息,管理阶层获取财务信息的方式与渠道也大为增加,财务信息的收集、甄别、海选与批处理,就需要借助于大数据技术。财务人员使用这种技术,对财务信息数据进行精确化收集、分析、评估与评价,识别财务信息风险,并建立数据库对财务信息风险进行控制与处理,确保现代企业财务管理的绝对安全。  相似文献   

10.
为解决传统的稀疏表示分类(SRC)算法在小样本人脸识别过程中的过大时间开销问题,该文提出2种基于降维的SRC算法。扩展主元分析(EPCA)算法利用PCA算法构造约束优化稀疏模型,对测试样本进行线性表示,通过比较测试样本和每类训练样本的重构PCA系数进行决策分类。EPCA+线性判别分析(EPCA+LDA)算法在EPCA算法的基础上增加LDA约束模型,提高重构样本的稀疏表示的鉴别性。将该文算法应用于AR和FERET人脸数据库,与扩展SRC(ESRC)、SRC、SRC_PCA、协同表达分类(CRC)算法相比,该文算法有较高的识别率和较低的时间复杂度。将EPCA算法和EPCA+LDA算法应用于FETET数据集,识别率分别为61.46%和59.17%,运行时间分别为383.02 s和220.62 s。  相似文献   

11.
基于数据挖掘的金融时序频繁模式的快速发现   总被引:2,自引:0,他引:2  
针对金融时间序列分析中注重快速作出趋势判断的特点,利用数据挖掘的思想和工具,提出一种金融时间序列模式快速发现算法.与传统的预测算法相比较,该算法对数据的分布和平稳性等方面的要求不高,不基于任何假设,能够非常快速地发现时间序列中的频繁模式,经过模式匹配后,可以用于金融时间序列的分析与预测.以实际汇率数据为例,证明了该算法的有效性.  相似文献   

12.
根据数据挖掘中关联规则的性质以及高校成绩管理数据库的自身特点,在经典关联规则算法Apriori算法的基础上提出了一种改进的算法——A 算法,并利用该算法对学生成绩管理数据库进行了关联规则挖掘,得到了隐含在数据库中的有用信息.  相似文献   

13.
随着环境影响评价基础数据库数据中心数据量的逐年指数增长,数据库服务器对客户端的响应时间也随之延长,对数据高效管理的要求也日益明显.结合环评基础数据库项目建设过程中数据分析和挖掘预测的需求,提出基于ODS的环评数据仓库的总体架构,构建基于OLAP技术的面向多主题的数据仓库模型,研究遗漏值、数据异常等不同问题的数据清理和填充方案,构建基于DS-ODS-DW的数据加载模型.研究实现基于基础数据库的统计分析和数据挖掘功能,为数据管理者提供数据预测与决策支持功能.通过模型在数据分析和数据挖掘方面的应用案例,验证了该模型和方法的合理性和有效性.  相似文献   

14.
校园网格环境下异构数据库的集成与分布式查询   总被引:1,自引:0,他引:1  
针对校园数据网格的分布式异构数据库环境,提出了一种基于网格服务的异构数据库访问和集成方法。该系统为用户提供一致的虚拟数据视图和分布式数据查询支持。在分析和研究现有分布式数据库查询技术的基础上,介绍了一种适用于网格环境下海量数据的连接操作算法,算法依据分布式数据库的固有并行性,利用数据划分来提高查询的并行处理程度,以改进响应时间。理论分析表明,该算法在减少网络通信开销和降低响应时间方面具有较好的性能。  相似文献   

15.
针对使用传统关联规则算法挖掘大数据集时,挖掘过程中效率不高,挖掘出大量冗余规则的问题,提出了基于关联规则和相似度的数据挖掘算法(U-APR):首先,一次性读入数据并构建矩阵,并利用关联规则支持度度量的特性来增加判断属性,以加快结束迭代过程,从而改进了Apriori算法频繁扫描数据库问题;然后,使用相似度算法去除冗余的关联规则;最后,结合置信度、支持度和用户目标匹配度对挖掘结果进行排序输出,从而得到用户感兴趣的关联规则. 同时,应用该算法与目前常用的2种关联规则算法对广东某高校学生财务数据进行数据挖掘. 实验结果表明:与2种常用的关联规则算法相比,U-APR算法缩短了运算时间和提高了存储空间利用率,对用户分析挖掘结果有较好的优化效果.  相似文献   

16.
数据是高校管理信息化产生的最重要的无形资产,数据的丢失或者损坏都将极大地损害教学、管理和科研工作的正常开展.Oracle RAC是目前使用最为广泛的数据库集群化管理方式,在此基础上开展DataGuard数据保护技术的应用研究,可以弥补集群数据库环境在数据容灾、备份和故障恢复方面的不足,提升数据的安全性,确保高校各类应用系统的正常运行.  相似文献   

17.
提出了一种基于Routh有限概念格的规则发现方法(RRLIRD),以揭示数据集中的蕴涵规则。首先引入有限概念格的简化表示形式,由用户选择数据集中感兴趣属性集创建概念格结构,提高用户的交互性和挖掘的效率;然后运用有限概念格与Rough集理论相结合形成Rough有限概念格,蕴涵规则则由其特有的上、下近似运算得到,不需计算繁琐的频繁项目集。算法运用大型超市的交易流水数据进行仿真实验。结果表明,执行时间比经典的Apriori算法大大降低。该算法也适用于证券行情分析和农业数据库的病虫害分析等。  相似文献   

18.
多策略数据挖掘系统的分析与设计   总被引:1,自引:1,他引:0  
为了满足数据规模的膨胀和分析需求的增长,在对数据挖掘系统的发展史进行回顾的基础上,分析了国内外典型数据挖掘系统的特点,设计了一个多策略的数据挖掘系统。并针对数据挖掘面临的大规模海量数据的处理问题,为系统引入和设计了算法插件思想、缓冲区处理技术、基于XML(Extensib le M arkup Lan-guage)语言的配置文件和相应的并行处理技术。最后讨论了系统今后开发过程中需要注意算法更新及评估的问题。  相似文献   

19.
主要介绍了网吧管理系统的一些设计思想、结构模块及其功能和实现方法等,并且对其中的数据库的转储方法和步骤送行了详细阐述,采用了数据仓库的增量刷新办法,算法采用基于三层体系结构模型的VSRA算法,克服了3VWQ算法容易导致基库与数据仓库之间通信流量增加的缺点.  相似文献   

20.
随着高等教育的大众化,高校的办学规模不断扩大,高校的办学环境更加复杂,学校的管理决策也越发困难。本文将结合知识经济时代高校的职能,通过对高校已有的各管理信息系统的数据挖掘,构建基于知识管理的高校决策支持系统,使隐含在各孤立业务系统数据库中不能直接量化的隐性知识显性化,形成学校全面、动态、立体的管理信息和知识,有效控制学校运行及管理中各要素的流向,真正提高高校的决策管理水平。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号