首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 113 毫秒
1.
针对传统数据挖掘方法存在挖掘精度低、速度慢、占用内存多而不适于实际应用等缺点,提出一种属性受限状态下低维冗余聚类数据挖掘方法。通过计算低维冗余聚类数据的支持度,把低维冗余聚类数据挖掘问题转变成频繁项集挖掘问题;利用支持度与可信度对关联规则产生结果进行评价,并添加属性对其进行限制,以减少无用规则的产生。通过属性位复用方法建立候选区域,产生关联规则集,对符合关联规则集的低维冗余数据进行聚类,实现对其挖掘。实验结果表明,通过所提方法对属性受限状态下低维冗余数据进行挖掘,挖掘速度快,结果可靠。  相似文献   

2.
传统的模糊决策树虽然可以从模糊数据中抽取模糊分类规则,但只能获取节点的隶属度信息,无法得出样本数据对于节点的非隶属度和犹豫度信息,导致数据分类的准确率不高。针对此,基于毕达哥拉斯模糊集理论,提出了一种新的加权毕达哥拉斯模糊决策树算法(Weighted Pythagorean Fuzzy Decision Tree,WPFDT)。首先,通过改进的K-means聚类算法得到连续属性数据的聚类中心,并结合三角模糊数对连续数据进行模糊处理;其次,定义并计算每一个属性的加权毕达哥拉斯模糊熵,选择加权毕达哥拉斯模糊熵最小的属性作为决策树根节点,在根节点下递归选择模糊熵最小的属性作为分裂节点,同时通过阈值控制树的规模,得到从根节点到叶子节点路径的模糊规则以及模糊规则的隶属度、非隶属度以及犹豫度,并完成预测分类,直至生成WPFDT模型;最后,选取UCI上的3个医学数据集(Haberman、Breast Cancer、Parkinson)进行实验,在分类准确率和得出模糊规则的数量与3种传统决策树算法(模糊ID3算法、C4.5算法、CART算法)比较,实验结果表明:WPFDT在分类精度和树大小上都优于其他传统决策树算法,并且有较高的召回率和精确率。  相似文献   

3.
提出了一种基于聚类的时空关联规则的公交犯罪挖掘算法.针对某市一个区的110报警数据库中的大量业务信息进行分析.首先,通过文本挖掘技术从案情信息中提取时间、地点等信息,并利用高德地图API的地理编码服务和POI搜索功能对提取的地址信息进行地址匹配,提取受害人上下车站点、乘坐公交线路等信息.其次,对提取得到的时空数据进行归并处理.最后,根据案发时段、季节以及是否节假日进行聚类分析,然后在簇内进行时空关联规则分析.这种挖掘方法具有以下特点:①在聚类基础上进行关联规则分析,减少扫描数据库次数,大大缩小数据扫描范围,提高算法效率,更加适合海量犯罪数据的挖掘.②聚类后簇内数据具有相似性,特征更加明显,在此基础上进行关联规则分析产生较小的频繁项集,并且提取出置信度较高的规则.③考虑犯罪行为的时空特性,挖掘过程中同时考虑了案发季节、是否节假日等因素.  相似文献   

4.
现有的基于点云数据的车载三维激光雷达障碍物检测和跟踪存在实时性差、准确率不高以及场景内障碍物数目增多时难以有效关联等问题。针对这些不足,文章提出了结合区域生长与密度聚类的算法以及同时考虑了障碍物几何特征与点云密度特征的关联方法。基于栅格地图,运用最大、最小高度图法去除背景点云数据;在得到可靠障碍栅格地图后,搜索匹配8邻域栅格属性,结合自适应阈值的密度特征进行聚类,提高了障碍物检测准确率;考虑了障碍物的点云密度特征和高度特征,提高了障碍物关联的可靠性并运用卡尔曼滤波器对动态障碍物进行了跟踪。在自行搭建的智能车平台上进行的实车实验验证了该文算法的有效性。  相似文献   

5.
企业二次创业金融数据的优化分类能提高数据的统计分析能力,提出基于逻辑回归的企业二次创业金融数据分类方法,采用自适应无监督学习的方法进行数据统计的融合处理,构建数据分布的不规则空间聚类模型,采用相空间结构重组方法进行数据的模糊特征重构,提取企业二次创业金融数据的关联规则特征量,采用逻辑回归分析方法进行数据分类的融合聚类处理,结合模糊C均值聚类方法,实现对数据分类的自适应寻优和收敛性控制,实现数据分类优化。仿真结果表明:采用该方法进行企业二次创业金融数据分类的准确性较高,收敛性较好,特征聚类能力较强。  相似文献   

6.
传统基于概率分布的不完整数据聚类填充算法,未综合分析数据对象的类别属性,数据填充效率和精度较低。因此,本文提出一种新的聚类填充算法,利用近邻传播(AP)算法聚类不完整数据,采用元祖相似度算法对不同类别的不完整数据实施填充。通过数据挖掘方法获取多类别不完整云计算网络系统中的加权关联规则,实施常规缺失数据的填充,采用数据推荐筛选方案实施元组相似度运算,完成异常缺失数据的填充,最终获取完整的云计算网络数据集,提高云计算网络数据的有效利用率。实验表明,本文设计的聚类填充算法具有较高的填充效率和精度。  相似文献   

7.
为提高异构物联网感知设备可信数据的挖掘和检测能力,提出基于局部子空间的可信数据多标记特征选择算法.建立异构物联网感知设备可信数据的大数据分布式存储结构模型,采用大数据信息融合方法进行异构物联网感知设备可信数据的可信动态特征度量,提取异构物联网感知数据的关键特征点,采用关联规则挖掘方法检测物联网设备可信数据,建立数据的关联特征分布模型,采用模糊相关性融合调度方法进行自适应多标记特征选择,结合局部子空间聚类分析方法实现可信数据多标记特征选择的自适应控制和寻优,在聚类中心中实现对异构物联网感知设备可信数据的自适应融合和自适应多标记特征选择.仿真结果表明,本文方法进行可信数据多标记准确性较高.  相似文献   

8.
为了提高英语教学质量评估的有效性,采用决策树建立教学质量评估指标分类规则,同时采用关联规则分析对评估结果进行验证.提取英语教学质量评估的有效指标,对指标属性进行量化和泛化处理;根据待评估样本计算各指标属性的熵增益并对熵增益率降序排序,分别获得根节点和分支节点,结合节点属性值得到分支个数,构建完整的教学质量评估决策树;采用关联规则分析方法求解各指标属性的支持度和置信度,根据关联分析结果验证决策树评估的有效性.结果表明,科学设置评估指标参数,并合理选择评估指标属性分段区间.通过本文方法可以较好地评估分析影响英语教学质量关键要素及内在联系.  相似文献   

9.
对快速增长的数据进行挖掘的有效途径之一是采用增量式更新算法,其中最具代表性的是MRFUP算法。该算法的剪枝策略减少了关联规则的计算,但在处理增长快速的数据时效率过低,且频繁计算新增数据。文章以提高海量数据下关联规则增量更新效率为目标,通过扩展能够并行处理关联规则的PFP算法而提出一种基于PFP的关联规则增量更新算法MRPFP。该算法能充分利用云平台强大的存储和并行计算能力。该算法的实验结果表明,MRPFP处理海量数据的效率优于MRFUP算法,更适用于海量数据的关联规则挖掘。  相似文献   

10.
提出基于知识图谱和数据驱动的电影分类推荐方法;首先基于数据驱动爬取互联网中的电影数据并进行去重及清洗,然后采用知识图谱将电影数据与用户情感偏好数据进行关联,对海量的数据信息进行中心聚类,并在数据聚类的过程中计算投影向量得到相似度矩阵,最后查询相似度值并计算分类推荐指标权重得到最终的电影推荐清单.  相似文献   

11.
提出一种基于语义关联性特征融合的大数据挖掘算法.对云存储大数据分布式信息流进行高维相空间重构,在重构的相空间中提取大数据的语义关联维特征量,以提取的特征量为测试集进行自适应学习训练.采用模糊C均值算法进行大数据语义关联特征的稀疏性融合和聚类处理,在聚类中心实现对挖掘目标数据的指向性聚敛,输出数据挖掘结果,并采用特征压缩器进行降维处理,降低计算开销.仿真结果表明,采用该方法进行大数据挖掘的特征提取准确性较好,挖掘数据的聚类能力较强,在实时性和准确性方面具有优势.  相似文献   

12.
针对在集成数据交互中心进行数据随机转发时, 散乱数据易出现信息丢帧的问题, 提出一种基于大数据分析的散乱缺损信息无损恢复方法. 首先通过在云存储数据交互中心采集散乱缺损信息组成大数据比特序列, 分析数据在云计算中心的存储结构模型; 然后利用联合稀疏分解方法进行散乱缺损信息的特征分解, 并采用压缩感知方法进行散乱缺损信息的特征压缩及信息自适应特征聚类处理, 结合大数据信息融合方法进行散乱缺损信息的关联特征挖掘; 最后采用相空间重构方法进行散乱缺损信息的特征重组, 在重构的相空间中进行散乱缺损信息的无损信息恢复. 仿真实验结果表明, 采用该方法进行散乱缺损信息无损恢复的误差较低, 数据重构的精度较高, 运算开销较小, 有效提高了数据的信息恢复能力.  相似文献   

13.
为提高备份高校数据的安全性能,减少高校系统损坏或数据丢失造成的损失,提出统一容灾备份技术。首先明确数据备份为统一容灾技术的关键,通过心跳和检查点技术对目标系统所处状态进行实时检测; 其次在对高校数据备份的过程中划分信息,并使每部分都由一个线程支持,根据相应的网络协议完成传输,在数据保证准确性和完成性的同时,极大地提升了备份效率; 最后通过资源量化处理、数据故障分析以及算法优化,进一步提升统一容灾备份技术性能,令其更好地满足高校数据安全需求。通过测验结果表明,将统一容灾备份技术应用于高校数据安全保护中,可以最大程度的保障数据的完整和安全,在高校数据安全中具有较高的应用推广价值。  相似文献   

14.
动态激光测图数据处理系统   总被引:3,自引:0,他引:3  
对动态激光测图系统采集的点云数据的分析,研究开发了相应的数据处理系统。点云图是离散的坐标点阵列,不表达被测目标的边界特征及拓扑关系,利用点云图进行信息提取目前还没有成熟可行的方法及软件。该软件系统可实现动态扫描过程中扫描仪数据的预处理、姿态改正、空间匹配、信息提取、可视化等功能。  相似文献   

15.
信息时代的快速发展带来的是信息总量呈现几何级数的增加,而海量数据的存储和分析处理对计算机硬件能力和数据分析能力都是一个极大的挑战.数据挖掘算法是针对于大批量数据处理而提出并逐步发展起来的,基于完备的数据库技术,可以在云计算算法、矩阵压缩算法和并行关联算法的基础上,进行算法集成,能进一步提高数据挖掘的速度、精度和时效性,在实际海量数据的处理过程中有较好的适应性,为海量数据处理提供了新的技术分析方法.  相似文献   

16.
以云计算环境下大数据存储技术为研究对象,首先介绍了云计算环境下主要的两种典型的分布式存储系统,即Googk的GFS和Hadoop的HDFS;对其中的数据存储技术进行了专门分析,从可扩展性和延迟性(如何支持海量小文件的存储)、容错性(在数据丢失时进行数据恢复)和海量数据存储的实时性这3个方面对现有技术进行了评价.在此基础上,提出了分布式文件系统的系统架构.最后给出了研究展望.  相似文献   

17.
针对混合属性数据聚类难度高的问题,提出一种基于广义线性模型的混合属性数据聚类方法.首先,构建低阶多元广义线性模型处理海量数据聚类问题,考虑数据属性的时间特性,获取属性时间序列矩阵;然后,基于优化K-prototypes聚类方法处理混合属性数据时,考虑属性的时间序列矩阵;最后,在考虑样本同聚类中心距离基础上兼顾已知样本信息内容,采用优化方法计算数据相异度、样本与聚类集间距离,当聚类结果趋于平稳时终止运算,输出聚类结果.为验证基于广义线性模型的混合属性数据聚类方法的有效性展开实验分析.结果显示,该方法经过较少次迭代即可优化划分混合属性数据聚类集,聚类适应度值为0.88~0.94,适应度优,可准确体现样本间差异,是一种准确度高的混合属性数据聚类方法.  相似文献   

18.
廖海生 《河南科学》2014,(12):2505-2510
随着大数据存储需求的不断扩大,网络存储技术面临如何存储并管理海量数据的问题.通过对现有各种大数据存储模型进行了对比分析,针对现有存储模型存储的局限性和大数据存储的特点,提出了一种基于数据特征的面向对象存储思想.采用虚拟类技术设计并实现了一种基于面向对象的大数据存储模型.在仿真环境中,对该模型的分类关键模块与非结构化数据存储性能进行了测试与分析,实验结果表明该模型分类模块误差较小,读写效率较高,而且随着数据的增大,非结构化存储性能保持稳定.  相似文献   

19.
针对XML数据流可能具有复杂的递归层次结构,提出一种XML数据流小枝匹配算法TwigPM.通过获取查询节点的结构关系,进行有效的剪枝操作,减少了处理时间和数据所占用的内存空间.实验结果表明,算法具有高效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号