首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对传统数据挖掘方法存在挖掘精度低、速度慢、占用内存多而不适于实际应用等缺点,提出一种属性受限状态下低维冗余聚类数据挖掘方法。通过计算低维冗余聚类数据的支持度,把低维冗余聚类数据挖掘问题转变成频繁项集挖掘问题;利用支持度与可信度对关联规则产生结果进行评价,并添加属性对其进行限制,以减少无用规则的产生。通过属性位复用方法建立候选区域,产生关联规则集,对符合关联规则集的低维冗余数据进行聚类,实现对其挖掘。实验结果表明,通过所提方法对属性受限状态下低维冗余数据进行挖掘,挖掘速度快,结果可靠。  相似文献   

2.
针对传统数据挖掘方法存在挖掘精度低、速度慢、占用内存多而不适于实际应用等缺点,提出一种属性受限状态下低维冗余聚类数据挖掘方法。通过计算低维冗余聚类数据的支持度,把低维冗余聚类数据挖掘问题转变成频繁项集挖掘问题;利用支持度与可信度对关联规则产生结果进行评价,并添加属性对其进行限制,以减少无用规则的产生。通过属性位复用方法建立候选区域,产生关联规则集,对符合关联规则集的低维冗余数据进行聚类,实现对其挖掘。实验结果表明,通过所提方法对属性受限状态下低维冗余数据进行挖掘,挖掘速度快,结果可靠。  相似文献   

3.
应用立方体工具计算频繁维谓词集的方法   总被引:2,自引:2,他引:2  
关联规则是数据挖掘中重要的挖掘模式,数据立方体很适合挖掘多维关联规则,多维关联规则挖掘中最重要的工作是频繁维谓词集的获得.具体应用OLAPServices工具有效获得频繁维谓词集的具体方法现有书籍介绍较少.通过一个高校学生信息系统的实际例子,对经由数据立方和MDX语言对有效计算频繁维谓词集的方法进行了有意的探索.  相似文献   

4.
基于PCA-KLFDA的小样本故障数据集降维方法   总被引:1,自引:0,他引:1  
针对小样本故障数据集降维问题,提出一种基于主元分析(PCA)和核局部费歇尔判别分析相结合的子空间降维方法.该方法首先应用PCA提取数据集中的关键信息并实施降维,然后将该子空间通过高斯核方法映射至高维线性空间,并在高维空间基于局部费歇尔判别分析训练出一个最有辨别力的低维分类特征集.用双跨转子实验台的一组故障特征数据集进行验证,结果表明:该方法能有效应对小样本的降维问题,达到增大不同故障样本集合间距离、使同类故障样本间的类内距离减小的效果,为基于数据驱动途径实现智能故障辨识技术中涉及的小样本故障数据集类别划分问题提供了一种新方法.  相似文献   

5.
降维是天体光谱数据预处理常用的手段之一,如何利用标号天体光谱数据,克服降维过程中的过分拟合,是提高降维效果的有效途径之一。采用半监督学习,给出了一种天体光谱数据特征降维方法。该方法首先针对具有标号天体光谱数据,建立Fisher判别分析和PCA可变动选择的不确定关系;其次构建其半监督降维的全局最优化形式,通过特征值分解计算降维结果,从而有效地克服了天体光谱降维过程中的过分拟合问题;最后采用高红移类星体和晚型星SDSS天体光谱特征线数据集,实验验证了该方法的有效性。  相似文献   

6.
为提高铸坯质量预测的准确率,本文提出了一种基于最大信息系数(MIC)和主成分分析(PCA)的两阶段特征降维方法。采集某钢厂铸坯生产过程数据,根据冶金原理得到铸坯夹杂类质量缺陷的影响因素,构造原始特征集。第一阶段进行特征选择,使用随机森林分类器的分类准确率来评价ReliefF、IG和MIC三种算法的特征选择效果,结果显示,基于MIC度量指标选出的特征维度更低、分类准确率更高。第二阶段使用PCA方法对特征选择后的特征集进行降维,并将其与原始特征集、MIC、PCA算法的分类准确率进行比较,结果表明,本文提出的基于MIC和PCA的两阶段降维方法优于其他算法,能有效降低原始特征集的维度并提高对铸坯夹杂类质量缺陷的预测精度。  相似文献   

7.
提出一种基于语义关联性特征融合的大数据挖掘算法.对云存储大数据分布式信息流进行高维相空间重构,在重构的相空间中提取大数据的语义关联维特征量,以提取的特征量为测试集进行自适应学习训练.采用模糊C均值算法进行大数据语义关联特征的稀疏性融合和聚类处理,在聚类中心实现对挖掘目标数据的指向性聚敛,输出数据挖掘结果,并采用特征压缩器进行降维处理,降低计算开销.仿真结果表明,采用该方法进行大数据挖掘的特征提取准确性较好,挖掘数据的聚类能力较强,在实时性和准确性方面具有优势.  相似文献   

8.
挖掘重要项集的关联文本分类   总被引:1,自引:0,他引:1  
针对在关联规则分类算法的构造分类器阶段中只考虑特征词是否存在,忽略了文本特征权重的问题,基于关联规则的文本分类方法(ARC-BC)的基础上提出一种可以提高关联文本分类准确率的ISARC(ItemSet Significance-based ARC)算法.该算法利用特征项权重定义了k-项集重要度,通过挖掘重要项集来产生关...  相似文献   

9.
数据降维就是将数据集从高维特征空间向低维特征空间的映射.传统的主成分分析(PCA)算法是一种常用的线性数据降维算法.但是耗时太长,降维结果不够好,同时不能满足实际分类要求.为此,通过引入互信息可信度,提出了一种基于互信息综合可信度的主成分分析(MIS-PCA)数据降维算法.该算法首先介绍互信息(MI)、相对互信息可信度(MIR)和绝对互信息可信度(MIA)的思想;然后根据MIA和MIR求解互信息综合可信度(MIS),利用互信息综合可信度进行特征筛选;最后再运用PCA算法对处理后的数据进行降维,并将降维后的数据采用KNN、SVM算法进行分类.对比PCA、E-PCA算法,通过试验表明该方法的降维结果较好、分类精确度较高.  相似文献   

10.
关联规则可用于指导企业商务决策,针对关联规则挖掘的支持一置信框架会产生冗余规则的问题,该文提出了一种本体统计相关性与语义相关性相结合的关联规则挖掘方法。该方法以关联规则挖掘为目标,首先建立领域本体,并集成一个更为通用的本体系统辅助关联规则的挖掘,综合考虑本体的统计相关性和语义相关性定量计算规则相关度。应用客观兴趣度和主观兴趣度约束无趣规则的产生。与已有的方法相比,该方法有效地处理了冗余规则,实现了基于语义的知识表示。同时,该方法在心血管疾病辅助诊断系统中应用验证了其有效性和优越性。  相似文献   

11.
为确保大数据云存储下海量数据传输的完整度,提出了一种基于属性特征匹配和关联规则的海量数据传 输完整度控制方法。构建海量数据的属性特征高维重组模型,得到关键信息的特征分布状况,据此设计海量数 据的关键信息存储分布结构模型,采用关联规则方法进行海量数据的关键信息特征挖掘提取,利用关键信息进 行海量数据的特征分析和数据聚类处理,采用属性特征匹配方法设计海量数据关键信息存储节点后,利用模糊 减法聚类对关键信息存储节点进行聚类处理,在海量数据传输中,以数据关键信息存储节点传输的完整度实现 海量数据的传输完整度控制。仿真结果表明,采用该方法进行海量数据传输完整度控制,能提高云存储下的空 间利用效率,数据传输完整度高。  相似文献   

12.
针对数据提取方法无法进行海量挖掘,且挖掘结果不准确,挖掘时间较长的问题,提出一种基于数据挖掘算法的地域性强关联规则数据提取方法。结合地域性强关联规则数据管理系统,采集用户需求信息,检索特征关联性,收集地域特征。利用数据关联度,分析地域检索中地域特征间的关联,计算相似标签信息参数,并对支持度和置信度实施计算,从地域性强关联规则数据库中挖掘关联规则。利用Kulczynski量度和不平衡率实施相关性分析和过滤,最终获取到具有实际意义的强关联规则。实验结果表明,该方法挖掘效率较高,且具有广泛的应用价值。  相似文献   

13.
针对传统的关联规则在试卷评估中应用出现的问题:由于试题的难易程度不同,被答对的概率也不一样,即数据集中数据项发生的概率不一样,数据项具有倾斜支持度分布的特征,选择合适的支持度阈值挖掘这样的数据集相当棘手。文章提出了基于试题难度系数加权的关联规则挖掘算法,从而解决因试题难度不同而导致数据项出现的概率不均的问题,发现更多有趣的关联规则,并且理论上证明了基于难度系数的加权关联规则算法保持频繁项集向下封闭的重要特性。  相似文献   

14.
关联规则挖掘是数据挖掘的主要技术之一,现有的关联规则挖掘算法均基于支持度-置信度框架,当用户调整阈值时存在多次遍历数据库和重复计算问题。该文针对支持度阈值变化时的关联规则维护问题,提出了关联规则交互挖掘算法HIUA,该算法改进了原始IUA算法的剪枝过程,并通过Hash结构提高算法运行效率。在UCI数据集及企业实际财务数据集中的实验结果表明:在支持度阈值发生变化的过程中HIUA算法进一步利用已有挖掘结果,有效提高了关联规则挖掘的效率。  相似文献   

15.
通过结合PCA与LLE两种降维方法,提出新的PCA_LLE算法,使它们优势互补.在手写体数字数据集上进行实验,先对数据集降维,再用K近邻算法对降维后的数据分类.实验结果表明融合两种算法的PCA_LLE降维方法较原来的PCA和LLE算法准确率均有了提升.而且新算法PCA_LLE对新样本的降维时间较LLE算法减少很多.在ORL人脸数据集上的实验表明,PCA_LLE算法较PCA,LLE算法准确率有所提高.  相似文献   

16.
有效提取特征有利于提高后续人体动作识别的准确率。针对人体动作识别时方向梯度直方图(histogram of oriented gradient,HOG)特征维数过高和相似动作不好区分的问题,提出一种基于特征优选和图像相似度的人体动作识别算法。实验对比三种降维方法主成分分析法(principal component analysis,PCA)、PCA+Pearson、PCA+Spearman处理后的动作识别率,证明PCA+Pearson相关系数的降维效果最佳。同时将全局特征八星模型与降维后的局部特征HOG特征组合在一起全面表征人体动作,并计算相邻两帧图像相似度,自适应分配一个判别周期内单帧支持向量机分类结果的统计权值,最后二次分类人体姿态识别结果。在标准数据集KTH上进行实验,该算法识别准确率为94. 5%,较其他方法有所提高,在视频人体动作识别领域有较好应用价值。  相似文献   

17.
文中借鉴经典凸技术聚类算法中的全局线性降维算法PCA与LDA聚类算法思想,提出了一种改进型的PCA降维算法L-PCA,该算法在保证原有样本协方差结构不变的前提下,获取变换矩阵中最重要的主分量进行赋权,通过调节类内与类间离散矩阵,使得类内距离最小化、类间聚类最大化,来搜索一个合适的映射子空间来实现不同类别数据之间的划分。通过典型数据集下的实验结果很好的验证了L-PCA算法在一阶最近近邻分类器泛化误差、准确性以及目标数据表达连续性等方面的良好性能。  相似文献   

18.
针对垃圾短信分类问题,提出了一种通过挖掘垃圾短信关联规则来构造垃圾短信分类器,从而实现垃圾短信过滤的模型.该方法采用改进的FP-grow算法挖掘垃圾短信关联规则集,以关联规则集为基础构建垃圾短信分类器模型,在分类过程中考虑垃圾短信特征词权重和垃圾短信的变异行为进行分类.实验结果表明,该方法的分类精确率和非垃圾短信错分率优于其他常用垃圾短信分类方法.  相似文献   

19.
基于PCA改进的快速Adaboost算法研究   总被引:1,自引:1,他引:0  
针对传统的Adaboost算法可能出现在应对较大训练数据集训练时间过长的问题,提出了一种改进的Adaboost算法——PCAdaboost。改进算法利用PCA方法的降维技术,对训练样本特征提取主要成分,去除输入样本特征间的相关性,提高分类精度。同时,从样本阈值搜索角度考虑了特征值等分和特征值空间维数,给出了阈值快速搜索方法。实验结果表明,该算法在UCI数据集上取得较好的效果。  相似文献   

20.
基于语义相似度的文本表示降维方法   总被引:2,自引:1,他引:1  
数据降维是文本表示中不可或缺的一个环节,有效的数据降维方法不仅能够减少计算量,同时有助于文本处理精度的提高.不同于传统的利用统计信息进行降维的方法,本文提出了一种基于词汇的语义相似度的文本表示的降维方法,该方法结合自然语言处理的知识,在降维环节考虑了特征词的语义信息和词性信息.实验结果表明:该方法能够有效地降低文本表示的维数,并在降维后的空间获得较高的文本处理精度,基于语义相似度的降维方法是一种适合文本处理的降维方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号