首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
提出了一种从肿瘤的基因表达数据挖掘肿瘤分类规则的方法. 首先用Bhattacharyya距离指标和相关性分析去除分类无关基因和冗余,然后以决策树作为分类器,用遗传算法搜索所得的特征空间,优化分类精度和分类模型的复杂度. 运行多次得到多个分类树和多组分类规则,由此构建组合树分类器在测试集数据上检验分类效果. 在结肠癌基因表达数据上的实验结果表明了分类规则挖掘方法的有效性和可用性.  相似文献   

2.
针对基于仿射包的图像集人脸识别方法(AHISD)对于异常值数据的敏感性,提出了一种鲁棒性更强的方法(R1-AHISD).以仿射包模型对图像集建模,通过R1-PCA算法获得仿射子空间的正交基,进而计算定义的仿射包之间的距离,以最近邻分类器得到分类结果.在Honda/UCSD数据库上的仿真实验表明,本方法可以有效地提高识别率和对异常值数据的鲁棒性.  相似文献   

3.
决策树作为从大规模数据中探索概念构成的代表,是弱化模型结构仅从数据出发构建概念的典型,所以决策树作为数据挖掘的典型技术得到了广泛的应用。根据临床检验资料信息,利用决策树模型建立2型糖尿病预测模型,为能更准确地诊断2型糖尿病提出理论依据。首先,搜集数据并进行预处理;然后,利用R语言编程构造ID3算法和CART算法的分类模型;再通过对ID3算法和分类回归树(CART)算法研究相比较,分析对比每个单一算法的性能和挖掘收集到的糖尿病数据;最后,比较2种方法的准确率,对预测结果进行评估。构建的诊断模型都具有较高的预测准确度,且CART模型优于ID3模型,对预测2型糖尿病的患病风险具有一定的临床参考价值。  相似文献   

4.
为探究不同形态城市道路交通事故的发生原因,将事故形态的影响因素进行筛选和约简,选取3种不同算法对事故形态进行分析与预测,对比预测模型的准确性。采用粗糙集理论对原始交通事故形态影响因素变量进行转换和约简,获得满足建模要求的试验数据,并按照总体一致原则把数据等分为训练集和测试集。基于C5.0决策树算法,构建交通事故形态预测决策树模型并进行模型准确性验证,生成交通事故形态规则集;另外,采用似然比检验筛选自变量构建交通事故形态多元Logistic回归预测模型;构建多层感知器(MLP)神经网络预测模型,检验模型训练集与测试集的准确率并进行对比分析。结果表明:3种模型中,C5.0决策树算法对交通事故形态在训练集和测试集中的预测准确率分别为80.39%与79.63%,高于多元Logistic回归模型和MLP神经网络模型。采用C5.0决策树算法得到交通事故形态主要影响因素为交通方式的选取,行驶在道路横断面位置,违法行为与行驶状态等,解释性良好。研究可为分析及预测城市道路交通事故形态,分析事故产生原因提供方法参考,还可为交通管理部门提供决策依据。  相似文献   

5.
互联网应用的蓬勃发展产生了种类多样的网络流量。在网络技术不断进化的过程中,新型流量和流量加密技术的出现,使基于端口和基于有效载荷的传统网络流量分类算法的应用受到限制。为了实现对新型网络流量的自动分类,提出了一种基于机器学习的网络流量分类算法。通过选择特征属性和构建决策树模型,能够实现对流量级别的网络数据进行自动分类。使用网络流量分类领域的公开数据集进行训练和测试,并将测试结果与开源的机器学习平台Weka运行结果相比较,实验结果表明:所构建模型性能优良,在流量分类准确度与Weka平台相近甚至更优的前提下,大幅降低了建模时间,提高了网络数据分类的效率。  相似文献   

6.
Hadoop具有海量数据并行存储能力和高效并行计算架构,但缺乏数据建模和数据统计能力.针对Hadoop架构的数据统计分析能力的局限性,结合R语言和Hadoop框架的优点,提出一种基于R+Hadoop环境的大数据分析及预测方法.以甘肃惠森药业电子商务平台"药材盈"采集的大数据为例,通过采用Hadoop集群并行处理中药材文本数据、RHadoop进行预处理并获取样本数据、R语言对样本数据建模,获得较为可靠的预测中药材市场价格的模型,对中药材市场价格的变化规律及影响因素进行分析和预测.采用线性模型和决策树模型对中药材大数据进行建模,并通过实验验证和比较得到预测中药材市场价格的最佳模型.  相似文献   

7.
针对情感分类这一项从文章或句子中得到观点态度的任务,常规情感分类模型大多需要耗费大量人力获取标注数据.为解决某些领域缺乏标注数据,且其他领域分类器无法在目标领域直接使用的现状,设计了一种新颖的基于构建公共特征空间方法,使分类模型可从有标注领域向无标注领域进行迁移适应,减少人工标注的成本开销,实现情感分类的领域自适应.该方法以大规模语料下预训练的词向量信息作为以词为元素的特征,在同种语言中表达情感所采用的句法结构相似这一假设前提下,通过对领域内特有的领域特征词进行替换的方式构建有标注数据集与无标注数据集基本共有的公共特征空间,使有标注数据集与无标注数据集实现信息共享.以此为基础借助深度学习中卷积神经网络采用不同尺寸卷积核对词语不同范围的上下文特征进行抽取学习,进而采用半监督学习与微调学习相结合的方式从有标注数据集向未标注数据集开展领域自适应.在来自京东与携程共5个领域的真实电商数据集上进行实验,分别研究了领域特征词选择方法及其词性约束对领域间适应能力的影响,结果表明:相较于不采用领域适应的模型,可提升平均2.7%的准确率;且在来自亚马逊电商的公开数据集实验中,通过与现有方法进行对比,验证了该方法的有效性.  相似文献   

8.
利用最大最小爬山算法构建肺癌患者的预后模型,指导肺癌预后评价。以SEER(surveillance, epidemiology, and end results)数据库中2008年至2014年期间被确诊为肺癌的患者组成数据集,首先利用卡方检验、Logistic回归分析方法对数据集中的变量进行特征选择;然后,在训练集上利用最大最小爬山算法建立肺癌患者的预后模型,并在测试集上对患者进行5年后生存情况预测;最后,选择Logistic回归、人工神经网络、决策树、支持向量机方法和本研究模型在测试集上进行分类实验对比。最终结果显示本研究模型对肺癌患者5年后生存情况的预测准确率高于其他方法。  相似文献   

9.
针对传统流量分类方法(基于端口和有效载荷)分类不可靠的问题,提出基于C4.5决策树算法,根据训练集中属性的信息增益比率构建分类模型,按属性对测试数据集进行预测,通过查找分类模型实现对网络流量的分类。在公开数据集和自己采集的数据集上进行实验,结果表明,采用C4.5决策树算法对网络流量分类,平均分类精度为93%,单类别分类精度均在90%以上,能有效地实现对网络流量应用类型的识别。  相似文献   

10.
林泳昌  朱晓姝 《广西科学》2020,27(3):276-283
针对在数据样本不均衡时,K近邻(K-nearest Neighbor,KNN)方法的预测结果会偏向样本数占优类的问题,本文提出了一种基于合成少数类过采样方法(SMOTE)的KNN不均衡样本分类优化方法(KSID)。该方法过程为:首先使用SMOTE方法将不均衡的训练集均衡化,并训练逻辑回归模型;然后使用逻辑回归模型对训练集进行预测,获取预测为正样本的数据,通过使用SMOTE方法均衡化该正样本,并训练KNN模型;最后把测试集放入该结合逻辑回归方法的KNN模型进行预测,得到最终的预测结果。围绕6个不均衡数据集,将KSID与逻辑回归、KNN和支持向量机(SVM)决策树等方法进行对比实验,结果表明,KSID方法在准确率、查全率、查准率、F1值这4个性能指标上均优于其他3种方法。通过引入SMOTE,KSID方法克服了KNN模型遇到样本不均衡数据集时,产生分类偏向的问题,为进一步研究KNN方法的优化和应用提供参考。  相似文献   

11.
利用小波包的信号分析特性及峰式马尔科夫链的非稳态数据预测特性,提出一种新型风速短期预测方法。该方法对历史风速数据进行小波包分解,利用峰式马尔科夫链对小波包系数进行统计,分别得到小波包系数上升转移概率矩阵和下降转移概率矩阵,并由此得到下一时刻的小波包预测系数,将小波包系数进行重构可得到预测的风速。该文模型与其他模型的预测结果对比表明,该方法具有较高精度。  相似文献   

12.
网络舆情中的谣言对社会危害极大,因此有效地检测网络舆情中的谣言已是当务之急.目前,一些单一机器学习算法被相继应用到谣言检测中.针对这些单一机器学习算法在分类上的局限性,将一种融合逻辑回归与决策树的逻辑模型树方法用于谣言检测上.根据舆情分析报告上采集的数据集,实验结果表明:组合模型逻辑模型树的分类预测准确率比已应用到谣言检测的单一机器学习算法明显要高,逻辑模型树是一种有效的谣言检测方法.  相似文献   

13.
列控车载设备的健康管理和故障预测是实现高速铁路关键装备智能化视情维护的重要途径.为了克服列控车载设备故障建模的复杂性和健康监测手段受限等问题,充分运用现场收集的设备运行记录数据,提出一种基于数据驱动的列控车载设备故障预测体系框架.建立了高速列车列控车载设备运行数据管理平台,基于大量历史现场数据构建训练及测试样本集,运用极端梯度提升(eXtreme Gradient Boosting,XGBoost)算法实施特定故障类型的模型训练与学习,并将所得故障模型用于故障概率的预测分析.以CTCS2-200H型列控车载设备为对象,运用实际数据对所提出的故障建模方法进行了验证,对不同建模样本规模、故障类型维度下的模型性能以及不同建模算法性能进行了对比.结果表明:基于XGBoost算法的建模方法能够有效揭示各特征量与故障之间的关联,所采用树的深度值越高,迭代收敛速度越快;相较于GBDT、RF算法,基于XGBoost的建模方法能够实现更高的预测正确率,在给定样本条件下达到稳定正确率所需训练时间分别减少了78.55%、12.47%,验证了该方法在大规模数据条件下的适用性和性能优势.  相似文献   

14.
目前,大部分进行情感分类的模型以单个数据集进行训练并测试,然而对一个数据集训练得到的模型参数不适用于另一个数据集,模型不具备通用性.为此提出一种适用于多个领域的情感分类模型(MDSC),借助样本过滤和迁移学习,使训练得到的模型参数适用于多个领域下的不同数据集,使模型更具适用性和拓展性,即先将文档映射到领域的分布式表示,并以此作为领域分类和情感分类的桥梁,最后进行情感分类.为了使模型更具通用性,需要选择代表性强的数据样本,于是通过构建具有领域独立性的情感字典对属于同一文档的句子进行过滤,获取高质量的训练集.同时为了提高分类准确率并减少训练时间,使用基于参数的迁移学习方法,利用神经网络获得文档向量再进行分类.在包含15个不同领域的数据集上进行实验,与其他情感分类模型相比得到了较好的实验效果.  相似文献   

15.
在更加复杂的地质因素影响下,常规测井方法识别煤体结构准确度低,为精确识别煤体结构,研究了煤体结构测井曲线响应机理以及随机森林决策树个数的优选,从而建立煤体结构与测井曲线的随机森林分类模型进行煤体结构识别。结果表明:决策树个数为500时,随机森林分类模型效果最佳;通过袋外误差和模型对测试集样本的预测结果可知,随机森林分类模型的结果稳定且泛化性强,并且适合处理非均衡数据,预测精度较高。可见随机森林算法能有效识别煤体结构,为煤层气开发提供帮助。  相似文献   

16.
决策树方法是数据挖掘中一种重要的分类方法,决策树是一个类似流程图的树型结构,其中树的每个内部结点代表对一个属性的测试,其分支代表测试的结果,而树的每个叶结点代表一个类别。通过决策树模型对一条记录进行分类,就是通过按照模型中属性测试结果从根到叶找到一条路径,最后叶节点的属性值就是该记录的分类结果。  相似文献   

17.
在少数民族语言信息处理领域,由于文本分类标注数据的稀缺,相关研究工作进展缓慢.为了充分利用有限的标注数据,更有效地挖掘出文本之间的关系,本文对藏文提出一种基于预训练模型和图卷积神经网络的长文本分类方法CINO-GCN.首先利用在实验数据集上经过微调的少数民族多语言预训练模型(Chinese Minority Pretrained Language Model, CINO)得到藏文长文本的初始文档向量和藏文音节向量.然后根据整个数据集范围的音节共现关系与音节和文档间的TF-IDF值来对藏文文本图进行建模.最后将文本图和结点特征一同输入至图卷积神经网络(graph convolutional networks, GCN)层,得到的文档表示经过Softmax得到分类结果.将该方法在公开的TNCC藏文新闻文本分类数据集上与当前几种主流的深度学习模型进行了多组对比实验,分类准确率达到73.51%,远优于其他基线模型;同时设计了消融实验验证模型各部分对分类结果的增益.实验结果表明,该文提出的模型能够结合预训练词向量和图神经网络的优势,显著提高藏文文本分类的准确率.  相似文献   

18.
阐述了ID3决策树算法原理,分析了汽车评测数据,提出了应用决策树来处理汽车评测问题的方法,该方法利用训练数据的信息增益来构建评测模型,并通过对评测模型的查找来完成其它数据的分类预测.实验结果表明:利用决策树来处理汽车评测问题具有良好的预测准确率.  相似文献   

19.
为获得网络赌博犯罪行为涉案电子证据的分布规律,针对网络赌博案例库所导出的训练样本集,提出容粗糙集属性约简思想的决策树分类预测算法,由属性约简进行决策树预剪枝,将属性重要性度量融入决策树分支属性结点的选择过程,案例拟合验证表明所建决策树分类模型具有较高的分类预测精度,所获预测规则可有效指导网络赌博案件的侦破。  相似文献   

20.
R软件的数据挖掘应用   总被引:1,自引:0,他引:1       下载免费PDF全文
开源R软件集成了各种的数据分析和可视化方法,具备强大的数据分析功能和良好的可扩展性,适用于数据挖掘;结合城市主要经济指标的数据挖掘案例,给出了R软件在挖掘过程中各主要阶段的应用方法;数据准备阶段包括数据抽取、数据选择与统计分析应用;挖掘建模阶段给出了聚类和分类的典型挖掘应用;模型评估阶段给出了决策树的评估方法;从简洁的R语言脚本设计和良好的分析效果,展示了R软件的基本特点和在数据挖掘应用中的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号