首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
分类算法的现有评价指标存在一些问题,主要是评测数值在不同的数据集上呈现剧烈波动。为解决这一问题,通过考察数据集对分类结果的影响,提出了一种对分类算法的新评测指标new-macro-F1。这一新评测指标将数据集的因素从评测过程中独立了出来,使得new-macro-F1表示的仅仅是分类算法本身。实验结果表明使用新评测指标,同一分类器在不同数据集上的表现波动较小;通过分类器在一个数据集上的表现,可以近似的估计该分类器在另一数据集上的分类质量。  相似文献   

2.
一种基于证据理论的数据分聚类融合算法   总被引:1,自引:1,他引:0  
为了有效处理模式识别问题中的不确定信息并提高数据分类精度,研究了一种新的证据分聚类融合算法(new evidence classification and clustering fusion algorithm,NECCFA)。首先使用证据K近邻分类算法为各目标数据构造一组初始基本置信指派。然后根据证据C均值算法的目标函数模型,并通过新算法的迭代寻优过程不断地对目标数据的基本置信指派进行完善。最后根据融合结果和所设定的分类规则判断目标的类别属性。通过模拟数据集和真实数据集实验,将新算法与其他几种常见方法进行了对比分析,结果表明能够有效提高分类准确度。  相似文献   

3.
基于Rough集的决策树算法   总被引:1,自引:0,他引:1  
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。  相似文献   

4.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出一种新改进的SVM(IMSVM)不平衡数据集分类算法。该算法先计算每个样本在距离临界区域内的密度值,依据样本的密度值分别选出边界区域、靠近边界区域的与少数类数目相等的样本与少数类完成SVM初始分类;再用所得的支持向量机和剩余的多数类样本对初始分类器迭代优化。人工数据集和UCI数据集的实验结果表明:与WSVM、ALSMOTE-SVM和基本SVM算法相比,对于不平衡性较高的Spectf Heart数据集;本文算法较其他算法的G-mean提高了5.59%,F-measure提高了6.43%,CPU运行时间降低了13%。上述结果表明:IMSVM算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能。  相似文献   

5.
数据规模的不断增加,使得为数据库中全部样本做标记变得尤为困难,数据集也因此呈现出了明显的弱标记性.为此,针对大规模少数标记数据集的特征选择问题,基于经典的Relief-F算法,通过综合考虑有标记样本与无标记样本对数据样本近邻的影响,重新定义样本近邻的搜索策略,提出了一种面向符号数据的半监督特征选择算法.为进一步分析新算法的有效性,仿真实验中选取了5组UCI数据集,并引入机器学习中3个常用分类器对新算法和对比算法的特征选择结果的分类性能作了分析和比较,实验结果很好地验证了本文中提出的新算法的有效性和可行性.  相似文献   

6.
一种基于模糊C均值的新分类算法   总被引:1,自引:0,他引:1  
以两种初始化类中心的选择算法为基础, 对传统聚类算法模糊C均值算法进行改进, 提出一种基于模糊C均值的新分类算法NFCM, 解决了数据分类问题, 并采用UCI上的标准数据集中多个常用数据集进行实验测试, 实验结果表明, 对于UCI上标准数据集的常用数据具有较好的分类结果.  相似文献   

7.
分析了CHAMELEON聚类算法的不足,定义一种基于k最临近集和共享k最临近集的相似度函数,在此基础上提出了一种结合分类算法的新聚类算法,经过对模拟的复杂数据组和KDD Cup'99网络非法入侵数据的实验,证明该算法能有效的对由大量噪音和不同形状、大小及密度的类组成的高维数据进行聚类.  相似文献   

8.
一种基于模糊C均值的新分类算法   总被引:1,自引:0,他引:1  
以两种初始化类中心的选择算法为基础, 对传统聚类算法模糊C均值算法进行改进, 提出一种基于模糊C均值的新分类算法NFCM, 解决了数据分类问
题, 并采用UCI上的标准数据集中多个常用数据集进行实验测试, 实验结果表明, 对于UCI上标准数据集的常用数据具有较好的分类结果.  相似文献   

9.
【目的】机器学习中不同算法适用于具有不同分布特征的数据集。在用整个训练集上训练得到的单个分类器预测新样本类别时,由于缺少对局部区域样本的针对性,可能导致分类器对某一区域数据的预测能力较差而产生错误分类。为了解决这个问题,提出基于k-means+ +的多分类器选择算法。【方法】首先用3种分类综合性能较好的算法———Ada-Boost、SVM、随机森林(RF)在训练集上分别训练得到3个分类器作为候选基分类器,然后利用k-means++算法将训练数据集分为k个簇,用3个候选分类器分别对每个簇进行分类测试,选择对这一簇中数据分类精度最高的分类器作为与它的数据相似数据的分类器。在对新样本进行类别预测时,首先判定样本属于哪个簇,然后用它的分类器进行分类预测。【结果】实验结果表明,新算法在9个UCI数据集上优于单个分类算法。【结论】基于局部区域动态选择最优分类器可以提高模型分类准确性。
  相似文献   

10.
数据描述只使用目标集训练样本获得关于目标集的描述,支持向量数据描述(SVDD)是一种有效的单值分类数据描述算法,根据分类边界线上的支持向量之间距离的大小。利用距离的相似度来对训练集进行约减,实验结果表明,该算法与传统SVDD相比减少了训练时所需的支持向量数目,因而减少了测试时间,同时分类性能也稍有提高.  相似文献   

11.
传统的分类算法大多假设数据集是均衡的,追求整体的分类精度.而实际数据集经常是不均衡的,因此传统的分类算法在处理实际数据集时容易导致少数类样本有较高的分类错误率.现有针对不均衡数据集改进的分类方法主要有两类:一类是进行数据层面的改进,用过采样或欠采样的方法增加少数类数据或减少多数类数据;另一个是进行算法层面的改进.本文在原有的基于聚类的欠采样方法和集成学习方法的基础上,采用两种方法相结合的思想,对不均衡数据进行分类.即先在数据处理阶段采用基于聚类的欠采样方法形成均衡数据集,然后用AdaBoost集成算法对新的数据集进行分类训练,并在算法集成过程中引用权重来区分少数类数据和多数类数据对计算集成学习错误率的贡献,进而使算法更关注少数数据类,提高少数类数据的分类精度.  相似文献   

12.
为解决微阵列数据中因样本量少且每个样本的维度高而带有大量干扰信息和冗余信息的问题, 通过分阶段的步骤对特征基因集进行全方位的选取和优化。考虑到单个基因在不同环境中的差异性, 从中选择出只在特定条件下差异较大的基因构成候选特征集; 剔除候选特征集中相关性较小的基因; 采用遗传算法对所得特征集的任意子集的整体分类性能进行考查, 选出较优的子集。实验结果表明, 该算法对逐步选取特征基因具有可行性和有效性, 而特征基因集在分类适应度(分类能力度量)和分类准确率均比原始数据更好。  相似文献   

13.
为解决日趋增长的噪声大数据分类问题,提出了一种高度随机模糊森林算法.该算法在决策树学习中生成连续属性的模糊分区,并给出在MapReduce框架中所提算法的分布式实现,用于受属性噪声污染的大数据集中学习模糊决策树的集合,该分布式实现模型可以适应计算的有效分配策略,从而产生良好的可扩展性数据,这种分布式算法使得模糊随机森林能够处理大数据集的学习和分类.高度随机模糊森林算法能够实现噪声大数据的高精度分类,为以后的大数据分析打下良好的基础.实验结果表明,所提算法比现有算法准确率更高,在属性噪声情况下,该文分类准确率也高于随机森林算法,说明该文算法的可行性和有效性.  相似文献   

14.
支持向量机(Support Vector Machine,简称SVM)是一种有效分类方法.不同特征选取算法对分类器影响不同,结合支持向量机特点,提出了一种基于最大间隔的支持向量机特征选取算法.利用该算法,对Iris测试数据集进行了特征选取并仿真,实验结果表明,该算法不但能够有效去除噪音数据,而且提高了分类器推广与泛化能力.  相似文献   

15.
 模式分类过程涉及到对原始训练样本的学习,容易导致用户隐私的泄露。为了避免模式分类过程中的隐私泄露,同时又不影响模式分类算法的性能,提出一种基于主成分分析(PCA)的模式分类隐私保护算法。该算法利用PCA 提取原始训练数据的主成分,并将原始训练样本集合转化为主成分的新样本集合,然后利用新样本集合进行分类学习。选用Adult 数据集和KDDCUP 99 数据集进行仿真实验,并采用正确率和召回率进行性能评价,结果表明,该隐私保护算法通过PCA 提取原始数据特征属性的主成分,可避免原始属性的泄露,同时PCA 在一定程度上可实现去噪,从而使分类器的分类性能优于原始数据集的分类性能。与已有算法比较,该隐私保护算法具有更好的模式分类精度和隐私保护性能。  相似文献   

16.
针对朴素贝叶斯网络分类模型在处理高维大数据量时的效率偏低和准确率有待提高的问题,结合主元分析法与K-均值聚类算法构造出了一个改进的朴素贝叶斯网络分类模型;摒弃了非类属性变量相对于类属性变量相对独立的前提条件,算法首先用主元分析法在对数据集的信息量尽量保存的同时进行了降维操作,使得算法可以着重于进行分类问题;算法还提出了一个"相对融合点"的概念,有效地提高了算法的性能;最后对算法的性能进行了分析,并将改进的算法应用到实际的数据集进行实验,用算法产生的分类结果对数据集中产生的一些缺失数据进行修补。  相似文献   

17.
针对ID3算法构造的决策树结构复杂、对噪声数据比较敏感等局限性,提出一种新的面向噪声数据的决策树构造算法。算法借鉴变精度粗糙集和尺度函数概念,采用不同尺度下近似分类精度选择测试属性构造决策树,在算法形成过程中利用决策规则的可信度对决策树进行修剪,避免了生成的决策树过于庞大。结果表明,该方法是有效的,能够克服部分噪声数据对决策树的影响,且能满足不同用户对决策精度的要求。  相似文献   

18.
一种小功率开关稳压电源设计   总被引:2,自引:0,他引:2  
本文设计了一种以电流型PWM控制器5L0380为控制核心的单端反激式开关稳压电源。重点给出EMI滤波器、整流电路、变压器、控制电路、反馈电路的参数设计。实验结果表明,所制作的电源具有稳压性能优良、纹波小、电压调整率和负载调整率小等优点。  相似文献   

19.
IntroductionImagesegmentationisoneofthemostimportantstepsleadingtotheanalysisofprocessedimagedata—itsmaingoalistodivideanimageintopartsthathaveastrongcorrelationwithobjectsorareasoftherealworldcontainedintheimage.Therefore,imagesegmentationisusefulinmanyapplicationsforidentifyingregionsorobjectsofinterestinasceneorannotatingthedata,includingobjectdetectionandextraction,motiontracking,objectbasedvideocodingetc.However,imagesegmentationisalongstandingproblemincomputervisionanditsverydifficultto…  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号