首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于MPI将ML-kNN算法并行化,以解决多标签学习领域中的大规模分类问题,控制计算的时间开销,这也是首次将MPI应用到多标签学习领域.通过与传统的串行ML-kNN的对比实验,验证了所提方法的可行性和有效性.另外,允许数据集以特征为单位划分,这使得该方法在处理高维数据时具有更大的优势.  相似文献   

2.
为提高分类系统的性能,提出一种统一多种元学习算法的元学习框架,定义并描述了并行和串行两种组合方式.由基分类器的分类结果构成新属性,并加入到特征向量中以形成元数据.通过扩展特征向量,元学习增强了对假设空间的表达能力,降低了系统的偏差.在加州大学提供的标准数据集上对元学习策略进行了实验研究,结果表明:与多数投票、最大规则、最小规则等融合方法实现的多分类器系统相比,并行和串行组合在所用数据集上的平均分类错误率可分别降低39.12%和40.56%,且在n分交叉验证中n值的增加并不能改进分类性能,串行组合中的基分类器的顺序对分类错误率没有显著影响.  相似文献   

3.
分类器链是利用标签间相关性实现挖掘特定对象多维标记信息的重要多标签分类方法.面向现有分类器链算法,针对各标签的基学习器均在完整特征空间中训练导致学习特征冗余,以及因标签学习顺序随机且分类器链训练过程单向无反馈导致的标签间相关信息利用不充分等问题,本文提出一种结合类属特征及因果发现的序列优化分类器链.该方法采用类内仿射传播聚类为每个基学习器构建高级结构化特征,减少冗余信息;利用条件熵准则挖掘标签间因果关系,优化学习序列提高对标签间相关信息的利用程度.在多个公开数据集的实验结果表明,序列优化分类器链有效增强了单节点学习效果以及对多标签间关联信息的利用,有效提升了多标签分类效果,实用价值高.   相似文献   

4.
针对多标签数据类别间的相关性与共现性,提出了一种使用自适应线性回归的多标签分类算法,将经典线性回归理论推广到多标签形式,结合多种评判标准对回归结果设置阈值,进而自适应地预测出最终标签.该方法同时考虑了符合数据期望的固定阈值与反映分类器综合效果的自适应阈值,因而降低了数据分布与噪声对分类的影响.实验结果表明,该方法可以有效地解决多标签分类问题.  相似文献   

5.
传统邻域分类器因良好的分类性能在分类问题中得到广泛应用。但数据规模和维度的不断增加,提高了邻域分类器的处理难度。为解决这一问题,该文基于Spark实现邻域决策错误率并行属性约简算法,删除数据中的冗余属性,减少数据间的不确定性。该算法能减少分类过程中数据计算时间,提高分类计算效率。邻域分类器在分类决策过程中采用的多数投票机制没有考虑到邻域样本的空间差异性与标签不确定性,易导致错误分类。该文在Spark框架下将D-S证据理论引入邻域分类器,并行融合整个邻域空间的证据支持信息,提出基于Spark的邻域证据并行分类算法。实验结果表明,该文提出的算法相较于传统邻域分类器,在处理大规模数据时计算时间更少、效率更高,对未分类样本的分类精度更高。  相似文献   

6.
单实例多标签分类是指一个样本拥有多个标签的分类问题,对此提出了一种基于半模糊核聚类和模糊支持向量机的多标签分类算法.该算法采用一对一分解策略将多类多标签数据集分解为多个两类双标签数据子集,在每个子集上训练两类双标签模糊支持向量机.为提高分类器的性能引入了半模糊核聚类技术.实验结果表明,与现有的一些算法相比新算法具有其优...  相似文献   

7.
郭辉  王阳 《科技信息》2008,(30):26-27
针对数据挖掘中的分类问题,根据多分类器融合的思想,提出一种基于粒子群优化算法的多重决策树分类器融合方法。先将概率度量水平的多重决策树进行线性组合,然后在融合算法中采用粒子群算法优化连接权值矩阵。并在UCI标准数据集上对模型进行了实验研究。结果表明该融合分类方法比单个决策树分类方法具有更高的分类精度。  相似文献   

8.
在半监督分类问题中,某些无标签的数据点很有可能属于某一特定的类,则这些点可被信任,应当被充分地利用去帮助学习正确的分类界面,从而提升图像分类的效果.因此,如何区分出可信点在半监督分类问题中显得尤为重要.针对该问题,提出一种联合的半监督学习方法,可以自适应地区分可信点,并且提出了相应的迭代优化分类器和可信点标签矩阵的算法,把分类器的归纳能力和无标签数据的标签直推化能力融合到了一个框架中,不需要额外的步骤去预测无标签数据的标签.在两个人脸数据库中大量实验验证了所提方法的可行性和有效性.  相似文献   

9.
提出了一种从肿瘤的基因表达数据挖掘肿瘤分类规则的方法. 首先用Bhattacharyya距离指标和相关性分析去除分类无关基因和冗余,然后以决策树作为分类器,用遗传算法搜索所得的特征空间,优化分类精度和分类模型的复杂度. 运行多次得到多个分类树和多组分类规则,由此构建组合树分类器在测试集数据上检验分类效果. 在结肠癌基因表达数据上的实验结果表明了分类规则挖掘方法的有效性和可用性.  相似文献   

10.
提出一种基于聚类的启发式选择性集成学习算法.集成学习通过组合多个弱分类器获得比单一分类器更好的学习效果,把多个弱分类器提升为一个强分类器.理论上来说弱分类器的个数越多,组合的模型效果越好,但是随着弱分类器的增多,模型的训练时间和复杂度也随之递增.通过聚类的方法去除相似的弱分类器,一方面有效降低模型的复杂度,另一方面选出差异性较大的弱分类器作为候选集合.之后采用启发式的选择性集成算法,对弱分类器进行有效的组合,从而提升模型的分类性能.同时采用并行的集成策略,提高集成学习选取最优分类器子集效率,可以有效地减少模型的训练时间.实验结果表明,该算法较传统方法在多项指标上都有着一定的提升.  相似文献   

11.
在计算机辅助诊断系统中使用集成分类器是提高机器识别能力的一种重要途径。针对集成分类器投票组合算法中存在的投票可信度问题,提出了一种基于Grading的集成分类器组合算法EGR,该算法根据集成分类器对样本的预测结果是否正确来转换相应样本的类标签,用新数据构造元分类器。在UCI医学数据集上进行的实验结果显示,EGR算法对分类精度的提升以及敏感性与特异性的整体改善是有效的。  相似文献   

12.
为了确定多标签分类器链方法的链序以及挖掘出高阶标签关联性,提出了一种基于梯度提升的多标签分类器链方法.给出了GB C C整体框架,通过一种预剪枝策略对单一标签进行梯度提升,在此过程中利用标签置信度和误差评价分数确定最佳链序,并在各个标签间进行标签传递和特征传递,以挖掘高阶标签关联性.将所提出方法与4种分类器链方法(CC、ECC、OCC、EOCC)以及4种多标签分类方法(BR、HOMER、MLKNN、CLR)在bibtex、Corel5 k等12个多标签数据集上进行对比试验.结果表明:新方法在各个评价指标(micro-F1、macro-F1、Hamming loss、One-error)下不仅能够有效提升预测性能,而且能够保持分类器链方法的简单灵活性.  相似文献   

13.
RAKEL(random k-labelsets)算法是一种集成技术,能有效解决多标签分类问题.它将原始标签集随机选用一小部分标签子集构成的数据集来训练每个分类器,但由于RAKEL算法构造标签空间的随机性,并未充分考察到样本多个标签之间的相关性,从而造成分类精度不高,泛化性能受到一定影响.为此,提出了改进的LC-RAKEL算法.首先,通过标签聚类将原始标签集划分成标签簇,再从每个标签簇中各选择一个标签构成标签集,以此发现标签空间中重要且不频繁的映射关系;然后,利用出现次数较少的标签集合组成新的训练数据,训练相应的分类器.实验证明,改进的算法性能优于其他常用多标签分类算法.  相似文献   

14.
针对文本分类中的交叉类别问题,提出一种基于传统潜在语义分析方法的新算法NLSA(new latentsemantic analysis)对网页进行文本分类.该方法可以将相关但是不同类别中的标签和非标签数据统一在一个概率模型中,通过研究两个类别的共有主题,在不同类别中转换知识来帮助目标文本进行分类.该方法可以最大化利用原有标签数据对新文本进行分类.实验证明:该算法能够显著提高交叉类别的文本分类性能,比传统的文本分类器有更好的性能.  相似文献   

15.
基于miRNA表达谱数据集,提出了一种新的数据挖掘算法——tSVM-kNN(t statistic with support vector machine-k nearest neighbor).该算法的思想为:首先,采用统计量法对该数据集进行特征初选;其次,将融合了支持向量机和K-最近邻判别法思想的算法——SVM-kNN算法作为分类器;最后,输出分类结果.仿真实验表明,SVMkNN算法分类器的分类能力比单独运行SVM和kNN都好;在miRNA"标签"的数量和识别精度方面,tSVM-kNN算法只需要取5个miRNAs即可获得96.08%的分类准确率.与同类的算法相比,其具有明显的优越性.  相似文献   

16.
提升是一种有效的分类器组合方法,它能够提高不稳定学习算法的分类性能,但对稳定的学习算法效果不明显.BAN(BN augmented Nave-Bayes)是一种增强的贝叶斯网络分类器,通过提升很容易提高其分类性能.文中比较了GBN(general BN)和BAN的打包分类器Wrapping-BAN-GBN与基于提升的BAN组合分类器Boosting-BAN,最后通过实验结果显示了在大多数实验数据上,Boosting-BAN分类器显示出较高的分类正确率.  相似文献   

17.
随着互联网的发展和数字图像获取技术的进步,传统图像分类算法在处理海量数字图像时,面临耗时过多、文件系统及处理架构落后的问题.针对这一问题,利用主流的Hadoop开源分布式计算平台,引入视觉词袋模型实现对图像的表示,并对模型的图像直方图化过程做出改进,提出一种自适应的特征分配方法,最后采用易于并行的随机森林算法作为分类器,以充分利用Hadoop平台强大的分布式计算能力.实验显示,基于Hadoop平台的图像分类方法在处理大规模数据集时较单机环境能有效减少时间消耗,同时具有良好的分类效果.  相似文献   

18.
专家可为社区问答提供权威的答复,高效精准的专家发现有助于提升问答社区的服务质量.现有社区用户数据中存在噪声标签数据,且由于专家数量较少造成分类数据不平衡,从而降低了监督学习模型的专家发现精度.针对上述问题,本文提出一种基于特征扰动的半监督专家发现方法.该方法构建了一种无标签数据特征扰动策略,利用Sharpening算法实现无标签数据的伪标签化;基于ADASYN算法,通过构建专家用户邻近样本的方式扩充专家样本数据量,缓解分类数据的不平衡;构建联合损失函数,利用有标签和伪标签数据共同训练分类器,增强模型的泛化性能.实验结果表明,该方法在多个评价指标上优于已有模型和方法.  相似文献   

19.
单桂军 《科学技术与工程》2013,13(22):6605-6609,6624
为了有效识别声纳信号,提出一种基于连续数据量化的声纳传感器数据识别方法。首先用声学传感器采集数据;其次运用数据离散化方法,有效地将采集到的数据进行连续数据离散化;最后,通过数据挖掘技术(C4.5/C5.0决策树、SVM和Naive-Bayes分类器)对离散后的声纳信号数据进行分类识别。实验首先在UCI数据集上进行Naive-Bayes分类预测来评价提出离散化方法的性能,得到了较好的效果。其后,通过声学传感器收集到的Sonar数据集进行实验。结果表明,新的离散化方法提高了四个分类器的识别精度,表明该声纳传感器数据识别技术是非常有效的。  相似文献   

20.
基于层次的分类器组合   总被引:3,自引:0,他引:3  
对传统的串行、并行组合方式的分析基础上,该文提出一种基于层次的分类器组合方式,并以手写体数字识别为例,选取了8个不同信息层次的分类器进行组合,得到最终分类结果如下:正确识别率为97.15%,错误率为0.75%,拒识率为2.10%,可靠性为99.234%。实验结果表明,此种分类器组合方式较传统的串行、并行组合方式在性能上有所提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号