首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
为使支持向量机(SVM)更加适用于在线文本分类应用,利用SVM在小训练样本集条件下仍有高泛化能力的特性,结合文本特征向量在特征空间中具有聚类性的特点,提出一种用语义中心集代替原训练样本集作为训练样本和支持向量的SVM语义SVM.文中给出了语义中心集的生成步骤、语义SVM的在线学习算法框架,以及基于SMO算法的在线学习算法的实现.实验结果表明,相对于标准SVM,语义SVM及其在线学习算法不仅在线学习速度和分类速度有数量级提高,而且在分类准确率方面具有一定优势.  相似文献   

2.
基于主动学习SVM分类器的视频分类   总被引:4,自引:0,他引:4  
提出一种基于主动学习SVM分类器的视频分类算法.该算法分为两个步骤:首先分析并提取与视频类型有关的十维底层视觉特征;然后用SVM分类器建立这些底层特征与视频类型之间的联系.在获取SVM分类器所需的训练样本时,采用主动学习的方法选择对SVM分类器最"有用"的样本提供给用户进行标注,用更少的训练样本获得与大量训练样本近似的分类效果,从而减轻用户标注负担.针对多类SVM分类的主动学习问题,提出用后验概率计算分类器对未标注样本的置信度进行样本选择.实验结果表明,主动学习算法与随机采样标注的被动学习算法相比,在相同的训练样本情况下能够获得更高的分类精度;而基于后验概率选择样本的主动学习要略好于传统的基于变型空间(version space)选择样本的主动学习.  相似文献   

3.
针对SVM中当训练样本数非常多时,分类算法训练阶段的计算量庞大;当训练样本集中存在噪声时,影响训练阶段超平面划分的准确度,导致分类准确率降低等问题,提出了一种基于密度的训练样本裁剪的SVM算法。首先应用密度裁剪算法裁剪掉原始训练样本集中存在的噪声和冗余样本,作为新训练样本集,使用网格搜索算法在新的训练样本集中对SVM参数(C,g)寻优,进行SVM训练并建模,达到分类的目的。实验结果表明,该算法同无样本裁剪的SVM算法相比分类准确率有所提高、训练阶段的时间耗费大大降低。  相似文献   

4.
提出一种新的基于半监督的SVM-KNN分类方法,当可用的训练样本较少时,使用SVM进行分类,不能得到准确的分类边界,本文采用半监督学习策略从大量未标记样本中提取边界向量来改善SVM.KNN分类器的引进不仅扩充了SVM的训练样本数目,而且优化了迭代过程中训练样本的标记质量,可不断修复SVM的分类边界.实验结果表明,所提出的方法能提高SVM算法的分类精度,通过调整参数能够获得更好的分类效果,同时也减小了标记大量未标记样本的代价.  相似文献   

5.
运用OPTICS算法能发现任意形状的聚类,且对输入参数不敏感的优势,提出一种基于OPTICS密度聚类的支持向量机算法,通过对原始数据进行预处理,利用可达图得到约简样本代替原始训练样本用支持向量机进行训练,降低了SVM训练所需的时间及空间复杂度.实验表明,该方法在保持分类精度的同时,大大缩短了训练时间,提高了分类效率.  相似文献   

6.
一种SVM增量学习算法   总被引:13,自引:6,他引:13  
分析了SVM理论中SV(支持向量)集的特点,给出一种SVM增量学习算法,通过在增量学习中使用SV集与训练样本集的分类等价性,使得新的增量训练无需在整个训练样本空间进行,理论分析和实验结果表明,该算法能然保证分类精度的同时有效地提高训练速度。  相似文献   

7.
支持向量机(SVM)花费大量时间用于对非支持向量样本的优化.根据支持向量都是位于两类边界的靠近分类超平面的样本点,本文提出首先利用基于中心距离比值法排除大部分远离分类超平面的样本,然后以最小类间距离样本数作为测度进一步选择边界样本.得到包含所有支持向量的最小样本集,构成新的训练样本集训练SVM.将提出的算法应用于解决医学图像奇异点检测问题.实验结果表明.该算法减小了训练样本集的规模,有效地缩短了SVM训练算法的时间.同时获得了较高的榆出率.  相似文献   

8.
提出一种基于核可能性c-均值算法的支持向量机分类算法,该算法改进了SVM训练过程中噪声和孤立点的敏感问题.其基本思想是:用核可能性c-均值算法对每个模式类训练样本进行聚类,得到不同的可能性度量值,根据得到的可能性度量值对训练样本进行修剪,删除具有较低可能性度量值的训练样本,最后用生成的新训练样本训练支持向量机.实验结果表明,该算法可以有效地解决由噪声和孤立点引发的分类错误问题以及重要样本的错分问题.  相似文献   

9.
一种新的支持向量分类算法ACNN-SVM   总被引:1,自引:0,他引:1  
针对NN-SVM算法的不足,提出了一种新的支持向量分类算法--ACNN-SVM.先对训练样本集进行最近邻修剪,用SVM训练得到一个SVM模型,然后,计算最近邻修剪后的训练样本集中样本到超平面的距离,如果距离差大于给定的阈值则将其从最近邻修剪后的训练样本集中删除,最后对冉修剪后的样本集用SVM训练得到一个最终的SVM模型.实验表明,ACNN-SVM算法的效果优于NN-SVM算法.  相似文献   

10.
SVM可在训练样本很少的情况下获得很好的分类推广能力。首先分析了用多类SVM算法对车牌中的字符进行识别时存在不可区分的区域问题和采用模糊SVM算法解决该问题的办法,然后讨论了字符特征的提取方法,并根据我国车牌字符的特点分别设计了汉字、字母、数字、字母/数字4个基于模糊多类SVM的字符分类器。最后在MATLAB环境下,采用径向基核函数对算法进行学习训练。实验测试结果表明,该方法可以很好的提高字符识别的速率和效率。  相似文献   

11.
为解决日趋增长的噪声大数据分类问题,提出了一种高度随机模糊森林算法.该算法在决策树学习中生成连续属性的模糊分区,并给出在MapReduce框架中所提算法的分布式实现,用于受属性噪声污染的大数据集中学习模糊决策树的集合,该分布式实现模型可以适应计算的有效分配策略,从而产生良好的可扩展性数据,这种分布式算法使得模糊随机森林能够处理大数据集的学习和分类.高度随机模糊森林算法能够实现噪声大数据的高精度分类,为以后的大数据分析打下良好的基础.实验结果表明,所提算法比现有算法准确率更高,在属性噪声情况下,该文分类准确率也高于随机森林算法,说明该文算法的可行性和有效性.  相似文献   

12.
为提高分类准确率, 解决城市区域社会功能标签分类难的问题, 提出了一种基于不确定抽样选择策略的半监督城市土地功能分类方法。该算法从轨迹数据中提取城市区域的特征向量, 只需对少量区域进行标签, 根据不确定抽样的主动学习选择策略, 从未标注训练样本中选取具有较多信息的数据, 利用半监督学习算法进行标注, 得到新的标注训练样本添加到训练集, 反复迭代后得到分类结果。实验结果表明, 该方法对不同社会功能的城市区域分类准确率可达90. 2%, 与传统方法相比分类准确率高, 减少了大量标注工作, 在少数标签数据上仍有较好的分类效果。  相似文献   

13.
本文提出了一种新的基于EP的分类算法,即基于基本显现模式的懒惰式贝叶斯分类算法(Lazy Bayesian Classification based on essential Emerging Patterns,LBCeEP),该算法使用懒惰式学习技术进行训练数据集的约简,并使用了一种特殊形式的更能有效地反映类标属性的EP,同时采用贝叶斯方法应用这种EP来进行分类.在UCI机器学习库中的14个数据集上的实验表明,本文所提出的算法具有更好的分类效果。  相似文献   

14.
洪月华  徐霜  梁家荣 《广西科学》2013,20(2):128-131,136
为了实现对无线传感器网络监测得到的高维冗余且不确定的数据进行分类识别,提出一种由遗传算法和粗糙集进行优化的BP神经网络数据分类器模型,并形成了数据挖掘分类算法。该模型通过粗糙集理论的属性约简算法删除训练样本的冗余属性,利用遗传算法对神经网络的权值和阈值进行优化,并进行神经网络学习。数据挖掘分类算法学习速度快,能够有效提高无线传感器网络中数据的分类效率。  相似文献   

15.
基于代表的邻域覆盖粗糙集分类算法,在某些数据集上表现良好,数据的类别不平衡问题严重影响算法的分类精度.为尽量消除类别不平衡问题的影响,在k折交叉验证方法的基础上,针对基于代表的邻域覆盖粗糙集分类算法,提出了3种集成策略.策略1依靠k折交叉验证,获得对应的k个基分类器,所有的基分类器组成委员会对未分类样本分类;在策略1的基础上,策略2选择分类精度相对较高的基分类器组成委员会,对未分类的样本进行分类;策略3在前2种策略的基础上,利用主动学习的思想,对训练集进行扩充,得到新的分类器再对未分类样本分类.实验所用数据集为UCI标准数据集,且对k的取值做了对比实验.结果显示,3种策略均有不同程度的提升,且k取5时总能取得较好的提升效果.对于不同数据集,应选择相适应的改进策略.  相似文献   

16.
传统的分类算法大多假设数据集是均衡的,追求整体的分类精度.而实际数据集经常是不均衡的,因此传统的分类算法在处理实际数据集时容易导致少数类样本有较高的分类错误率.现有针对不均衡数据集改进的分类方法主要有两类:一类是进行数据层面的改进,用过采样或欠采样的方法增加少数类数据或减少多数类数据;另一个是进行算法层面的改进.本文在原有的基于聚类的欠采样方法和集成学习方法的基础上,采用两种方法相结合的思想,对不均衡数据进行分类.即先在数据处理阶段采用基于聚类的欠采样方法形成均衡数据集,然后用AdaBoost集成算法对新的数据集进行分类训练,并在算法集成过程中引用权重来区分少数类数据和多数类数据对计算集成学习错误率的贡献,进而使算法更关注少数数据类,提高少数类数据的分类精度.  相似文献   

17.
提出一种增量式混合型分类挖掘算法,将基于概率论的符号学习与神经网络学习相结合,能够对既包含离散属性又包含连续属性的多个概念进行有效的分类处理,且具有较强的增量挖掘能力。该算法在法院决策支持系统中得到了运用,取得了较好的效果。  相似文献   

18.
 模式分类过程涉及到对原始训练样本的学习,容易导致用户隐私的泄露。为了避免模式分类过程中的隐私泄露,同时又不影响模式分类算法的性能,提出一种基于主成分分析(PCA)的模式分类隐私保护算法。该算法利用PCA 提取原始训练数据的主成分,并将原始训练样本集合转化为主成分的新样本集合,然后利用新样本集合进行分类学习。选用Adult 数据集和KDDCUP 99 数据集进行仿真实验,并采用正确率和召回率进行性能评价,结果表明,该隐私保护算法通过PCA 提取原始数据特征属性的主成分,可避免原始属性的泄露,同时PCA 在一定程度上可实现去噪,从而使分类器的分类性能优于原始数据集的分类性能。与已有算法比较,该隐私保护算法具有更好的模式分类精度和隐私保护性能。  相似文献   

19.
为了提高分类的精确度,提出一种基于粗糙集理论的增强学习型分类器。采用分割算法对训练数据集中连续的属性进行离散处理;利用粗糙集理论获取约简集,从中选择一个能提供最高分类精确度的约简。对于不同的测试数据,由于离散属性值的变化,相同的约简可能达不到最高的分类精确度。为克服此问题,改进了Q学习算法,使其全面系统地解决离散化和特征选择问题,因此不同的属性可以学习到最佳的分割值,使相应的约简产生最大分类精确度。实验结果表明.该分类器能达到98%的精确度.与其它分类器相比.表现出较好的性能。  相似文献   

20.
流行学习是一种分类问题的有效解决方法.采用人脸数据库作为样本集,对主要几种线性算法和LLE算法进行实验分析,尝试引入一种监督LLE算法,在针对人脸数据库的实验中发现该算法在提取非线性特征中有较好的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号