首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
数据规模的不断增加,使得为数据库中全部样本做标记变得尤为困难,数据集也因此呈现出了明显的弱标记性.为此,针对大规模少数标记数据集的特征选择问题,基于经典的Relief-F算法,通过综合考虑有标记样本与无标记样本对数据样本近邻的影响,重新定义样本近邻的搜索策略,提出了一种面向符号数据的半监督特征选择算法.为进一步分析新算法的有效性,仿真实验中选取了5组UCI数据集,并引入机器学习中3个常用分类器对新算法和对比算法的特征选择结果的分类性能作了分析和比较,实验结果很好地验证了本文中提出的新算法的有效性和可行性.  相似文献   

2.
构造性机器学习方法——覆盖算法学习速度快、复杂度低、可解释性强,能有效地解决有导师学习问题,并取得了很好的效果,但构造神经元的权值即取新覆盖中心时通常人为地给定一个准则,并未遵循样本的分布特征求得最优解.由此采用佳点集理论求取覆盖中心,以改进覆盖算法.针对大规模或动态数据集的分类问题,将构造性覆盖方法与增量学习的思想相结合,提出了构造性覆盖方法的增量学习算法.该算法利用改进的覆盖算法作为基础学习器,通过连续地对新增样本进行测试而反复不断地提炼已有模型,体现了对样本的"渐近式"学习.对标准数据集的实验结果表明,这种增量学习算法是有效的.  相似文献   

3.
心脏心律失常数据集的心电图(ECG)数据往往存在各心律失常类型下样本数量不平衡问题.针对此问题,提出了一种新的模式识别分类方法,即改进的基于核的差重建的加权k-近邻分类器(modified kernel difference-weighted k-nearest neighbor classifier, MKDF-WKNN),通过引入修正因子对含样本数较多的类别进行权值抑制,对含样本数较少的类别进行权值的加大,并使用UCI心脏心律失常数据集对ECG数据进行分类.实验结果表明,提出的算法和其他一些基于KNN的算法如KNN,DS-WKNN,DF-WKNN和KDF-WKNN相比,对于不平衡的心律失常数据集的分类有更好的效果.  相似文献   

4.
传统的KNN算法的时间复杂度与样本规模成正比,大规模或高维数据会降低其分类效率。为此,提出一种改进的KNN快速分类算法。该算法以固定半径长度构造超球为原则,为训练样本集构造多个包围超球。根据各个超球内包含的训练样本集的重心位置与测试样本的位置关系可以快速搜索测试样本的k个最近邻超球,然后以k个最近邻超球内的训练样本集构造新的训练样本集。在新的训练样本集中求测试样本的k个最近邻,从而获得该测试样本的类别。实验表明,改进的KNN快速分类算法的分类准确率得到一定程度的提高、运行效率明显提升。  相似文献   

5.
为了提升分布不均匀样本的分类性能,该文提出了一种基于互邻信息的树型近邻(Tree-based k近邻,kTree)分类方法,以此提高k近邻分类的准确率。首先,采用回归模型刻画样本之间的紧密程度,获取每个样本的最优k值,从而获得最优邻居,并采用kTree提升搜索效率。其次,对于每一个测试样本,基于互邻信息准则,确定其邻域空间,完成k近邻分类。最后,数据集的试验结果表明,该文提出的基于互邻信息的kTree分类准确率高于传统k近邻分类等其他分类算法。该文提出的方法也为k近邻分类的改进提供了新的方向。  相似文献   

6.
通过结合PCA与LLE两种降维方法,提出新的PCA_LLE算法,使它们优势互补.在手写体数字数据集上进行实验,先对数据集降维,再用K近邻算法对降维后的数据分类.实验结果表明融合两种算法的PCA_LLE降维方法较原来的PCA和LLE算法准确率均有了提升.而且新算法PCA_LLE对新样本的降维时间较LLE算法减少很多.在ORL人脸数据集上的实验表明,PCA_LLE算法较PCA,LLE算法准确率有所提高.  相似文献   

7.
文章针对传统K-近邻分类方法学习效率低下的问题,提出一种基于并行计算的加速K-近邻分类方法(K-nearest neighbor classification method based on parallel computing,PKNN),即并行K-近邻分类.该方法首先将所需要分类的样本划分为不同的工作子集,然后在每个子集上进行并行的K-近邻分类.由于划分后每个工作子集的规模均远小于整个数据集的规模,因此降低了分类算法的复杂度,可有效处理大规模数据的分类问题.实验结果表明,PK-NN方法能提高分类效率.  相似文献   

8.
KNN是基于实例的算法,对于大规模样本算法分类性能不高.针对这一缺点,提出一种基于概率模型的学习矢量量化神经网络的改进KNN分类新方法.考虑到最优参考点训练的重要性,结合概率方法得到最佳参考点的判断准则函数,采用梯度下降最优化算法利用LVQ训练参考点的最佳位置.在对未知样本进行分类时选出样本x的K个近邻,采用"投票选举"机制最后判断样本x的所属类别.新方法减少KNN的计算复杂度和时间,弥补了KNN在处理大规模数据问题上的不足.在UCI中数据集上的仿真实验表明改进算法的可行性.  相似文献   

9.
《河南科学》2017,(8):1227-1231
针对不均衡数据集下分类超平面偏移导致直推式支持向量机样本标记准确率低的问题,结合动态代价和TSVM算法,提出一种代价敏感的TSVM算法,该算法依据类样本的空间分布信息计算类错分代价,利用KKT条件选择对当前分类超平面有影响的样本加入下一轮迭代,该算法可以提高初始分类器的分类性能,减少错误的传递和累积,从而提高标注准确率,增强最后分类器的泛化性能.最后在UCI数据集上的实验结果表明该算法在不均衡数据集下的有效性.  相似文献   

10.
文章提出一种融合互近邻和可信度的K近邻算法,根据互近邻的概念删除噪声数据;利用由近邻诱导待分类样本标签的可信度,避免待分类样本近邻中大类吃小类的概率。该算法不仅可以减小噪声数据对分类的影响,而且一定程度上增强了K近邻分类算法的稳定性。该算法在UCI标准数据集上进行了测试,性能相当或优于其他分类器。  相似文献   

11.
偏标记学习是近几年提出的新机器学习框架,已有的逻辑回归偏标记算法尚不能解决数据不平衡问题.建立了一种可以解决数据不平衡的逻辑回归模型偏标记学习算法.基本思想是在多元逻辑回归模型中定义新的似然函数以达到处理不平衡数据的目的.算法先根据训练集中各个类别样本所占比例定义了一个新的似然函数,之后通过逼近和求导等数学手段推导得到了能够求解的光滑的逻辑回归偏标记学习模型.在UCI数据集和真实数据集上的仿真实验表明,所提算法在数据存在不平衡问题时提高了样本的平均分类精度.  相似文献   

12.
信息采集技术日益发展导致的高维、大规模数据,给数据挖掘带来了巨大挑战,针对K近邻分类算法在高维数据分类中存在效率低、时间成本高的问题,提出基于权重搜索树改进K近邻(K-nearest neighbor algorithm based on weight search tree,KNN-WST)的高维分类算法,该算法根据特征属性权重的大小,选取部分属性作为结点构建搜索树,通过搜索树将数据集划分为不同的矩阵区域,未知样本需查找搜索树获得最"相似"矩阵区域,仅与矩阵区域中的数据距离度量,从而降低数据规模,以减少时间复杂度.并研究和讨论最适合高维数据距离度量的闵式距离.6个标准高维数据仿真实验表明,KNN-WST算法对比K近邻分类算法、决策树和支持向量机(support vector machine,SVM)算法,分类时间显著减少,同时分类准确率也优于其他算法,具有更好的性能,有望为解决高维数据相关问题提供一定参考.  相似文献   

13.
针对基于支持向量机算法的网络入侵检测方法,对交错严重的大规模复杂样本集,分类面附近的样本被正确分类可信度低,基于k近邻算法的检测方法测试结果不稳定等问题,提出一种将k近邻与支持向量机相结合的网络入侵检测方法。在分类时,计算待识别的网络连接记录样本与最优分类超平面的距离,如果距离大于预设阀值,采用支持向量机算法对连接记录进行分类,否则采用k近邻法对连接记录进行分类,同时为减少检测方法受样本分布不均衡的影响,采用带权重因子的欧式距离来度量样本间的相似度。最后在KDD99数据集上进行仿真实验,结果表明,相对于单一的支持向量机或k近邻算法的网络入侵检测方法,k近邻与支持向量机相结合的入侵检测方法可以进一步提高网络入侵检测的正确率,是一种较好的网络入侵检测方法。  相似文献   

14.
提出了一种有效的快速k近邻分类文本分类算法,即PSOKNN算法,该算法利用粒子群优化方法的随机搜索能力在训练文档集中进行有指导的全局随机搜索. 在搜索k近邻的过程中,粒子群跳跃式移动,掠过大量不可能成为k近邻的文档向量,从而可以快速找到测试样本的k个近邻. 以Reuters 21578文档集分类为例验证算法的有效性,结果表明,保持k近邻法分类精度,新算法比KNN算法降低分类时间70%.  相似文献   

15.
针对非平衡数据的半监督分类问题,提出了一种基于Biased-SVM的非平衡半监督分类算法.该方法首先利用初始的标记样本集训练处理不平衡数据的Biased-SVM模型,然后用训练好的Biased-SVM模型为未标记样本加上标签,再把新标记样本加入到初始标记样本集中,重新训练Biased-SVM模型,最后在测试集上进行测试.选取公共数据库里的一些数据集进行实验,首先在两类不平衡数据集上实验的结果表明,在标记样本所占比例为20%~80%时,所提方法能够在不降低数据集整体G-mean值的基础上,提高小类的F-value值并具有较高的稳定性;然后在多类不平衡数据集上实验的结果表明,在标记样本所占比例为20%~80%时,所提方法能够在不降低数据集整体的EG-mean值的基础上,提高小类识别率并具有较高的稳定性.  相似文献   

16.
针对主动学习算法能主动从大量未标记样本中选择最能提高分类器性能的样本加入训练集,可从小的非最优训练集建立高性能的分类器这一特点,以及传统主动学习算法熵值装袋查询的多值偏置问题,提出了改进的均值熵值装袋查询算法,引入权值函数保证了取样的多样性.通过对高光谱遥感图像分类的实验表明:主动学习只需大约20%的样本即可达到使用全部数据集作为训练集的分类效果,而且均值熵值装袋查询方法具有较高的分类精度,同时拥有较快的收敛速度.  相似文献   

17.
针对影像分类中少量标记样本问题,提出了基于模糊粗糙集的影像半监督分类算法.首先,通过模糊粗糙集对数据的粗糙性与模糊性进行建模,采用归一化的模糊互信息来度量特征与类别信息的相关性,并利用模糊上下近似度量样本的类别隶属度;然后,结合归一化的模糊互信息改进正则化框架下的特征评价方法,在谱图分析的半监督特征选择框架下实现特征优选;其次,结合近邻约束提高模糊上下近似预测样本类别的准确性,设计基于模糊粗糙集的约束自学习,选择信息量大的未标记样本更新训练样本集;最后,利用新的样本集训练分类器,完成影像分类任务.多组实验表明所提算法能够在少量标记样本的条件下有效提高影像的分类精度.  相似文献   

18.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出一种新的近邻密度SVM(NNDSVM)不平衡数据集分类算法。该算法先计算多数类中每个样本K近邻范围内的密度值,依据该密度值分别选出边界区域、靠近边界区域的与少数类数目相等的样本与少数类完成SVM初始分类;用所得的支持向量机和剩余的多数类样本对初始分类器迭代优化。人工数据集和UCI数据集的实验结果表明,与SVM、ALSMOTE-SVM和WSVM算法相比,本文算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能。  相似文献   

19.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出一种新改进的SVM(IMSVM)不平衡数据集分类算法。该算法先计算每个样本在距离临界区域内的密度值,依据样本的密度值分别选出边界区域、靠近边界区域的与少数类数目相等的样本与少数类完成SVM初始分类;再用所得的支持向量机和剩余的多数类样本对初始分类器迭代优化。人工数据集和UCI数据集的实验结果表明:与WSVM、ALSMOTE-SVM和基本SVM算法相比,对于不平衡性较高的Spectf Heart数据集;本文算法较其他算法的G-mean提高了5.59%,F-measure提高了6.43%,CPU运行时间降低了13%。上述结果表明:IMSVM算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能。  相似文献   

20.
为了解决局部支持向量机算法KNNSVM存在的分类时间过长不利于具有海量数据量的高分辨率遥感图像分类的不足,提高KNNSVM的算法表现,提出了改进的基于不确定性的BKNNSVM算法.该算法利用二项式分布的共轭先验分布Beta分布根据近邻的分布情况推导该未标记样本属于正类或负类的概率大小,从而计算每一个未标记样本在类属性上的不确定性大小.再通过设置不确定性阈值的大小,对不确定性低于阈值的未标记样本直接采用KNN进行分类,而对高于阈值的样本利用其近邻建立局部支持向量机分类器进行分类.对高分辨率图像分类的实验结果表明:合适的阈值能够有效降低原始KNNSVM算法的时间开销,同时能保持KNNSVM分类精度高的特点.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号