首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
2.
在监督学习中,标签噪声对模型建立有较大的影响。目前对于标签噪声的处理方法主要有基于模型预测的过滤方法和鲁棒性建模方法,然而这些方法存在过滤效果差或者过滤效率低等问题。针对该问题,该文提出一种基于数据分布的标签噪声过滤方法。首先对于数据集中的每一个样本,根据其近邻内样本的分布,将其及邻域样本形成的区域划分为高密度区域和低密度区域,然后针对不同的区域采用不同的噪声过滤规则进行过滤。与已有方法相比,该方法从数据分布角度出发,使得噪声过滤更具有针对性从而提高过滤效果;此外,使用过滤规则对噪声数据进行处理而非建立噪声预测模型,因而可以提高过滤效率。在15个UCI标准多分类数据集上的实验结果表明:该方法在噪声低于30%时,噪声检测效率和分类精度均有很好的表现。  相似文献   

3.
对基于激光测量的管形零件内轮廓母线采样数据进行滤波.提出了基于能量差的加权均值递归滤波算法.该滤波方法中权值求取方法的思想是尽量给滤波窗口内能量频谱相对集中的采样数据赋予较大的权值,而给由于干扰引起的畸变数据赋予较小的权值.合适的滤波窗口长度通过仿真对比试验获得.这一思想的合理性通过仿真分析和实验测试得到验证,并表现出良好的效果.  相似文献   

4.
心脏心律失常数据集的心电图(ECG)数据往往存在各心律失常类型下样本数量不平衡问题.针对此问题,提出了一种新的模式识别分类方法,即改进的基于核的差重建的加权k-近邻分类器(modified kernel difference-weighted k-nearest neighbor classifier, MKDF-WKNN),通过引入修正因子对含样本数较多的类别进行权值抑制,对含样本数较少的类别进行权值的加大,并使用UCI心脏心律失常数据集对ECG数据进行分类.实验结果表明,提出的算法和其他一些基于KNN的算法如KNN,DS-WKNN,DF-WKNN和KDF-WKNN相比,对于不平衡的心律失常数据集的分类有更好的效果.  相似文献   

5.
对于光学相干层析图像中的散斑噪声,提出了一种基于贝叶斯的降噪算法.通过将带有噪声的成像数据放在对数空间中,从噪声的高斯分布中抽取样本,根据图像相邻像素之间的相关性,对样本内的像素赋予相应的权值,用加权直方图估计后验分布,并运用一般贝叶斯最小均方差得出图像的无噪声数据.该算法与传统的小波变换降噪和中值滤波去噪相比,在信噪比(SNR)和等效视数(ENL)方面都有明显的改善,在一定程度上提升了图像质量.  相似文献   

6.
模糊支持向量机的核心思想是赋予样本模糊隶属度,给每个样本以不同的权重,从而克服标准支持向量机对噪声和异常点敏感的问题.现有的模糊支持向量机算法通常以样本与类中心距离为基础,给每个样本赋予一个固定的隶属度,没有根据样本分布对隶属度做进一步修正.提出了一种新的动态方式赋予样本隶属度,利用萤火虫算法不断地更新样本中心的位置和隶属度函数,同时利用粒子群算法优化模糊支持向量机参数.在UCI数据集上的实验结果表明,该算法可以有效减少噪声和野点对超平面的影响,分类性能要优于几类常用的模糊支持向量机算法.  相似文献   

7.
传统Kmeans聚类算法的性能易受初始类簇中心随机性和类簇中心计算的迭代过程中边缘点和离群点反复计入的影响,为了避免这些影响,该文提出一种基于反向K近邻和密度峰值初始化的加权Kmeans聚类算法。通过样本的近邻信息计算每个样本的反向K近邻,针对不同规模、不同密度分布数据集,可以自适应地搜索密度峰值点作为初始类簇中心;自适应设定相对簇半径,并通过样本加权进行类簇中心迭代,在不同数据分布下可以有效降低边缘点和离群点对聚类结果的影响。试验结果证明,该算法在聚类性能提升的同时迭代次数大幅降低,随着入侵行为类型和数据规模的增加,该文聚类算法仍体现出较好的性能,且在发现未知攻击类型上效果显著。  相似文献   

8.
随机梯度下降(stochastic gradient descent,SGD)算法是机器学习问题中的高效求解方法之一.但是,对于非平衡数据,传统的随机梯度下降算法,在训练时多数类点被抽到的概率远大于少数类点,易导致计算不平衡;对于目标函数不可导或不易求导的问题,计算代价太大或无法进行计算;在每次迭代中利用单个样本梯度近似代替全梯度,这必然会产生方差,严重影响算法的分类性能.针对上述问题,提出了带有方差减小的加权零阶随机梯度下降算法,考虑了数据的间隔分布情况,在目标函数中引入了间隔均值项,并对多数类样例赋予了较小的权值,对少数类样例赋予较大的权值.在对优化问题的求解中,采用零阶优化的方法对梯度进行估计,并且引入了方差减小策略.在一些非平衡数据集上的实验验证了所提算法的有效性,并有效解决了上述问题.  相似文献   

9.
针对目前金融领域文本存在标注资源匮乏的问题,提出一种基于生成对抗网络的金融文本情感分类方法. 该方法以边缘堆叠降噪自编码器生成鲁棒性特征表示作为输入,在生成对抗过程中,通过向文本表示向量添加噪声向量再生成新样本,应用对抗学习思想优化文本特征表示. 在公开的跨领域情感评论Amazon数据集和金融领域数据集上进行实验,并与基准实验对比,结果表明,该方法在平均准确率上有显著提升.  相似文献   

10.
孪生支持向量机通过求解2个较小二次规划问题得到一对非平行超平面,从时间和准确率方面提高了分类器的性能.由于此方法使用Hinge损失函数,造成孪生支持向量机对噪声较为敏感以及重采样的不稳定.为此,针对多分类问题,将pinball损失函数与样本权重引入到孪生支持向量机中,采用一对一方法组合二分类器,提出了基于pinball损失的一对一加权孪生支持向量机,较好地解决了孪生支持向量机对噪声的敏感性以及重采样的不稳定性.另外,对于样本的不同影响,给出了多种求取样本权重的方法.实验中选取标准数据集和人工合成数据集对提出的算法进行了验证,并与一对一孪生支持向量机(OVO-TWSVM)、一对多孪生支持向量机(OVA-TWSVM)以及基于pinball损失的一对一加权孪生支持向量机(Pin-OVO-TWSVM)进行了比较,表明了提出方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号