首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
 模式分类过程涉及到对原始训练样本的学习,容易导致用户隐私的泄露。为了避免模式分类过程中的隐私泄露,同时又不影响模式分类算法的性能,提出一种基于主成分分析(PCA)的模式分类隐私保护算法。该算法利用PCA 提取原始训练数据的主成分,并将原始训练样本集合转化为主成分的新样本集合,然后利用新样本集合进行分类学习。选用Adult 数据集和KDDCUP 99 数据集进行仿真实验,并采用正确率和召回率进行性能评价,结果表明,该隐私保护算法通过PCA 提取原始数据特征属性的主成分,可避免原始属性的泄露,同时PCA 在一定程度上可实现去噪,从而使分类器的分类性能优于原始数据集的分类性能。与已有算法比较,该隐私保护算法具有更好的模式分类精度和隐私保护性能。  相似文献   

2.
将二次互信息(mutual information)用作模式分类问题中特征选择的准则,分析了该准则在再生核希尔伯特空间中的几何意义.在二次互信息准则基础上,提出了基于Parzen窗密度估计和后向删除策略的特征选择算法PW-QMI,同时针对大规模数据集的情况给出了基于高斯混合模型的算法GMM-QMI,以减小算法的计算复杂度.通过与相关度算法和SVM-RFE算法的实验比较,证明了该算法在特征选择问题上具有更为稳定的性能.  相似文献   

3.
针对词袋模型统计聚集算法忽略了编码矢量的其它统计特征信息及空间信息,并且只能与常用核函数相配合度量图像之间相似性的问题,该文提出一种基于空间概率乘积核函数的图像分类(SPPKBIG)算法。使用Parzen窗方法估计编码矢量所服从的概率密度分布,用来描述图像内容,使用空间概率乘积核函数构建图像之间的核矩阵,最后使用基于此核矩阵的支持向量机对图像进行分类。实验结果表明,SPPKBIC算法对15类场景数据集和MSRcv2数据集的平均分类正确率分别为84.1%和94.8%。  相似文献   

4.
基于视觉原理的分类算法   总被引:1,自引:0,他引:1  
从一种新的基于生物视觉原理的观点,提出了一种新的数据分类算法.将数据集看作图像,利用高斯导函数进行特征提取,并用提取出来的特征计算数据的局部结构,在此基础上设计各向异性感受野函数,最后根据各向异性的核函数构造出分类决策函数.在标准测试集上的实验表明:所提出的算法与支持向量机算法分类正确率相当,同时具有更高的训练速度;与Parzen窗分类算法相比,尽管训练速度相对较慢,但分类精度明显提高,很好地综合了分类算法对训练速度和分类精度的要求.  相似文献   

5.
针对隐私泄露问题,该文提出一种在频繁模式挖掘中依托微聚集算法实现的差分隐私保护方法,并将其应用到电力工控网络中。通过对指数机制和每个模式的微聚集权重的权衡,选择了Top-k频繁模式方法,并加入拉普拉斯噪声进行扰动,使每个被选择模式的原始支持度均实现了隐私保护与效用的平衡,最大程度地确保了信息发布、数据分析需求和隐私保护需求的平衡,保障了各方对电力工控系统的信任和电力工控系统的健康成长,在数据集上的实验结果验证了该方法的有效性。  相似文献   

6.
针对现有云计算加密数据库分类算法的高时间开销问题,提出一种安全有效的基于Yao式乱码电路云计算隐私保护的kNN分类算法,该方法既能保护数据隐私和查询隐私,又能隐藏数据访问模式,同时又能保证高效查询处理的工作。该算法由4部分组成:加密kd树搜索阶段、kNN检索阶段、结果验证阶段和多数类选择阶段。通过加密索引搜索方案来过滤与查询无关的数据,隐藏了最终的类标签和数据访问模式,提高云计算中数据查询处理的效率。通过Yao式乱码电路来支持有效的kNN分类,保护云计算中数据隐私和查询隐私,同时减少了kNN分类的时间开销。对Yao式乱码电路kNN分类方法的安全性进行了分析。实验结果表明,在分类时间方面,所提算法的性能优于现有PPkNN方法和SkNNCI方法。  相似文献   

7.
针对NCA算法对初始值敏感的不足,提出一种改进的NCA算法(INCA).INCA对肿瘤基因表达谱进行奇异值分解,将标准化后的右奇异矩阵作为初始值,提取肿瘤基因表达谱中的分类信息.在4个标准肿瘤基因表达谱数据集上进行实验,以INCA作为特征提取方法,K-近邻、Parzen窗作为分类器进行分类检测.实验结果表明,与NCA及现有的分类模型相比,基于INCA的分类模型能够取得较高的分类准确率.  相似文献   

8.
针对多标签分类问题,提出了一种面向样本不均衡及类属不确定性的多标签分类算法。首先,结合“一对一”分解策略和贝叶斯理论,将多标签数据集分解为单标签数据子集,并利用Parzen窗方法估计子集样本后验概率,对类标签进行了基于概率的不确定性表示。然后,在融合概率类标签和LS-SVM模型的基础上,利用样本差异信息来调节惩罚参数值,建立了考虑样本不均衡的概率LS-SVM子分类器模型。依据正态分布的3σ原理,设计了子分类器决策阈值确定方法。最后,结合实例对算法进行了性能分析,结果证明了新算法的合理性和有效性。  相似文献   

9.
目前面向分类的差分隐私保护算法中,大部分都是基于决策树或者随机森林等树模型。若数据集中同时存在连续数据和离散数据时,算法往往会选择调用2次指数机制,并且进行隐私预算分配时往往选择平均分配。这都使得隐私预算过小、噪声过大、时间成本增加以及分类准确性降低。如何在保证数据隐私的同时尽可能地保证数据可用性,并提高算法性能,成为目前差分隐私保护技术研究的重点。提出了面向决策树和随机森林的差分隐私保护数据挖掘算法,使用Laplace机制来处理离散型特征,使用指数机制处理连续型特征,选择最佳分裂特征和分裂点,并采用最优特征选择策略和等差预算分配加噪策略。对金融数据集的测试结果表明,提出的2种基于树模型的差分隐私保护算法都能在保护数据隐私的同时,具有较高的分类准确性,并且能够充分利用隐私保护预算,节省了时间成本。  相似文献   

10.
传统的KNN算法的时间复杂度与样本规模成正比,大规模或高维数据会降低其分类效率。为此,提出一种改进的KNN快速分类算法。该算法以固定半径长度构造超球为原则,为训练样本集构造多个包围超球。根据各个超球内包含的训练样本集的重心位置与测试样本的位置关系可以快速搜索测试样本的k个最近邻超球,然后以k个最近邻超球内的训练样本集构造新的训练样本集。在新的训练样本集中求测试样本的k个最近邻,从而获得该测试样本的类别。实验表明,改进的KNN快速分类算法的分类准确率得到一定程度的提高、运行效率明显提升。  相似文献   

11.
在大样本测试集下国内现有成熟的OCR识别软件的首位识别准确率为95%~97%之间,在准确率和方法上仍有提升和改进的空间。提出一种基于概率特征和结构特征融合的自适应文字识别算法,模拟人类学习的模式,通过对训练样本的不断学习去构建汉字在测量空间的概率分布矩阵,然后比对原始图像和标准汉字库中汉字的概率分布矩阵的相似度来达到汉字分类的效果。其中相似度度量准则是从矩阵空间的结构和概率2个角度出发去构建的,充分考虑了结构模式识别和统计模式识别的优缺点。实验结果显示算法在训练样本下的首位识别正确率可以达到99.66%,在1 623张非训练样本文字图像下的首位识别正确率可以达到99.13%,在5 515张非训练样本文字图像下的首位识别正确率可以达到98.57%。可以证明提出的相似度度量方法在文字识别中的有效性。  相似文献   

12.
13.
在保证分类性能的前提下,如何从大量的训练样本集合中选择重要样本子集,是模式分类中的一个重要问题.基于该问题提出了一种新的样本选择算法,并将该算法应用于文本分类,在标准文档集Reuters-21578、复旦文档集和20newsGroup新闻组文档集上进行了实验.实验结果表明:该方法能有效地选取边界样本,且采用SVM和KNN分类能得到较好的分类结果,尤其是在不均衡文档集上效果更佳.  相似文献   

14.
为降低训练分类器的运算复杂度,并解决支持向量机(SVM)对多类分类问题没有特别有效解决方法的问 题。提出了一种基于一类支持向量机的多分类贝叶斯算法,证明了基于径向基核函数的一类SVM的分类函数归 一化为密度函数,并将所得的概率密度函数用于构造二分类及多分类贝叶斯分类器。仿真实验将提出的多分类贝 叶斯算法应用于多类通信信号调制识别,结果表明:该算法的分类准确率不低于传统SVM多分类器,而在多类属、 每类训练样本数目较大的情况下训练所需的运算量和存储量仅是传统SVM多分类算法的0.5%大大减小了核 矩阵规模和  相似文献   

15.
利用K均值聚类和增量学习算法扩大训练样本规模,提出一种改进的mRMR SBC.一方面,利用K均值聚类预测测试样本的类标签,将已标记的测试样本添加到训练集中,并在属性选择过程中引入一个调节因子以降低K均值聚类误标记带来的风险.另一方面,从测试样本集中选择有助于提高当前分类器精度的实例,把它加入到训练集中,来增量地修正贝叶斯分类器的参数.实验结果表明,与mRMR SBC相比,所提方法具有较好的分类效果,适于解决高维且含有较少类标签的数据集分类问题.  相似文献   

16.
DirectSVM算法是求解支持向量机的一种简单快速迭代算法,具有最好的几何直观性.算法将线性可分的两类样本中距离最近的两个异类样本点作为支持向量,以该两点连线的垂直平分面作为初始分类超平面,然后根据分类情况逐步确定新的支持向量,即逐步优化出最优分类超平面.对该算法进行了测试,发现该算法具有局限性,并对算法局限性产生的根源进行了分析,对如何合理使用DirectSVM算法进行了讨论.结论是:用DirectSVM算法直接求解最优分类面是不可靠的,但可以作为支持向量机的一种近似算法,也可以作为求解候选支持向量集的方法,再与其他经典算法结合使用.  相似文献   

17.
为解决入侵检测训练集(通常包含大量无标记样本和少量已标记样本),在传统半监督支持向量机(S3VM)上确定最优分类决策面,提出一种优化的多分类决策S3VM方法(MLL_S3VM)。该方法结合启发式搜索和聚类方法筛选出差异性较大的分类决策面,采用距离向量法对未标记样本进行标记。实验结果表明,在入侵检测中,该算法明显提高了模型预测精确度。  相似文献   

18.
针对大规模人脸识别问题,提出了一种基于两级非负线性编码表示的人脸识别方法.首先利用第一级的线性编码表示,通过在初始的大规模人脸库中寻找对应测试图像的M最近邻,以消除干扰训练样本并降低训练样本集的规模;然后以此M最近邻为训练样本集,通过第二级的线性编码表示实现对测试样本的分类判别.在线性编码表示中,通过进一步引入非负系数约束,更好地改善了分类识别性能.基于AR、ORL和Yale B人脸库的实验结果初步验证了文中所提方法的有效性.  相似文献   

19.
基于改进的LBG算法的SVM学习策略   总被引:2,自引:0,他引:2  
针对SVM方法在大样本情况下学习和分类速度慢的问题,提出了利用LBG算法对训练样本进行预处理,然后再使用传统的SVM算法进行训练的策略,并提出了一种改进的LBG算法.通过对仿真数据以及对实际的纹理图像的分类实验表明,这种预处理方法能在保持学习精度的同时减小训练样本以及决策函数中支持向量集的规模,从而提高学习和分类的速度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号