首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 500 毫秒
1.
随着进入大数据时代,"标记数据少,而未标记数据多"的现象越来越普遍.半监督学习是充分利用样本中"廉价"的未标记样本,让学习器不依赖外界交互、自动地利用未标记样本提升学习性能.通过构建多模态概率生成模型对数据进行建模,然后分析该模型上的监督学习过程和非监督学习过程,最后结合两种学习过程实现半监督学习.通过在MNIST数据...  相似文献   

2.
半监督学习在入侵检测系统中的应用   总被引:1,自引:0,他引:1  
提出了一种基于半监督模糊聚类的异常入侵检测方法,半监督学习算法的训练样本包括已标记数据和未标记数据,在训练系统模型时使用少量已标记样本和大量未标记样本作为种子初始化入侵检测系统的分类器,在少量已标记数据的约束下利用模糊C均值方法生成聚类,无需提供大量标记数据,不易陷入局部最优.实验表明,与FCM算法相比具有较高的性能.  相似文献   

3.
针对非平衡数据的半监督分类问题,提出了一种基于Biased-SVM的非平衡半监督分类算法.该方法首先利用初始的标记样本集训练处理不平衡数据的Biased-SVM模型,然后用训练好的Biased-SVM模型为未标记样本加上标签,再把新标记样本加入到初始标记样本集中,重新训练Biased-SVM模型,最后在测试集上进行测试.选取公共数据库里的一些数据集进行实验,首先在两类不平衡数据集上实验的结果表明,在标记样本所占比例为20%~80%时,所提方法能够在不降低数据集整体G-mean值的基础上,提高小类的F-value值并具有较高的稳定性;然后在多类不平衡数据集上实验的结果表明,在标记样本所占比例为20%~80%时,所提方法能够在不降低数据集整体的EG-mean值的基础上,提高小类识别率并具有较高的稳定性.  相似文献   

4.
半监督学习是一种利用有标记样本和无标记样本进行学习的新的机器学习方法。针对单分类中只有目标类标记样本和大量无标记样本的情况,提出了一种基于半监督学习的单类分类算法。利用已标识的有标记样本建立两个单类分类器,通过相互学习来挖掘未标记样本中的隐含信息,扩大有标记样本的数量。利用所有已标识样本,用不同的单分类方法建立多个单类分类器,通过集成学习的方法得到最终的分类器。在UCI数据集上进行了实验,表明提出的基于半监督学习的单类分类器的有效性。  相似文献   

5.
偏标记学习是近几年提出的新机器学习框架,已有的逻辑回归偏标记算法尚不能解决数据不平衡问题.建立了一种可以解决数据不平衡的逻辑回归模型偏标记学习算法.基本思想是在多元逻辑回归模型中定义新的似然函数以达到处理不平衡数据的目的.算法先根据训练集中各个类别样本所占比例定义了一个新的似然函数,之后通过逼近和求导等数学手段推导得到了能够求解的光滑的逻辑回归偏标记学习模型.在UCI数据集和真实数据集上的仿真实验表明,所提算法在数据存在不平衡问题时提高了样本的平均分类精度.  相似文献   

6.
为了提高半监督分类的有效性,提出一种基于交叉验证思想的半监督分类方法(CV-S3VM)。通过对未标记样本进行伪标记,将伪标记后的样本加入到标记样本集中,参与交叉验证,选取能使SVM分类器误差最小的标记作为最终的标记,实现对未标记样本进行标记。依次挖掘未标记样本的隐含信息,增加标记样本的数目。使用UCI数据集模拟半监督分类实验环境,结果表明CV-S3VM具有较高的分类率,在标记样本较少的情况下效果更为明显。  相似文献   

7.
为了提高半监督分类性能,提出了一种多分类器协同的半监督分类算法SSC_MCC.算法采用双层结构集成,使用多条件判断挖掘未标记样本信息,扩充有标记样本.第一层中,采用三分类器协同投票一致策略实现对未标记样本进行标记,第二层中采用基于正确分类率的分类器加权投票决策标记未标记样本,扩充有标记样本,用最终生成的有标记样本训练分类器,实现半监督分类.最后,使用UCI数据集模拟半监督实验,结果表明SSC_MCCL较好地提高了半监督分类性能.  相似文献   

8.
文章基于长三角地区26个城市10年间的空间面板数据,通过建立空间自回归模型,针对似然函数的复杂情况,分别采用马尔科夫链蒙特卡洛方法和近似贝叶斯计算进行贝叶斯推断。数值结果表明,服务业集聚度以及固定资产投资对于地区生产总值影响最大。通过比较两类方法的估计结果发现:马尔科夫链蒙特卡洛方法虽依赖于似然的核函数,对于先验超参数的设定更为敏感,且要求控制采样样本的自相关性,但可以高效地估计参数;而近似贝叶斯计算方法能够避免求解似然函数,对先验超参数的设定更稳固,同时也能有效地估计参数。  相似文献   

9.
针对中智C-均值聚类算法抗噪能力弱的问题,提出基于隐马尔科夫随机场的半监督中智聚类分割算法.利用隐马尔科夫随机场模型的先验信息描述图像像素邻域关系,将其与隶属度相结合作为监督因子,嵌入现有中智聚类并构造半监督中智聚类目标函数;将欧式空间样本通过非线性变换用核函数映射至高维特征空间,增强图像的抗干扰能力;最后采用最优化方法获得隐马尔科夫随机场的半监督核空间中智聚类分割的迭代表达式.对灰度图像添加高斯和椒盐噪声进行分割测试,以验证算法性能.测试结果表明:所建立的分割算法相比基于隐马尔科夫随机场的模糊C-均值聚类等分割算法的抗噪性能有了显著提高.  相似文献   

10.
目前,Fisher Score模型在处理多标记数据时没有考虑样本和整个特征空间之间以及特征和标记之间的关系.提出一种基于互信息的Fisher Score多标记特征选择方法 .首先,在多标记决策系统中考虑整个样本空间对特征选择的影响,根据异类样本与同类样本之间的欧式距离定义权重公式,并在特征空间下对标记赋予权重衡量标记的重要程度.然后,基于互信息理论定义特征与每个标记之间的互信息来计算每个特征和每个标记之间的相关度,将特征与标记之间的相关度与该标记所占的权重相结合来定义特征和标记集之间的总相关度.将Fisher得分与总相关度结合,定义每个特征的新的Fisher得分,进而构建多标记Fisher Score模型.最后,设计了一种基于互信息的Fisher Score多标记特征选择算法.在六个多标记数据集上的实验证明,提出的算法与其他算法相比,其四种评价指标都表现良好,分类性能出色.  相似文献   

11.
直推式支持向量机(TSVM)是一种从标记样本出发,对特定的未标记样本进行识别和分类的技术.本文分析了将TSVM应用到图像通用隐写检测中的可行性,提出并实现了基于TSVM的GIF图像通用隐写检测方法.实验结果表明,针对不同的GIF图像隐写工具,本文方法在较少标记样本条件下引入大量未标记样本,得到接近监督学习的通用检测效果.从而提高了GIF图像通用隐写检测的实用性.  相似文献   

12.
针对网络流量协议标注比较困难的问题,提出一种基于贝叶斯网络的半监督学习模型,以提高Inter-net协议的识别精度.该模型首先使用少量的标注样本训练贝叶斯网络分类模型,并对未标注样本进行初始分类,然后从未标注样本中挑选分类损失最小的样本加入到训练集中并重复训练分类模型,经过多次循环训练出最终的分类器.该模型可以使用未标注样本和标注样本共同训练分类模型,非常适合于标注比较困难的Internet应用协议的识别.实验结果表明:在标注样本较少的情况下,该模型的识别精度和稳定性均优于朴素贝叶斯模型和贝叶斯网络模型,对于提高Internet协议的识别精度是有效的.  相似文献   

13.
基于数据驱动方法诊断滚动轴承故障时,不同工况下的数据特征分布差异会导致模型诊断性能严重下降.针对这一问题,提出了基于域适应与分类器差异的滚动轴承跨域故障诊断方法.首先利用卷积神经网络对带标记的源域样本和无标记的目标域样本进行特征提取;然后通过2个全连接分类器进行故障分类;最后通过分步优化分类损失、域最大平均差异损失和分类器差异损失,实现源域和目标域之间的域分布对齐,从而实现无标记目标域样本的故障诊断.实验结果表明,所提方法与主流的域适应方法相比具有更高故障诊断准确率,验证了该方法的合理性和可行性.  相似文献   

14.
为提高分类准确率, 解决城市区域社会功能标签分类难的问题, 提出了一种基于不确定抽样选择策略的半监督城市土地功能分类方法。该算法从轨迹数据中提取城市区域的特征向量, 只需对少量区域进行标签, 根据不确定抽样的主动学习选择策略, 从未标注训练样本中选取具有较多信息的数据, 利用半监督学习算法进行标注, 得到新的标注训练样本添加到训练集, 反复迭代后得到分类结果。实验结果表明, 该方法对不同社会功能的城市区域分类准确率可达90. 2%, 与传统方法相比分类准确率高, 减少了大量标注工作, 在少数标签数据上仍有较好的分类效果。  相似文献   

15.
针对样本集中的类不平衡性和样本标注代价昂贵问题,提出基于不确定性采样的自训练代价敏感支持向量机.不确定性采样通过支持向量数据描述评价未标注样本的不确定性,对不确定性高的未标注样本进行标注,同时利用自训练方法训练代价敏感支持向量,代价敏感支持向量机利用代价参数和核参数对未标注样本进行预测.实验结果表明:该算法能有效地降低平均期望误分类代价,减少样本集中样本需要标注次数.  相似文献   

16.
17.
针对主动学习面向大型数据集人工标记成本过高和半监督自训练算法中存在误标记点影响的问题,提出了一种主动学习与半监督自训练交替迭代训练的联合算法.算法在训练过程中奇数轮次采用主动学习算法,偶数轮次采用自训练算法,通过2种算法的交替迭代训练以弥补彼此不足.自训练算法对无标记样本的预测减轻了主动学习标记样本的负担,同时主动学习标记易变成噪声的样本,减轻了自训练算法训练过程中对样本的标记错误.提出了一种基于密度峰值聚类和隶属度的改进主动学习算法:将初始无标记样本聚类成簇,根据隶属度差值在每个簇内选取部分样本做人工标记,获得可表达样本的整体结构的均衡样本.仿真试验表明:提出的联合算法在性能上要优于2种单一算法.对比常见的主动学习算法,改进后的主动学习算法分类性能得到显著提升,将其应用于联合算法中的效果更具优势.   相似文献   

18.
提出了一种基于非负稀疏表示(nonnegative sparse representation,NSR)的半监督学习标签传播算法.该算法首先构造一个稀疏概率图(sparse probability graph,SPG),其权重由非负稀疏表示算法计算的非负系数组成,自然地反映了各样本之间的聚类关系,避免了传统半监督学习算法中的邻居选择和参数设置过程;然后通过对未标记样本的标签进行迭代繁殖至收敛而获得所有样本的标签.在人脸识别、物体识别、UCI机器学习和TDT文本数据集上的实验结果表明采用非负稀疏表示的标签传播算法比典型的标签繁殖算法具有更好的分类准确率.  相似文献   

19.
基于机器学习的网络异常检测方法是入侵检测领域的重要研究内容.传统的机器学习方法需要大量的已标记样本对分类器进行训练,然而已标记样本通常较难获取,导致分类器训练困难;此外单分类器训练面临难以消除的分类偏向性和检测孔洞.针对上述问题,本文提出了一种基于多分类器协同训练的异常检测方法MCAD,该方法利用少量的已标记样本和大量的未标记样本对多个分类器进行协同训练,以减少分类的偏向性和检测孔洞.对比实验采用经典的网络异常检测数据集KDD CUP99对MCAD的异常检测性能进行验证。实验结果表明,MCAD有效地降低了检测器训练代价,提高了网络异常检测性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号