首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 453 毫秒
1.
针对假币的特征未知以及样本数量不平衡的局限性问题,提出基于半监督辅助分类生成对抗网络的纸币红外特征鉴伪算法.辅助分类生成对抗模型可以扩充样本的数据集,经过半监督的方式训练得到分类器进行分类,实现对纸币红外特征的鉴伪.实验结果表明,该算法能提高假币鉴伪的准确率以及泛化能力.  相似文献   

2.
随着医疗水平的不断提高,借助机器学习方法对大量的医疗诊断数据进行分析成为近年来热点研究方向之一.在介绍C4.5决策树算法的相关理论及建树流程基础上,以竞赛项目中的乳腺癌数据集为基础,对数据集进行预处理,建立决策树分类模型,以可视化形式展示分类结果.实验结果表明,该分类模型可达到较高的准确率,证明决策树算法有助于医疗数据分析应用.  相似文献   

3.
一种基于KNN的半监督分类改进算法   总被引:1,自引:0,他引:1  
本文提出一种新的基于KNN分类的半监督学习self-training改进算法,并以多个UCI数据集为实验,对基于KNN的半监督分类模型算法进行改进,充分利用已知类别标签数据的正确知识进行自训练,以得到最终分类结果.实验结果表明,该方法能显著提高分类准确率.  相似文献   

4.
在一致性正则化与熵最小化的基础上提出一种新的半监督学习算法Mean Mixup,集成数据的互补信息,然后使用熵最小化给未标记数据生成可靠的伪标签,在一致性正则化下进一步优化模型分类结果.在常用数据集SVHN和CIFAR10上对Mean Mixup算法进行了评估,实验结果表明,所提出的方法在分类准确率上优于一些已有的半监...  相似文献   

5.
针对非平衡数据的半监督分类问题,提出了一种基于Biased-SVM的非平衡半监督分类算法.该方法首先利用初始的标记样本集训练处理不平衡数据的Biased-SVM模型,然后用训练好的Biased-SVM模型为未标记样本加上标签,再把新标记样本加入到初始标记样本集中,重新训练Biased-SVM模型,最后在测试集上进行测试.选取公共数据库里的一些数据集进行实验,首先在两类不平衡数据集上实验的结果表明,在标记样本所占比例为20%~80%时,所提方法能够在不降低数据集整体G-mean值的基础上,提高小类的F-value值并具有较高的稳定性;然后在多类不平衡数据集上实验的结果表明,在标记样本所占比例为20%~80%时,所提方法能够在不降低数据集整体的EG-mean值的基础上,提高小类识别率并具有较高的稳定性.  相似文献   

6.
基于分块的网页主题信息自动提取算法   总被引:3,自引:0,他引:3  
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.  相似文献   

7.
一种基于半监督降维的聚类算法   总被引:1,自引:1,他引:0  
半监督聚类通过利用少量有标号样本或成对约束等监督信息来提高聚类性能.在此提出一种新颖的基于半监督降维的聚类算法,首先用半监督降维方法对原始数据进行降维,然后在降维后的空间中进行半监督聚类.由于在降维和聚类两个阶段中都利用了监督信息,从而使得算法的聚类性能得到进一步提升.在UCI标准数据集、yale人脸库以及文本数据集上的实验结果验证了该算法的有效性.  相似文献   

8.
提出了一种基于LPA和Tri-Training算法的半监督文本倾向性分类框架.通过LPA对初始样本进行快速分类,获得更多可信的有标签数据,优化分类框架的训练过程.引入Tri-Training算法,提高分类框架的泛化能力和可用性.实验结果表明,在不同标注比例的样本集上,该框架都有较好的分类性能,相较有监督学习算法和单一的半监督算法提高了分类精度,并有较强的鲁棒性,为解决有标签样本比例较少情况下的文本倾向性分类提供了一个新的思路.  相似文献   

9.
为了更好地控制利用伪标签样本学习的这类半监督分类算法中的噪声,针对以往研究中分布噪声难以量化并被忽视的问题,提出一种基于高斯混合模型和伪验证集的噪声量化和分析的新方法.根据噪声下的泛化误差分析,提出一种可回溯的分类器迭代训练策略,可以有效降低伪标签样本带来的噪声影响.通过将该训练策略与集成学习相结合,提出一种ensemble self-learning(ESL)算法,能够进一步提高分类算法的泛化性能.在6个公开数据集上与同类先进算法进行了试验比较.结果表明,所提出的算法取得了最高的平均准确率,并且在75%的试验数据集上都取得了最好的准确率.  相似文献   

10.
精确的癌症分类对于癌症的成功诊断和治疗是必不可少的.半监督维数约减算法在干净的数据集上表现得很好,然而当面临噪声时,当前的大部分算法所构造的邻域结构是拓扑不稳定的.为了克服这一问题,文中提出了一种基于随机子空间的半监督维数约减算法(RSSSDR),将随机子空间与半监督维数约减算法结合起来.在数据集的不同随机子空间上,该算法首先设计多个不同的子图,然后将这些子图联合起来构成一个混合图并在其上进行维数约减.该算法通过最小化局部重构误差来确定邻域图的边权值,在保持癌症数据集局部结构的同时能够保持其全局结构.在公共癌症数据集上的实验结果表明,RSSSDR算法具有较高的分类准确率和较好的参数鲁棒性.  相似文献   

11.
针对半监督聚类算法中监督信息使用不充分,监督信息中信息含有量低的问题,提出一种结合主动学习的半监督聚类算法.首先结合使用数据的类别标记和成对约束信息,指导Kmeans聚类过程,设计出一种基于Seeds集和成对约束的半监督聚类算法SC-Kmeans;其次将主动学习算法引入到SC-Kmeans中,以尽量小的代价选取信息含有量更高的监督信息,提高SC-Kmeans算法的聚类精度;最后在UCI标准数据集上进行仿真实验.实验结果表明,该算法取得了较好的聚类效果,有效提高了聚类准确率.  相似文献   

12.
本文提出数据预处理AnoG算法,对训练数据集进行稀疏拓展,产生出未知攻击实例,并冠以类”标anomaly.过滤实验表明AnoG算法拓展出的未知攻击实例与原实例造成数据冲突的可能性非常小.将拓展出的训练实例作为训练数据集,采用RIPPER算法训练分类模型,实验结果表明分类模型对未知攻击具有良好的检测率,数据预处理AnoG算法的使用明显提高了分类模型对未知攻击的检测能力.  相似文献   

13.
针对现有的特征选择算法和分类算法在无线传感器网络(WSN)入侵检测系统中检测性能表现不佳、检测实时性差、模型复杂度高等问题,提出一种基于随机森林和深度森林算法的分布式WSN入侵检测模型.该模型首先对传感器节点流量数据进行预处理;然后将轻量级随机森林分类器部署到传感器节点和簇头节点,传感器节点和簇头节点合作对流量数据进行处理,并在基站上采用深度森林算法从大量流量数据中发现攻击行为;最后对WSN中的入侵行为进行实时分类入侵检测.使用无线传感器数据集WSN-DS和NSL-KDD数据集来评估所提出的模型性能.实验结果表明,该模型与现有的入侵检测模型相比,具有良好的检测性能,实时性较高,可避免模型过度拟合.  相似文献   

14.
为提高分类准确率, 解决城市区域社会功能标签分类难的问题, 提出了一种基于不确定抽样选择策略的半监督城市土地功能分类方法。该算法从轨迹数据中提取城市区域的特征向量, 只需对少量区域进行标签, 根据不确定抽样的主动学习选择策略, 从未标注训练样本中选取具有较多信息的数据, 利用半监督学习算法进行标注, 得到新的标注训练样本添加到训练集, 反复迭代后得到分类结果。实验结果表明, 该方法对不同社会功能的城市区域分类准确率可达90. 2%, 与传统方法相比分类准确率高, 减少了大量标注工作, 在少数标签数据上仍有较好的分类效果。  相似文献   

15.
为实现不同数据管理系统之间的互通,提出一种基于半监督学习算法的多源异构数据治理框架,并由此设计、实现和测试了一套非结构化数据与结构化数据的自动化对齐方法。利用命名实体识别(NER)技术,将非结构化数据转化为结构化数据,再分别利用基于字符串相似度的方法和基于监督学习的方法,对结构化数据进行模式匹配;通过半监督学习方法,在结构化数据与数据库记录实体之间进行实体匹配与融合;利用自然语言处理(NLP)技术及深度学习方法,对融合后的数据集进行缺失值填补。结果表明:在论文数据集和视频元数据集上进行对齐处理后,两者的F1值分别达到89.70%及96.50%;在不同属性上进行缺失值填补后,整体填补准确率达到78%以上,大大优于基线方法的准确率。  相似文献   

16.
对于仅有部分数据带标签且标签含有噪声的二分类问题,提出了一类基于重要性重加权的半监督分类算法,借助贝叶斯公式和无约束最小二乘拟合进行标签噪声率的估计,并由此利用BP神经网络逐步求解带权的优化问题,在多个标准数据集上的实验结果表明,本文提出重加权的半监督分类方法,能有效地降低标签不足以及标签噪声对分类准确率的影响.  相似文献   

17.
通过建立模型对电商企业的客户查询信息进行文本分类分析,帮助企业掌握用户的消费习惯,同时帮助用户及时找到需要的商品.本文首先获取客户查询数据并对该文本数据进行预处理,利用改进的TF-IDF方法获得文本特征向量,最后结合朴素贝叶斯文本分类及半监督的EM迭代算法建立分类模型,并应用各种标准对模型进行评估,验证模型的有效性.多类别文本集选取文本特征时,关键词权值容易产生波动,本研究改进关键词权值计算公式来改善分类结果.实验结果表明分类器具有良好的分类效果.  相似文献   

18.
针对目前高光谱图像半监督降维算法中基于流形学习的开放性选择近邻参数问题,以及利用传统算法不能有效地获取标签数据的局部信息,提出了一种无需考虑近邻参数的半监督局部稀疏嵌入(SELSE)算法.该算法基于稀疏表示理论,通过求解范数优化问题构建稀疏系数图,并且利用有限的标签数据最大化类间信息,提取高光谱图像的特征.在AVIRIS高光谱遥感图像的Indian Pine数据集上进行仿真实验,结果表明所提出算法在分类精度和计算效率上都有所提高.  相似文献   

19.
通过将类间分离度函数引入到模糊C-均值聚类算法中,结合半监督的思想,建立基于信息熵的半监督模糊C-均值聚类模型,并对该模型的求解过程进行推导,提出一种新的算法.为了验证算法的有效性,将该算法在UCI数据集上进行实验,实验结果表明,该算法比仅引入信息熵的模糊C-均值聚类方法聚类性能更好.  相似文献   

20.
提出了一类基于标签传递的半监督模糊聚类模型,得到了其隶属度和聚类中心的、具有简洁形式的迭代求解公式.设计了一种算法将已知的类别标签传递给未标签数据,这些类别标签可以合理、有效地作用于整个数据集,从而增加了标签数据的作用.在人工数据集、乳腺癌数据集以及黄瓜数据集上的实验验证了该聚类方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号