首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
通过选取最有信息量的样本提交专家进行标注,主动学习算法可以有效地减少无效标注样本的工作量.在充分考虑位于分类边界的不确定样本和基于先验分布的具有代表性样本的基础上,本文构造了不确定性与代表性相结合的可控主动学习算法.首先利用样本的kNN分布状况建立不确定性置信度模型,该思路不需要知道样本分布的具体类型和参数计算;然后在样本聚集度模型的基础上进行聚类,在此基础上建立代表性置信度模型.最后将不确定性置信度模型与代表性置信度模型进行综合,构造可控的主动学习策略,使得每次主动学习选择的样本更具有"价值".在UCI机器学习数据库上的仿真实验结果表明本文的思路是合理可行的,在实验所用数据集上,当达到相同的目标正确率时,本文的方法比随机采样算法所需的样本数量少得多.  相似文献   

2.
为解决传统数据流分类算法难以解决动态数据流环境中概念变化和样本标注等难题,根据主动学习原理,提出基于双层采样的主动式数据流挖掘方法。该方法的采样策略分别基于学习模型的改变期望和误差缩减两个方面设计实现,选择出具有代表性和信息量丰富的未标注样本,经专家标注后增量更新学习模型;采用聚类方法实现局部感知的概念漂移检测,以增强采样策略的有效性。试验结果表明:主动式数据流挖掘方法在降低样本标注代价的同时,可提高模型的分类能力和概念漂移的适应性,相比其他数据流挖掘方法具有一定优势。  相似文献   

3.
大规模的训练集中通常含有许多相似样本和大量对分类器模型构造"无用"的冗余信息,利用全部样本进行训练不但会增加训练时间,还可能因为出现"过拟合"现象而导致泛化能力下降。针对这一问题,本文从最具代表性样本与最近边界样本两个角度综合考虑,提出一种基于改进加权压缩近邻与最近边界规则SVM训练样本约减选择算法。该算法考虑到有价值训练样本对SVM分类器性能的重要影响,引进减法聚类利用改进的加权压缩近邻方法选择最具代表性的样本进行训练,在此基础上利用最近边界规则在随机小样本池中选择边界样本提高分类精度。在UCI和KDDCup1999数据集上的实验结果表明,本文的算法能够有效地去除大训练集中的冗余信息,以较少的样本获得更好的分类性能。  相似文献   

4.
主动学习能够在有标记样本较少的分类任务中得到较好的分类结果,其中熵值装袋算法最为常用,其利用熵值来衡量样本的不确定性,但熵值并不能完全地代表样本的不确定度.针对这一问题,本文提出二次样本筛选的分类算法,通过超像素分割进行边缘区域样本筛选,选择出不确定度较高的样本.利用熵值装袋算法对区域筛选样本进行二次筛选,选择信息量较...  相似文献   

5.
读者情绪分类具体是指针对某个文本推测读者可能产生的情绪。针对该新问题,目前遇到的主要挑战是标注语料库的匮乏问题。文章提出了一种基于主动学习的读者情绪分类方法,即在已有少量标注样本的基础上,利用主动学习方法挑选优质样本,使得使用尽量少的标注代价获得较好的分类性能。考虑到新闻读者情绪分类可以同时使用新闻文本和评论文本的特殊性,提出了分类器融合分类方法,并在主动学习方面提出了结合不确定性与新闻评论信息量的挑选策略。实验表明,分类器融合方法能够获得比仅用新闻文本更好的分类性能。此外,文章提出的主动学习方法能够有效减小标注规模,在同等标注规模下,获得比随机更佳的分类性能。  相似文献   

6.
针对模糊神经网络分类器设计过程中所遇到的样本采样与标注过程耗时、代价大的问题,提出了一个新颖的模糊神经网络分类器主动学习方法,以最小-最大边界法以及确定样本的不确定性闽值两个新概念为主动样本选择准则,确保选择其中信息量尽可能大的样本进行标注,使得网络设计过程中对未标注样本的标注工作量和时间大为减少.实验结果表明,该方法与模糊神经网络的被动学习模型相比,训练样本数目大为减少,训练时间大大缩短.  相似文献   

7.
社交机器人一直在应用中不断发展,并且为了逃避现有的检测方法,变得更加先进和复杂,较大地影响了原有部分社交机器人检测方法的效果.检测社交机器人成为了一项漫长而又艰巨的工作.在社交机器人检测领域中,目前存在着已公开相关数据集较少的情况,需要人工标注大量的数据.本文提出了一种结合主动学习与关系图卷积神经网络(RGCN)的检测方法——ALRGCN,用以解决人工标注大量数据成本较高的问题.其主要思路是利用主动学习方法来扩充标记数据集,以最大化人工标注的价值.主动学习利用种子选择算法构建初始训练集以及不确定性采样方法筛选出较高信息熵的样本,交由分类模型进行训练,旨在通过专业人员的经验来人工标注一些分类器难以分类的数据.鉴于社交机器人通常以集群的形式出现,本文引入了RGCN来捕捉其网络结构特征.RGCN可以有效地分析节点及其相邻节点的属性,进而帮助该节点进行分类.实验在TwiBot-20数据集上进行,通过对比进行使用的基线实验,ALRGCN在F1上取得了2.83%的提升.实验结果证明,ALRGCN在标注样本更小的情况下可以更有效地检测出社交机器人.  相似文献   

8.
主动学习是机器学习领域的重要研究方向.现有主动学习方法通常选择不确定性的或具有代表性的样本供专家打标,然后添加到已标记的数据集中供分类器学习,但没能充分利用数据的分布信息,并且在野点采集问题上有待改进.结合邻域粗糙集理论,提出了一种基于邻域粗糙集的主动学习方法(neighhbor rough set active learn-ing,NRS-AL).实验结果表明,在加州大学数据集(university of CaliforniaIrvine,UCI)上,该算法充分利用了数据的分布信息,同时结合样本的不确定性和代表性计算,处理了野点的选择,是一种能有效解决主动学习样本选择问题的算法,在accuracy,受试者工作特征(receiver operating characteristic curve,ROC)曲线下面的面积(area under curve,AUC)指标上优于文献中的主动学习算法.  相似文献   

9.
单样本学习的目的是利用一个包含大量训练样本的源类别数据集以及每个类别只包含一个训练样本的目标类别数据集来构建一种学习算法,使得算法能够对目标类别空间中的样本进行准确分类.已有的单样本学习算法主要是先利用源类别数据来训练模型,然后在测试时将目标类别训练数据作为支持集来实现对未标注样本的分类,因此在训练时没有有效地利用支持集的信息.为此提出一种在训练阶段和测试阶段同时利用支持集信息的单样本学习算法,基本思想是利用孪生神经网络构建模型并在训练时加入支持集信息,即让不同类别的支持集样本之间的相似度尽可能小.在Omniglot数据集和满文识别问题上的实验结果表明,该算法能取得较好的识别准确率.  相似文献   

10.
针对入侵检测的代价敏感主动学习算法   总被引:3,自引:2,他引:1  
入侵检测系统通过提供可能由恶意攻击导致的告警信息来保护计算机系统.为了能够利用历史数据自动提升入侵检测的性能,机器学习方法被引入入侵检测.但是,高质量训练数据的获取往往需要繁重的劳动或代价昂贵的监控过程.同时,不同类型的误分类导致的代价也是不一样的,入侵检测需要使误分类代价最小.针对这两种需要综合考虑的问题,提出一种基于代价敏感主动学习的入侵检测分类器构造方法ACS.该方法结合代价敏感学习和主动学习方法,其目标为减少学习代价敏感分类器的标注次数,使代价敏感分类器的误分类代价最小.该方法在主动学习的学习引擎中使用代价敏感学习算法替代传统的错误最小学习算法,同时在采样引擎中使用最大误分类代价的采样标准.ACS方法在主动学习中版本空间的构造、更新过程都针对代价敏感环境作了对应的改进,使该算法能够以较高的收敛速度收敛到误分类代价最小的目标函数.在入侵检测数据集KDDCUP99上的的实验表明,ACS方法能够有效地减少学习代价敏感分类器的标注次数.  相似文献   

11.
针对传统银行网点选址方法中存在的人为主观因素较大、数据量支撑不够、考虑因素理想化等问题,提出一种基于多源大数据融合的银行网点选址方法。该方法通过多源数据构造人流量、交通拥堵指数、用户价值、周边竞争网点数和人均收入5个基础特征,并利用协同训练的半监督学习方法扩充训练集。基于基础特征与机器学习算法构建多个子模型,将子模型的输出概率作为特征,构建基于逻辑回归的集成算法,作为银行网点选址模型,同时提出一种优化银行网点权重的损失函数,以保证模型预测中更佳的银行网点具有更高的权重。通过实验分析表明,该算法相较于传统算法预测评估更为准确,能够很好地解决银行网点选址问题。  相似文献   

12.
针对海量数据聚类过程中,经典的K-均值聚类算法对其K个初始聚类中心点的选择以及数据集噪声十分敏感的问题,提出了一种针对海量数据考虑初始聚类中心点选择的聚类算法.该算法首先采用冒泡排序法对数据集进行排序,获取数据集的各维中心值组成第一个初始聚类中心点.其次,通过计算与第一个初始聚类中心点的欧式距离,对剩余候选初始聚类中心点进行优化选择,保证所有的聚类中心点均匀地分布在数据集密度较大的空间上,以此减少聚类过程中的迭代次数和提高聚类算法效率.最后,基于UCI(University of California,Irvine)中多个数据集,进行聚类算法对比实验.结果表明,在不降低聚类效果的前提下,该聚类算法的迭代次数平均降低到50%,所需的时间降低平均达10%,由实验结果还能推出,当点集的数目越多时,该算法就能表现出越明显的聚类优势效果.  相似文献   

13.
首先推导出了用于求解一般广义线性模型变量选择问题的非凸惩罚迭代估计算法,并利用分治思想对算法进行修正,使其能够适用于海量数据情形,以解决海量数据下进行变量选择时可能存在的内存溢出等问题。考虑到当前处理海量数据实际使用的工具,进一步给出了算法在分布式并行下的计算步骤,大幅提高了计算速度。在数值模拟中,通过单机和集群两种方式对算法进行数值计算,结果表明本文方法有效解决了数据存储问题且适用于分布式环境。最后,通过所提算法来完成Probit模型的变量选择,并将其用于新闻数据集的分类问题。  相似文献   

14.
在数据流分类学习过程中,类不平衡和概念漂移是两大挑战问题.在分析传统特征选择算法和代价敏感学习方法的基础上,将代价敏感学习算法的思想引入特征选择算法中,设计并实现了一种基于代价敏感的Relief F剪枝的数据流分类算法,不仅能删除冗余的特征,而且适应动态变化的数据流环境.与经典的算法进行分析比较,结果表明所提算法可显著提升分类效果.  相似文献   

15.
根据传统克隆选择算法的不足,提出了一种改进的克隆选择算法.设计了具有自适应能力的改进变异算子,抗体基因位变异概率取决于抗体亲和度;并提出了兼顾亲和度和浓度两种因素的改进选择算子.通过函数优化仿真实验证明了改进算法在收敛速度和寻优结果上均优于传统克隆选择算法.  相似文献   

16.
混沌免疫粒子群优化算法在BP网络训练中的应用   总被引:1,自引:0,他引:1  
将人工免疫系统中的克隆选择和混沌算法引入粒子群优化算法,提出一种混沌免疫粒子群优化算法.算法的主要特点是利用克隆和混沌变异等操作,提高收敛速度和种群的多样性.结合Iris分类问题,将新算法应用到BP网络的权值优化中,并和基于标准PSO算法的方法和单纯BP网络训练进行比较.实验结果表明,该算法性能优于所比较的两种算法,并且具有良好的收敛性和稳定性.  相似文献   

17.
为了满足数据挖掘的需要,本文提出了一个基于决策树的胃癌临床医疗信息分析应用研究模型.该模型是从业务数据库或数据仓库中抽取与胃癌术后复发因素有关的数据,形成决策树的训练数据集.运用SPRINT算法,构建胃癌术后复发的危险因素分析模型.通过对模型分析,寻找疾病的临床诊断、治疗和预后的关系,证实胃癌术后复发首要危险因素是家族遗传.  相似文献   

18.
基于双层前馈神经网络建立光伏电站输出功率与辐照等气象因素间的非机理模型。建立光伏电站输出功率与气象因素的神经网络模型;对功率模型的输入特征进行选择,分析不同气象因素的组合作为输入变量对模型准确度的影响,明确功率模型的输入变量;分析该模型网络的训练算法、隐含层神经元个数及训练次数对模型准确度的影响,据此确定功率模型的最优结构与参数;基于光伏电站的实际数据对功率模型进行验证。结果表明,基于双层前馈神经网络的光伏电站气象-功率模型具有较高的准确度。  相似文献   

19.
0 IntroductionWiththedevelopmentofthenetworktechnologyandnet workscale ,thenetworksecurityhasalreadybecomeaglobalimportantproblem .Howtofindvariousupdatedintrusionsrapidlyandeffectivelyiscriticalforguaranteeingthesecurityofthesystemandnetworkresources.Commonly ,therearetwocategoriesofintrusiondetectiontechniques,namely ,anomalydetectionandmisusedetection .Inanomalydetection ,normaluserbehaviorandsystemactivitiesarefirstsummarizedintonormalprofiles.Run timeactivitiesresultinginsignificantdevi…  相似文献   

20.
针对几百小时粗标注大语料库, 提出一种新颖的语音合成系统构建方法。首先, 借助于语音识别、文本对齐和句法分析等技术实现大语料库的自动筛选与标注。 然后, 为了有效解决大语料库声学模型训练中存在的内存空间以及计算时间开销过大等问题, 优化了传统的训练流程, 在不损失声学模型准确性的前提下, 显著提高了模型的训练速度。主观实验表明, 与具有精标注的小语料库相比, 引入粗标注的大语料库可以带来0.5分左右的MOS提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号