首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 234 毫秒
1.
数据规模的不断增加,使得为数据库中全部样本做标记变得尤为困难,数据集也因此呈现出了明显的弱标记性.为此,针对大规模少数标记数据集的特征选择问题,基于经典的Relief-F算法,通过综合考虑有标记样本与无标记样本对数据样本近邻的影响,重新定义样本近邻的搜索策略,提出了一种面向符号数据的半监督特征选择算法.为进一步分析新算法的有效性,仿真实验中选取了5组UCI数据集,并引入机器学习中3个常用分类器对新算法和对比算法的特征选择结果的分类性能作了分析和比较,实验结果很好地验证了本文中提出的新算法的有效性和可行性.  相似文献   

2.
基于有监督机器学习算法的蛋白质相互作用关系抽取方法仍然面临一个问题:标注数据集有限,导致算法无法得到充分学习。该文首先构造了一个丰富的特征空间,包括句法、词汇、词性等特征;然后,该文对不同数据集数据分布的不一致性进行了分析,在此基础上提出了一种基于自训练的数据添加算法,通过不断从未标注数据集中选择置信度高的样本加入到已标注数据集中,扩大数据集规模,提高算法效率。实验结果表明:在5个常用的蛋白质相互作用关系数据集上,该方法均有助于提高抽取性能。  相似文献   

3.
【目的】机器学习中不同算法适用于具有不同分布特征的数据集。在用整个训练集上训练得到的单个分类器预测新样本类别时,由于缺少对局部区域样本的针对性,可能导致分类器对某一区域数据的预测能力较差而产生错误分类。为了解决这个问题,提出基于k-means+ +的多分类器选择算法。【方法】首先用3种分类综合性能较好的算法———Ada-Boost、SVM、随机森林(RF)在训练集上分别训练得到3个分类器作为候选基分类器,然后利用k-means++算法将训练数据集分为k个簇,用3个候选分类器分别对每个簇进行分类测试,选择对这一簇中数据分类精度最高的分类器作为与它的数据相似数据的分类器。在对新样本进行类别预测时,首先判定样本属于哪个簇,然后用它的分类器进行分类预测。【结果】实验结果表明,新算法在9个UCI数据集上优于单个分类算法。【结论】基于局部区域动态选择最优分类器可以提高模型分类准确性。
  相似文献   

4.
传统的Relief-F算法主要用于处理有标记数据集.针对部分标记数据集,引入一种基于耦合学习的数据样本相似度,设计了一种面向符号数据的基于Relief-F算法的半监督特征选择算法.为有效验证新算法的可行性,实验分析中选取了5组UCI数据集和3种常用机器学习分类器来进行验证,实验结果进一步验证了算法的有效性.  相似文献   

5.
提出一种基于支持向量机(SVM)的钢筋砼(RC)框架结构快速地震易损性分析方法.以6层框架结构为例,选取柱尺寸、柱配筋率、混凝土标号、层高、横向跨度和梁高跨度比6个结构微观特征,对不同特征取值的5.67×10~4个结构进行Pushover分析,并应用能力谱法评估抗震性能,建立震害样本库;从样本库中选取训练集,引入机器学习SVM算法,建立结构微观特征与抗震性能之间的映射关系,进而可对给定特征取值的目标结构进行易损性预测.用样本库中的非训练集结构验证方法的准确性,结果表明:该方法具有较好的易损性预测准确率和稳定性,预测性能与训练集的样本数量及其有效性相关.  相似文献   

6.
当前基于机器学习的材料属性预测研究中,通常采用数据库获取的所有数据样本,通过计算其高维向量表示来训练预测模型。然而材料数据库样本的高冗余性导致了训练的模型具有很强的偏向性和过拟合的现象。为此,提出一种剔除数据集中冗余性样本的算法,从数据集中选择具有代表性样本;通过使用多种机器学习算法预测材料属性并进行比较,结果表明如果没有实行基准数据集的冗余控制,即使是随机原始数据集也可以由于高冗余样本而得到很好的预测性能指标;研究还发现使用具有代表性样本进行训练实际可以帮助训练出具有更高泛化能力和更具预测性的模型。因此,提出降低冗余度是评估材料性能预测模型的必要步骤。  相似文献   

7.
特征选择是机器学习和模式识别领域的一个关键问题.文中详细分析研究一类基于K近邻分类间隔的特征选择算法,并着重讨论当K>1时,特征选择的评价准则和搜索策略的设计,同时在多个数据集上验证其性能.  相似文献   

8.
基于粗集理论的数据离散化技术研究   总被引:2,自引:0,他引:2  
信息系统连续型属性值的离散化对决策规则或决策树的学习具有非常重要的意义,它能够提高系统对样本的聚类能力,增强系统抗数据噪音的能力,减少机器学习算法的时间和空间开销,提高其学习精度。粗集是有效的数据离散化工具。对基于粗集理论的数据离散化方法进行了深入研究,分析其特征,评述其研究进展,并通过仿真实验研究了几种典型的启发式离散化算法的性能。其结果对发展新的离散化技术或为特定应用选择合适算法都有参考价值。  相似文献   

9.
以肿瘤基因表达谱指导肿瘤的分类是目前机器学习领域的一个研究热点.对多类别肿瘤分类中的关键问题——特征基因选择方法进行了研究,提出了混合式特征基因选择策略.该策略首先利用7种特征选择算法提取与分类高度相关的基因,随后采用SSiCP算法消除冗余基因.实验是在肺癌的多类别基因表达谱数据集上完成的.实验比较了7种特征选择算法的性能,发现CFS算法加SSiCP算法的混合式基因选择策略可以获得数量较少的特征基因集,在训练集和独立测试集均有较高的准确度.所获得的最精简基因集中的部分基因据文献报道与肺癌的发生发展密切相关.实验结果证实了混合式特征基因选择策略的有效性.  相似文献   

10.
提出了一种基于非负稀疏表示(nonnegative sparse representation,NSR)的半监督学习标签传播算法.该算法首先构造一个稀疏概率图(sparse probability graph,SPG),其权重由非负稀疏表示算法计算的非负系数组成,自然地反映了各样本之间的聚类关系,避免了传统半监督学习算法中的邻居选择和参数设置过程;然后通过对未标记样本的标签进行迭代繁殖至收敛而获得所有样本的标签.在人脸识别、物体识别、UCI机器学习和TDT文本数据集上的实验结果表明采用非负稀疏表示的标签传播算法比典型的标签繁殖算法具有更好的分类准确率.  相似文献   

11.
为了提高机器学习算法超参数寻优效率,提出了一种基于参数并行机制的机器学习参数寻优方法。该方法通过群启发式算法来进行机器学习算法的参数寻优,将种群转换为Spark平台特有的弹性分布式数据集,针对参数寻优耗时特点并行计算种群中个体适应度。选取随机森林和遗传算法作为实验算法,设计了多组实验对所提出的学习训练方法进行验证。实验结果表明:该方法的参数寻优能力和效率都优于主流的网格搜索算法;在20万条以下的小数据量下,与基于数据并行机制的机器学习参数寻优方法相比,该方法运行时间最多能够减少69.5%,并具有良好的可扩展性。  相似文献   

12.
一种基于距离比值的支持向量机增量训练算法   总被引:1,自引:0,他引:1       下载免费PDF全文
由于支持向量机具有较好地学习性能和泛化能力,目前已经得到了广泛的应用。如何使支持向量机进行有效的增量学习是目前支持向量机应用中需要解决的问题。深入研究了支持向量分布特点,提出了一种新的支持向量机增量训练淘汰机制——距离比值算法。该算法根据遗忘规则,设定一个合适的参数,按距离比值法中的定义计算各个样本中心距离与其到最优分类面距离的比值,舍弃对后续训练影响不大的样本,即可对训练数据进行有效的淘汰。对标准数据集的实验结果表明,使用该方法进行增量训练在保证分类精度的同时,能有效地提高训练速度。  相似文献   

13.
偏标记学习是近几年提出的新机器学习框架,已有的逻辑回归偏标记算法尚不能解决数据不平衡问题.建立了一种可以解决数据不平衡的逻辑回归模型偏标记学习算法.基本思想是在多元逻辑回归模型中定义新的似然函数以达到处理不平衡数据的目的.算法先根据训练集中各个类别样本所占比例定义了一个新的似然函数,之后通过逼近和求导等数学手段推导得到了能够求解的光滑的逻辑回归偏标记学习模型.在UCI数据集和真实数据集上的仿真实验表明,所提算法在数据存在不平衡问题时提高了样本的平均分类精度.  相似文献   

14.
支持向量机(support vector machine,SVM)分类性能主要受到SVM模型选择(包括核函数的选择和参数的选取)的影响,目前SVM模型参数选择的方法并不能较好地确定模型参数。为此基于Fisher准则提出了SVM参数选择算法。该算法利用样本在特征空间中的类别间的线性可分离性,结合梯度下降算法进行参数寻优,并基于Matlab实现选择算法。实验结果表明参数选择算法既提高了SVM训练性能,又大大减少了训练时间。  相似文献   

15.
针对主动学习面向大型数据集人工标记成本过高和半监督自训练算法中存在误标记点影响的问题,提出了一种主动学习与半监督自训练交替迭代训练的联合算法.算法在训练过程中奇数轮次采用主动学习算法,偶数轮次采用自训练算法,通过2种算法的交替迭代训练以弥补彼此不足.自训练算法对无标记样本的预测减轻了主动学习标记样本的负担,同时主动学习标记易变成噪声的样本,减轻了自训练算法训练过程中对样本的标记错误.提出了一种基于密度峰值聚类和隶属度的改进主动学习算法:将初始无标记样本聚类成簇,根据隶属度差值在每个簇内选取部分样本做人工标记,获得可表达样本的整体结构的均衡样本.仿真试验表明:提出的联合算法在性能上要优于2种单一算法.对比常见的主动学习算法,改进后的主动学习算法分类性能得到显著提升,将其应用于联合算法中的效果更具优势.   相似文献   

16.
17.
汪森辉  王成  孙坤  何祥  杨科 《科学技术与工程》2023,23(13):5530-5538
针对自适应增强回归阈值(adaptive boosting regression threshold, AdaBoost.RT)算法用于判断训练样本好坏的阈值为常数,不能自适应地对每个测试样本动态调整判断标准的问题,提出了一种动态自适应调整阈值的改进AdaBoost.RT算法。通过引入训练结果的均值与标准差构造奇异系数作为判断相对误差的阈值,实现算法训练计算过程中阈值的自适应调整,在提高预测精度的同时,可以减少选择算法参数带来的繁重工作量。采用4组经典测试函数构造不同规模的训练样本数据进行算法检验,实验结果表明,提出的自适应调整阈值算法可以有效利用测试样本之间的差异性,克服了大噪声数据带来的干扰,改进后的集成算法可以改善回归模型的预测效果,提高模型的泛化性能。利用IEEE PHM 2012数据集验证所提方法的有效性,并与极限学习机(extreme learning machine, ELM)和原始AdaBoost.RT算法进行对比分析。结果表明:采用所提方法获得的轴承寿命预测均方根误差降低了5.18%,决定系数提高了3.11%。  相似文献   

18.
针对传统线性支持向量机在训练数据集时均等对待每一维输入特征,以及在原始空间直接分类造成预测准确率低的问题,提出低阶多项式数据映射和特征加权相结合的方法,来提高线性支持向量机的分类性能。该方法首先将每个样本映射到多项式核对应的2 阶显式特征空间,从而增加样本的隐性信息,然后使用模糊熵特征加权算法计算每一维特征的权重,通过权重衡量特征对分类结果的贡献大小。从不同数据库选取7个数据集进行测试,在训练时间和预测准确率2个方面将该方法与核支持向量机、线性支持向量机的其他改进算法进行比较。结果显示,随着数据集规模的扩大,训练时间降低一个数量级,预测准确率在一些数据集上取得与核支持向量机相接近的效果。结果表明:所提方法可以有效提高线性支持向量机的整体性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号