首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
米文博  李勇  陈囿任 《科学技术与工程》2022,22(32):14275-14281
通过软件缺陷预测可以有效地提高软件测试效率,保证软件产品的质量。针对新开发的项目面临训练数据不足,标注代价高以及源项目与目标项目的缺陷模式难以匹配的问题,提出了基于主动学习的跨项目软件缺陷预测方法。首先使用主动学习方法对目标项目进行筛选标注,其次将得到的标签集与跨项目数据进行数据融合和模式匹配,最后构建跨项目软件缺陷预测模型。采用真实的软件缺陷数据进行实验,在保证预测率的前提下,曲线下面积(area under curve, AUC)能够达到0.692,与传统方法相比综合性能均有显著提升。结果表明:所提方法可以通过模式匹配有效提高跨项目软件缺陷预测模型的性能。  相似文献   

2.
针对传统的软件缺陷预测方法难以在单独的项目中利用小规模训练数据的问题,提出了一种基于迁移学习的软件缺陷预测技术,利用已有的项目辅助新项目的预测.该方法在源项目和目标项目之间寻找一个公共特征空间,使得在公共特征空间上2个项目的数据分布距离最小.在这个公共空间进行模型训练,以达到迁移分类的效果.实验结果显示该方法相对传统的缺陷预测算法有更好的预测性能,并且充分利用了原始训练数据,可以更高效地运用于各种软件缺陷预测任务.  相似文献   

3.
即时软件缺陷预测针对项目开发与维护过程中的代码提交来预测是否会引入缺陷。在即时软件缺陷预测研究领域,模型训练依赖于高质量的数据集,然而已有的即时软件缺陷预测方法尚未研究数据集扩充方法对即时软件缺陷预测的影响。为提高即时软件缺陷预测的性能,提出一种基于数据集扩充的即时软件缺陷预测(prediction based on data augmentation,PDA)方法。PDA方法包括特征拼接、样本生成、样本过滤和采样处理4个部分。增强后的数据集样本数量充足、样本质量高且消除了类不平衡问题。将提出的PDA方法与最新的即时软件缺陷预测方法(JIT-Fine)作对比,结果表明:在JIT-Defects4J数据集上,F1指标提升了18.33%;在LLTC4J数据集上,F1指标仍有3.67%的提升,验证了PDA的泛化能力。消融实验证明了所提方法的性能提升主要来源于数据集扩充和筛选机制。  相似文献   

4.
针对软件缺陷预测数据中的数据不平衡、预测精度低以及特征维度高的问题,提出了一种RUS-RSMOTE-PCA-Vote的软件缺陷不平衡数据分类方法。首先通过随机欠采样来减少无缺陷样本的数量;在此基础上进行SMOTE过采样,在过采样中综合总体样本的分布状况引入影响因素posFac指导新样本的合成;对经过RUS-RSMOTE混合采样处理后的数据集进行PCA降维,最后应用Vote组合K最近邻、决策树、支持向量机构造集成分类器。在NASA数据集上的实验结果表明,与现有不平衡数据分类方法相比,所提方法在F-value值、G-mean值和AUC值上更优,有效地改善了软件缺陷预测数据集的分类性能。  相似文献   

5.
针对跨项目软件缺陷预测中大量不相关的跨项目数据损害了缺陷预测模型性能的问题,提出了一种基于SSDBSCAN(semi-suppervised density-based clustering)的跨项目缺陷预测数据筛选方法——SSDBSCAN filter.首先,SSDBSCAN filter结合少量带类标号的本项目历史数据、跨项目历史数据和大量不带类标号的本项目数据;然后,利用SSDBSCAN算法对这些数据进行聚类发现子簇;最后,收集子簇中的跨项目数据,不属于任何簇的跨项目数据被作为噪声数据而丢弃.实验使用15个公开的PROMISE数据集,3种分类器和4种性能度量指标.实验结果表明,相比于目前已有的Burak filter和DBSCAN filter方法,SSDBSCAN filter在提高了预测率的同时降低了误报率,且G-measure与AUC度量值更佳.  相似文献   

6.
小样本图像分类训练样本过少,若直接用深度学习的方法对其处理会出现过拟合现象,且存在训练好的模型不能很好的泛化到测试任务上等问题.针对以上问题,提出一种基于数据增强的算法去缓解模型过拟合,并结合深度学习网络wide-ResNet28来提升模型的分类性能.此方法没有引用外部数据对当前任务进行数据扩充,而是借助基类数据的语义先验信息对新类数据的特征进行补充,在形成新的特征分布上进行数据增强.该方法在MiniImageNet和Cub 2个小样本数据集上进行实验,图像特征提取的精确度分别达到83.46%、91.61%,验证了该方法的有效性.  相似文献   

7.
在利用文本信息预测用户大五人格的普遍方法中,对于文本特征的提取未充分考虑上下文语义信息,存在对语义特征提取不够精准的问题.针对该问题,提出了一种结合深度学习与上下文语义的方法:在TF-IDF中加入单词的上下文语义信息来计算单词权值,然后结合基于文本的卷积神经网络模型和由单词权值构成的上下文语义特征向量进行用户大五人格预测.实验数据使用Facebook中myPersonality应用的用户社交记录,实验结果表明:将文本上下文语义加入到深度学习预测模型后,人格预测的准确率有所提高.  相似文献   

8.
针对慕课(MOOC)评论中存在少数类特征偏移的问题, 提出一种基于特征偏移补偿的深度智能化教学评价方法. 该方法首先使用Glove预训练模型获取MOOC评论的分布式词向量; 然后采用浅层卷积神经网络, 通过多个卷积核学习教学评价的语义, 引入不同类别评论的数量设计影响因子, 归一化该影响因子并应用到交叉熵损失函数中; 最后基于Coursera平台的本科学生教学评论数据集, 通过与其他损失函数在F1,gmean,balance,gmeasure等评价指标上进行性能对比实验. 实验结果表明, 基于归一法的特征偏移补偿损失函数在gmeasure指标上比基类损失函数得到了最多15.40%的性能提升, 并且采用该损失函数的分类模型也表现出较强的稳定性.  相似文献   

9.
软件缺陷预测数据集在搜集过程中存在标注成本较高的问题,引入主动学习有利于选择有价值的数据样例来快速构建数据集,但是主动学习一般选出不确定度最高的样例进行人工标注,并未考虑低不确定度样例。为了进一步降低数据标注的成本,融合信息熵与相对熵提出一种基于代价敏感的混合式主动学习策略。该策略首先使用基于信息熵的主动学习策略,将信息熵最高的样例交由领域专家进行人工标注;对于信息熵最低的样例,借助查询委员会进行二次分析,若满足阈值则进行伪标注。实证研究表明,在同等标注样例的情形下,该策略的AUC值要优于其他3种经典的主动学习策略。使用基于代价敏感的主动学习查询策略可以有效提高软件缺陷预测领域的标注效率并降低标注成本。  相似文献   

10.
高性能的软件缺陷预测模型可为软件自动化测试奠定重要的基础.当前的软件缺陷预测模型主要采用机器学习分类算法进行构建.其中,基于集成学习的软件缺陷预测模型通常可以达到当前最优的性能.然而,基于集成学习的软件缺陷预测模型的性能受到分类器的超参数取值的明显影响.因此,如何优化基分类器中的超参数,是提升基于集成学习的软件缺陷预测...  相似文献   

11.
为了克服传统机器学习算法产量预测模型的缺点,以深度森林算法理论为基础,综合油井相关各项数据,建立了油井产量预测新模型。首先应用KNN最邻近方法和Z-Score标准化方法对油井相关数据进行预处理,利用MDI特征选择方法选择对油井产量影响最大的特征向量,然后将选出的特征向量作为深度森林模型的输入变量,建立深度森林产量预测模型,利用网格化搜索优化模型参数,最后在测试集上运行模型,对模型性能进行评估。研究结果表明,相对于BP神经网络等传统机器学习算法模型,深度森林模型的产量预测精度更高,可以准确预测油井产量,同时相对于深度神经网络等复杂学习算法,该算法参数少、调参及应用简单,为油井产量预测提供了一种新的方法和思路。  相似文献   

12.
针对由于传统的源代码缺陷分析技术依赖于分析人员的对安全问题的认识以及长期经验积累造成的缺陷检测误报率、漏报率较高的问题,提出了一种深度学习算法源代码缺陷检测方法.该方法根据深度学习算法,利用程序源代码的抽象语法树、数据流特征,通过训练源代码缺陷分类器完成源代码缺陷检测工作.其依据的关键理论是应用深度学习算法及自然语言处理中的词嵌套算法学习源代码抽象语法树和数据流中蕴含的深层次语义特征和语法特征,提出了应用于源代码缺陷检测的深度学习一般框架.使用公开数据集SARD对提出的方法进行验证,研究结果表明该方法在代码缺陷检测的准确率、召回率、误报率和漏报率方面均优于现有的检测方法.   相似文献   

13.
基于整个数据集的稀疏表示(sparse representation classification,SRC)用于人脸识别在很大程度上影响了运行效率.如何利用较少样本稀疏表示在保证计算效率的同时,识别率也有一定提升,尤其是面对光照、角度、姿态等非受控环境,目前仍是一个问题.考虑到协同表示(collaborative representation classification,CRC)基于l2范数稀疏求解的优势,为进一步提升CRC的整体分类性能,引入类内近邻,提出一种二次近邻稀疏重构表示法.该方法首先在原始训练集上选择各类训练样本中与待测样本距离相近的若干样本组成近邻样本集,并协同表示,接着分别用各类近邻样本重构待测样本,再次选择与待测样本相近的若干重构样本协同表示,最终实现模式分类.在ORL和FERET数据库上的仿真实验表明,相比现有的一些CRC算法,该方法在一定程度上缩短了运行时间,并使识别更精确.  相似文献   

14.
一种提高文本聚类算法质量的方法   总被引:1,自引:0,他引:1  
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题.  相似文献   

15.
改进的神经网络最近邻聚类学习算法及其应用   总被引:17,自引:0,他引:17  
提出了一种改进的RBF(Radial Basis Functions,径向基函数)神经网络最近邻聚类学习算法。并将其应用于股市预测问题。模拟结果表明,改进算法的拟合效果与拟合误差均明显好于常规最近邻聚类学习算法,可以较大幅度提高RBF神经网络的预测性能。  相似文献   

16.
多标签分类中,一个样本可能属于多个类别,且在小样本场景下模型性能更容易受到样本中复杂语义特征的影响。然而,目前常用的原型网络方法仅使用每类支持集样本的均值作为标签原型,导致原型中存在其他类别特征带来的噪声,弱化了原型间的差异性,影响预测效果。本文提出一种利用实例级注意力的多标签小样本原型网络分类方法,通过提高支持集中与当前标签关联度高的样本的权重,减少其他标签特征的干扰,增大标签原型之间的区分度,进而提高预测的精确率.实验表明,方法通过引入实例级注意力强化了多标签原型网络的学习能力,分类效果明显提升.  相似文献   

17.
Problems existin similarity measurement and index tree construction which affect the perform-ance of nearest neighbor search of high-dimensional data .The equidistance problem is solved using NPsim function to calculate similarity .And a sequential NPsim matrix is built to improve indexing performance .To sum up the above innovations , a nearest neighbor search algorithm of high-dimen-sional data based on sequential NPsim matrix is proposed in comparison with the nearest neighbor search algorithms based on KD-tree or SR-tree on Munsell spectral data set .Experimental results show that the proposed algorithm similarity is better than that of other algorithms and searching speed is more than thousands times of others .In addition , the slow construction speed of sequential NPsim matrix can be increased by using parallel computing .  相似文献   

18.
虽然最邻近决策规则能很好地解决数据集的非线性和非平衡性问题,但其没有学习过程.在此基础上,提出了一种利用聚类方法来浓缩训练样本,再根据最近邻准则进行决策的方法——核最近表面分类方法.通过实验将其与几种常用的统计分类方法进行对比,结果表明,核最近表面分类方法具有决策速度快、存储空间需求小等优点,同时也能够很好地处理非平衡...  相似文献   

19.
针对工业过程中存在的动态特性和多模态特性问题,提出一种动态加权差分主成分分析法(dynamic weighted differential principal component analysis,DWDPCA)。首先通过设置合理的时间窗描述系统的时序特性;其次对时间窗内的样本寻找第一近邻和第一近邻的近邻集,使用加权差分法对数据进行处理,解决数据中心漂移问题;最后利用处理好的数据建立主成分分析(principal component analysis,PCA)模型进行故障检测。该方法可解决数据动态、中心漂移问题。使用该方法对数值例子和TE(tennessee eastman)过程进行故障检测验证所提出方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号