首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对大数据环境下并行支持向量机(support vector machine,SVM)算法存在噪声数据较敏感、训练样本数据冗余等问题,提出基于粒度和信息熵的GIESVM-MR(the SVM algorithm by using granularity and information entropy based on MapReduce)算法.该算法首先提出噪声清除策略(noise cleaning,NC)对每个特征属性的重要程度进行评价,获得样本与类别之间的相关度,以达到识别和删除噪声数据的目的;其次提出基于粒度的数据压缩策略(data compression based on granulation,GDC),通过筛选信息粒的方式保留类边界样本删除非支持向量,得到规模较小的数据集,从而解决了大数据环境下训练样本数据冗余问题;最后结合Bagging的思想和MapReduce计算模型并行化训练SVM,生成最终的分类模型.实验表明,GIESVM-MR算法的分类效果更佳,且在大规模的数据集下算法的执行效率更高.  相似文献   

2.
针对双关语样本短缺问题,研究提出了基于伪标签和迁移学习的双关语识别模型(pun detection based on Pseudo-label and transfer learning)。该模型利用上下文语义、音素向量和注意力机制生成伪标签;然后,迁移学习和置信度结合挑选可用的伪标签;最后,将伪标签数据和真实数据混合到网络中进行训练,重复伪标签标记和混合训练过程。一定程度上解决了双关语样本量少且获取困难的问题。使用该模型在SemEval 2017 shared task 7以及Pun of the Day数据集上进行双关语检测实验,结果表明模型性能均优于现有主流双关语识别方法。  相似文献   

3.
为了探索多标签数据集中每个标签所具有的特定特征,针对标签特定特征进行有效的利用,提出基于聚类提升树的多标签学习方法(multi-label leaning based on boosting clustering trees,MLL-BCT).建立MLL-BCT整体框架,通过引入聚类特征树来挖掘数据样本之间的相关性,以...  相似文献   

4.
在监督学习中,标签噪声对模型建立有较大的影响。目前对于标签噪声的处理方法主要有基于模型预测的过滤方法和鲁棒性建模方法,然而这些方法存在过滤效果差或者过滤效率低等问题。针对该问题,该文提出一种基于数据分布的标签噪声过滤方法。首先对于数据集中的每一个样本,根据其近邻内样本的分布,将其及邻域样本形成的区域划分为高密度区域和低密度区域,然后针对不同的区域采用不同的噪声过滤规则进行过滤。与已有方法相比,该方法从数据分布角度出发,使得噪声过滤更具有针对性从而提高过滤效果;此外,使用过滤规则对噪声数据进行处理而非建立噪声预测模型,因而可以提高过滤效率。在15个UCI标准多分类数据集上的实验结果表明:该方法在噪声低于30%时,噪声检测效率和分类精度均有很好的表现。  相似文献   

5.
情感分布学习(emotion distribution learning, EDL)采用情感分布记录给定样本在各个情绪上的表达程度,在处理具有模糊性的多标签情绪分析任务时具有明显优势。情感分布标签增强技术将已标注的情绪单标签增强为情感分布,可以解决EDL缺乏已标注情感分布的实验数据集的问题。然而,已有的情感分布标签增强方法采用离散空间情绪模型表示情绪,存在情绪间的相关信息丢失和情绪表达不连续等问题。针对上述问题,该文引入基于连续维度的效价-唤醒-支配(valence-arousal-dominance, VAD)心理学情绪模型,提出融合VAD情绪知识的文本情感分布标签增强方法(VAD emotion knowledge-based text emotion distribution label enhancement, VADLE)。VADLE方法基于先验的VAD情绪模型中的情绪距离,先为英文句子的真实情绪标签和句中情感词的情绪标签分别生成先验情感分布,再通过分布叠加将2种先验情感分布统一。通过英文单标签文本情感数据集的对比实验表明:VADLE方法在情绪预测任务方面的性能优于已有的情感...  相似文献   

6.
利用关系分类模型,将标签之间的相关性以及特征对标签相关性的影响形式化为分数模型,通过要求模型能够区分真实数据和噪声数据的得分建立了基于张量网络的多标签分类模型.多个数据集上的实验表明,相较于传统多标签学习方法和已有考察标签相关性的多标签学习方法,本文方法在平均精确度和错误率等多标签评价指标上提升近一倍,且拥有更低的计算成本.  相似文献   

7.
为了更好地控制利用伪标签样本学习的这类半监督分类算法中的噪声,针对以往研究中分布噪声难以量化并被忽视的问题,提出一种基于高斯混合模型和伪验证集的噪声量化和分析的新方法.根据噪声下的泛化误差分析,提出一种可回溯的分类器迭代训练策略,可以有效降低伪标签样本带来的噪声影响.通过将该训练策略与集成学习相结合,提出一种ensemble self-learning(ESL)算法,能够进一步提高分类算法的泛化性能.在6个公开数据集上与同类先进算法进行了试验比较.结果表明,所提出的算法取得了最高的平均准确率,并且在75%的试验数据集上都取得了最好的准确率.  相似文献   

8.
针对目前公开已有珊瑚数据集种类、样本少等问题.为构建种类丰富的大规模珊瑚数据集,本文首先以珊瑚属名为关键词,通过爬虫技术在网络中搜集大量珊瑚图片形成初始数据集;其次使用感知哈希算法对初始数据集中的图片进行去重处理;再次采用YOLO V3深度学习网络对去重后的数据集进行清洗,去除大噪声样本;然后通过旋转、镜像、随机裁剪、改变亮度和对比度等方法进行数据增强,均衡各个珊瑚属包含的图像数量;最后,构建了一个包含34个珊瑚属,218 467张珊瑚图像的珊瑚数据集.所构建的珊瑚数据集种类和样本数均高于已有的、公开的珊瑚数据集.所提出的珊瑚数据集构建方法也适用于其他难以获得样本的数据集的构建.  相似文献   

9.
在多源域迁移学习应用中,现有的分类模型大多对数据标签要求较高,难以适应数据集的动态变化和标签缺失情况.针对该问题,提出一种基于动态域定界的循环分类模型CAMDOT(cyclic classification model based on dynamic domain delimitation).首先,引入互信息量化各数据域间的相关性,提高分类模型适应异构用户和数据动态变化的能力.其次,针对数据标签缺失和不平衡问题,提出一种循环分类算法.最后,通过理论与实验分析,验证该模型在多源域数据训练中具有较高的分类准确率.  相似文献   

10.
面向社交网络的情感社区检测,可应用于公共健康、舆情监测等领域.以新浪微博为平台建立一种情感社区检测框架,首先融合微博情感表情特征和情感词典,提出基于朴素贝叶斯算法的半词典半表情(naive Bayes based semi-lexicon and semi-emoji,SL-SE-NB)分类模型以实现对文本的情感极性预测;提出一种基于潜在狄利克雷分配(latent Dirichlet allocation,LDA)话题模型的用户-超话题-关键词(user-topic-keywords,UTK) 模型抽取用户话题;基于标签传播算法(label propagation algorithm,LPA)并加入话题概念,提出基于种子集与最小边介数的标签传播情感社区发现算法(label propagation algorithm based seeds and min-edge betweenness,SMB-LPA).最后通过实验验证了所提出算法的有效性和高效性.  相似文献   

11.
传统的校准标签排序算法(calibrated label ranking,CLR)利用成对标签关联进行转化来预测结果.该算法的校准是在二元关系算法(binary relevance,BR)基础上进行比较产生结果,其预测对BR产生结果具有一定的依赖性,因此该算法在预测某些数据集时具有一定的局限性.为了更好地区分标签的相关性和不相关性,提出了一种用于标签边界域的校准方法,对处于相关性标签和不相关性标签的边界部分采用贝叶斯概率进一步校正,从而提高边界域部分分类的准确性.基于朴素贝叶斯校准的标签排序方法(calibrated lable ranking method based on naive bayes,NBCLRM)与校准标签排序等7种传统的方法进行对比,实验结果表明,本文提出的算法不仅可以根据需求修改阈值ε和μ来调节预测结果,而且能够有效地提升传统多标签学习方法的性能.  相似文献   

12.
基于滑动窗口的RFID数据流多标签清洗算法   总被引:1,自引:0,他引:1  
RFID数据流清洗技术主要关注的是数据的实时性、完整性和动态性.传统的适应性清洗机制针对的只是单标签的情况,且在调整窗口以保证动态性的情况下丧失了完整性.为此,首先在二项分布模型的基础上提出了一种新的单标签清洗算法,改进和完善了传统的单标签清洗算法;之后提出了基于防碰撞模型的多标签清洗算法,从而形成了一套完整的数据流清洗算法.此外,进行了大量实验,验证了算法的有效性.  相似文献   

13.
多标签特征选择能够有效去除冗余特征并提升分类精度, 是解决"维数灾难"问题的有效方法. 然而, 已有的多标签特征选择算法是对所有标签选择出相同的特征, 忽略了标签与特征之间的内在联系. 事实上, 每个标签都具有反映该标签特有属性的特征, 即类属特征. 提出一种基于图拉普拉斯的多标签类属特征选择(multi-label label-specific feature selection based on graph Laplacian, LSGL)算法. 对于每个类别标签, 基于拉普拉斯映射获得数据的低维嵌入, 再通过稀疏正则化获得数据空间到嵌入空间的投影矩阵, 接着通过分析矩阵系数确定每个标签相应的类属特征, 最后使用类属特征进行分类. 在 5 个公共多标签数据集上的多标签特征选择与分类实验结果证明了所提算法的有效性.  相似文献   

14.
多标签特征选择能够有效去除冗余特征并提升分类精度,是解决“维数灾难”问题的有效方法.然而,已有的多标签特征选择算法是对所有标签选择出相同的特征,忽略了标签与特征之间的内在联系.事实上,每个标签都具有反映该标签特有属性的特征,即类属特征.提出一种基于图拉普拉斯的多标签类属特征选择(multi-label label-specific feature selection based on graph Laplacian,LSGL)算法.对于每个类别标签,基于拉普拉斯映射获得数据的低维嵌入,再通过稀疏正则化获得数据空间到嵌入空间的投影矩阵,接着通过分析矩阵系数确定每个标签相应的类属特征,最后使用类属特征进行分类.在5个公共多标签数据集上的多标签特征选择与分类实验结果证明了所提算法的有效性.  相似文献   

15.
专家可为社区问答提供权威的答复,高效精准的专家发现有助于提升问答社区的服务质量.现有社区用户数据中存在噪声标签数据,且由于专家数量较少造成分类数据不平衡,从而降低了监督学习模型的专家发现精度.针对上述问题,本文提出一种基于特征扰动的半监督专家发现方法.该方法构建了一种无标签数据特征扰动策略,利用Sharpening算法实现无标签数据的伪标签化;基于ADASYN算法,通过构建专家用户邻近样本的方式扩充专家样本数据量,缓解分类数据的不平衡;构建联合损失函数,利用有标签和伪标签数据共同训练分类器,增强模型的泛化性能.实验结果表明,该方法在多个评价指标上优于已有模型和方法.  相似文献   

16.
主动学习是机器学习领域的重要研究方向.现有主动学习方法通常选择不确定性的或具有代表性的样本供专家打标,然后添加到已标记的数据集中供分类器学习,但没能充分利用数据的分布信息,并且在野点采集问题上有待改进.结合邻域粗糙集理论,提出了一种基于邻域粗糙集的主动学习方法(neighhbor rough set active learn-ing,NRS-AL).实验结果表明,在加州大学数据集(university of CaliforniaIrvine,UCI)上,该算法充分利用了数据的分布信息,同时结合样本的不确定性和代表性计算,处理了野点的选择,是一种能有效解决主动学习样本选择问题的算法,在accuracy,受试者工作特征(receiver operating characteristic curve,ROC)曲线下面的面积(area under curve,AUC)指标上优于文献中的主动学习算法.  相似文献   

17.
由于有序与无序特征之间的复杂关系,现有分类方法不能有效处理混合数据(同时包括有序和无序特征)上的分类问题。针对此问题,提出了基于k近邻的混合数据分类方法(a classification method for mixed data based on k-nearest neighbor,MDKNN)。首先通过区分有序和无序特征计算样本之间的距离,获取特征的序信息和统计信息;然后分别从优于和劣于预测样本的训练集中选出最近邻样本,并基于模糊关系计算其类隶属度,以确定预测样本的类标签范围,从而保证预测结果的单调性;最后在该范围内计算分类结果。在来自UCI和WEKA的12个公开数据集上进行实验,分别与基于k近邻模型的MKNN、FKNN、MFKNN算法和基于非k近邻模型的PMDT、OLM、OSDL算法比较,所提方法都获得了最高的平均准确率,且分别比两类模型中的最优算法MFKNN和PMDT提高了7.13%和9.84%,表明了所提方法的有效性。  相似文献   

18.
弱监督场景下的标签噪声广泛存在于现实世界的数据中,导致分类性能下降。测量误差、主观标签偏差和人为标记错误都是导致噪声标签的主要原因。为降低噪声标签对模型分类性能的影响,该文提出一种噪声标签识别与纠正的置信度预测方法(CPRC)。首先,定义初始可信样本选择策略,筛选优质的可信样本;然后,建立置信度连接关系,设计标签概率预测方法,推断样本标签置信度;最后,迭代搜索最优置信度样本,实现噪声标签识别和纠正。该文选择在Seeds、Penbase等经典数据集上进行广泛实验,实验结果表明,该文算法可以显著提高不同类型基础分类器在不同噪声比下的分类性能,且性能优于目前先进的噪声标签学习算法。  相似文献   

19.
对动态数据流的在线学习问题,传统的在线BLS(Broad Learning System)算法无法准确地捕捉数据最新的变化趋势。为此提出两种具有遗忘机制的在线BLS算法——基于遗忘因子的在线BLS算法(FF-OBLS:Online Broad Learning System based on Forgetting Factor)和基于滑动窗口的在线BLS算法(SW-OBLS:Online Broad Learning System based on Sliding Window)。FF-OBLS在在线学习过程中通过为旧样本添加遗忘因子以体现新旧样本对学习模型的不同贡献,SW-OBLS在在线学习过程中通过删除旧样本以消除旧样本对学习模型的影响,从而使学习模型对动态数据流的后续趋势做出更准确的分析和预测。为验证提出的两种在线BLS算法的有效性,使用动态回归数据集进行实验。实验结果表明,具有遗忘机制的在线BLS模型在预测精度和时间开销上均优于传统在线BLS模型,更适合处理动态数据流问题。  相似文献   

20.
即时软件缺陷预测针对项目开发与维护过程中的代码提交来预测是否会引入缺陷。在即时软件缺陷预测研究领域,模型训练依赖于高质量的数据集,然而已有的即时软件缺陷预测方法尚未研究数据集扩充方法对即时软件缺陷预测的影响。为提高即时软件缺陷预测的性能,提出一种基于数据集扩充的即时软件缺陷预测(prediction based on data augmentation,PDA)方法。PDA方法包括特征拼接、样本生成、样本过滤和采样处理4个部分。增强后的数据集样本数量充足、样本质量高且消除了类不平衡问题。将提出的PDA方法与最新的即时软件缺陷预测方法(JIT-Fine)作对比,结果表明:在JIT-Defects4J数据集上,F1指标提升了18.33%;在LLTC4J数据集上,F1指标仍有3.67%的提升,验证了PDA的泛化能力。消融实验证明了所提方法的性能提升主要来源于数据集扩充和筛选机制。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号