首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
为了提升分类模型对非平衡数据的分类性能,提出一种EMWRS(expectation-maximization weighted resampling)抽样算法和WCELoss(weighted cross entropy loss function)损失函数,在数据预处理阶段采用高斯混合模型得知数据分布特点,根据其聚类结果分析每个聚类簇中样本权重,以及样本分布和对应权重对数据进行采样,降低数据集不平衡程度;再依据样本比例权重对少数类和多数类赋予不同的代价损失,构建卷积神经网络模型,提高非平衡数据集的分类准确性。构建的卷积神经网络以F1和G-mean为评价指标,在UCI(university of California irvine)公共数据集adult上与SMOTE(synthetic minority over-sampling technique)和ADASYN(adaptive synthetic sampling)等多种经典算法进行比较,结果显示在这两种评价指标中所提模型均为第一,这表明改进后的卷积神经网络模型能够很好地提高少数类分类正确率。  相似文献   

2.
列举了有关基于聚类融合的不平衡数据分类的办法,可以解决少数类的识别率很低,利用传统分类手段予以解决.利用此种方法能够发现,引入少数类边界区域与在多数类核心当中的样本聚类一致性系数,并且分别对欠抽样方法对少数类与多数类的训练集.  相似文献   

3.
杨磊 《河南科技》2023,(6):28-32
【目的】为了能准确识别出他车的切入意图,同时解决由爆发性增长的无标签行车数据所引起的识别模型落地难的问题。【方法】本研究提出一种双层无监督的车辆切入意图识别模型,该模型由聚类模块及意图识别模块组成。聚类模块采用高斯混合模型对基于NGSIM构造的无标签数据集进行聚类分析,并挖掘其内在的数据关系,从而获取切入时不同驾驶行为对应的特征标签。意图识别模块用于识别车辆切入意图,该模块是基于LSTM搭建的。该模块先结合聚类模块来获取特征标签及无标签数据集,构造新的有标签训练集及测试集,然后将其输入到神经网络中进行训练与测试。【结果】该模型在基于真实路况的NGSIM数据集上表现较好,对驾驶意图的识别准确率达到97%,精度较高。【结论】该模型在无标签数据上具有较好的识别能力。  相似文献   

4.
提出了一种针对竹笛技巧分类的数据集Breath和两个用于竹笛技巧分类的神经网络参考模型Breath1d和Breath2d,并针对此数据集的不同分类任务给出了最佳方法。将Breath数据集划分成子集,以多层感知机为性能评价基准方法,先用Breath1d和Breath2d模型对子集进行训练和预测,再用长短期记忆网络模型进行辅助测试,最后得出了最适合子任务的分类参考模型。对全数据集进行分类时,将Breath2d与Breath1d模型进行融合,并采用数据增强方法使全集分类准确率达到0.913。与传统音频分类任务相比,该工作扩展了音乐分类的研究领域,对民族音乐现代化发展有着良好的推动作用。  相似文献   

5.
在中文事件触发词抽取任务中,基于词的模型会受到分词带来的错误,而基于字符的模型则难以捕获触发词的结构信息和上下文语义信息,为此提出了一种基于跨度回归的触发词抽取方法。该方法考虑到句子中特定长度的字符子序列(跨度)可能构成一个事件触发词,用基于Transformer的双向编码器的预训练语言模型获取句子的特征表示,进而生成触发词候选跨度;然后用一个分类器过滤低置信度的候选跨度,通过回归调整候选跨度的边界来准确定位触发词;最后对调整后的候选跨度进行分类得到抽取结果。在ACE2005中文数据集上的实验结果表明:基于跨度回归的方法对触发词识别任务的F1值为73.20%,对触发词分类任务的F1值为71.60%,优于现有模型;并与仅基于跨度的方法进行对比,验证了对跨度边界进行回归调整可以提高事件触发词检测的准确性。  相似文献   

6.
针对多类分类问题中样本数量分布不均衡和测试速度较慢两种情况,本文提出了两个基于闭球的二叉树多类支持向量机算法:MEB-MCSVM-1和MEB—MCSVM-2.算法利用最小闭球来协调样本数量间的不均衡性,利用球心进行最远距离聚类或最近-最远距离聚类,构建二叉树结构,使二又树的每个节点代表】个二类支持向量机.为了检验所提算法的有效性,本文从需要训练的SVM个数、训练时间和测试时间三个方面对五种算法1-v-1,1-v-r,MEB-MCS—VM-0,MEB-MCSVM-1和MEB—MCSVM-2进行了比较分析,结果表明本文所提方法对解决多类分类问题中样本数目不均匀和测试速度较慢这两种情况有明显的优势,实用性更强.  相似文献   

7.
针对传统神经网络提取的复杂环境声音特征微弱,导致分类准确率低的问题,提出了一种基于颜色通道特征融合的环境声音分类方法。首先,从原始音频数据中提取出三种声音特征,即对数梅尔频谱图(log-Mel spectrogram, LMS)、梅尔倒谱系数(Mel-scale frequency cepstral coefficients, MFCC)以及能量谱图(energy spectrum, ES);其次,分别将以上三者作为RGB颜色通道分量进行特征融合,形成包含更多特征信息的声谱图,更全面表征环境声音;再次,为了避免由于数据集较少导致所训练的模型泛化能力较差,对预训练模型VGG-16采用微调方法进行训练;最后,在两个广泛使用的环境声音分类数据集以及实际场景采集的音频上验证本文所提方法的有效性,并与其他模型的准确率进行对比。结果表明,本文所提方法在ESC-10以及ESC-50数据集上的准确率分别能够达到88.2%和65.2%,并且能提高实际场景采集的音频分类效果。  相似文献   

8.
针对使用单个深度网络提取不同类型水体时存在泛化能力弱的问题,提出一种多模型贝叶斯概率决策融合方法。选取3个不同的深度网络U-net、ResUnet和Deeplab v3+作为基础分类器进行训练并输出遥感影像上每个像素所属水体的类别概率,基于贝叶斯构建概率自适应融合模块,得到最终的水体提取结果。实验结果表明所提出的多模型贝叶斯概率决策融合方法在水体测试集上的精确率、召回率和F1值分别达到94.21%、95.49%和94.85%,对不同类型水体的融合结果比平均法和多数投票法更准确。  相似文献   

9.
针对传统FCM算法无法获得令人满意的聚类结果的问题,提出了基于样本与特征双加权的自适应FCM聚类算法。采用特征和样本双加权的策略,以特征权重信息熵作为代价函数,与样本权重、特征权重相融合,通过迭代优化的方法动态计算各属性特征对不同类别的权重系数、每个样本对聚类的重要性权重值,综合考虑各个样本的贡献度和各个特征的重要性,从而达到提高聚类结果质量的目的。使用5个来自UCI的标准机器学习数据集,对聚类算法的有效性进行验证。结果表明,对于具有不同样本贡献度和不同特征重要性的数据集,提出的算法具有较好的聚类效果。  相似文献   

10.
大规模高维数据集的聚类算法已成为当前聚类研究的热点,由于高维的原因,聚类往往隐藏在数据空间的某些子空间中,传统的聚类算法无法获得有意义的聚类结果.此外,高维数据中含有的大量的随机噪声也会带来额外的效率问题.为了解决以上问题,该文在CLIQUE算法的基础上提出了一种基于最优区间分割和数据集划分的聚类算法—OpCluster,并使用仿真数据对该算法加以验证,实验结果表明,OpCluster对大规模高维数据集具有很好的聚类效果.  相似文献   

11.
针对旅游业与新型城镇化互动发展路径,首先,选取安徽省1995~2016年的相关数据,构建OLS回归、向量自回归等模型,分析安徽省旅游业与城镇化之间的关系;其次,使用系统聚类的方法对安徽省16个地级市的发展现状进行聚类分析;最后根据聚类结果分别探讨不同城市旅游业与新型城镇化互动发展的路径研究.研究结果表明:旅游业的发展对安徽省城镇化进程具有非常显著的推动作用,安徽省16个地级市可以分为4类,不同城市应该根据自身条件探索出新型发展路径.  相似文献   

12.
传统的分类算法通常设置统一的最小置信度提取规则.如果训练数据集是不平衡的数据,统一置信度的分类算法在小类的准确率不高.本文提出了一种基于训练集类分布的多置信度不平衡数据分类算法CBMI.在CBMI算法中,根据训练数据中类的分布设置不同的最小置信度提取规则,小类置信度的临界值比大类置信度低.此外,算法CBMI综合三种度量选择“好”的属性值.实验结果表明,基于多置信度不平衡数据分类算法CB—MI提高了小类数据分类的正确率.  相似文献   

13.
【目的】针对目标检测算法在车辆检测领域中应用时存在模型复杂、检测精度较低的问题,基于改进YOLOv5s算法开展车辆检测研究。【方法】以Ghost模块来替换YOLOv5s中的主干网络,以达到模型剪枝的目的,改进后的网络模型复杂度有所降低,从而解决了网络模型较大的问题。同时,可引入挤压—激励注意力机制来提取更重要的特征信息,达到提高检测精度的目的。本研究所用到的数据集均为汽车图像,车辆检测数据集共有12 786张图片,将该数据集按照8∶1∶1的比例进行划分。其中,训练集为10 228张,测试集和验证集均为1 279张,采用对比试验法进行研究。【结果】试验结果表明,与原有的YOLOv5s相比,改进后的网络模型在车辆检测数据集上的平均准确率均值提升3%,查准率和召回率分别提升1.9%和3.2%,模型大小下降42%。【结论】改进后的网络模型有效降低了模型的复杂度,提高了检测精度,并节约成本。  相似文献   

14.
KNN算法通过近邻样本的个数分类,Entropy-KNN算法给出新的相似度定义,而且投票时综合待测样本与近邻样本的个数和各类近邻的平均距离,但两种算法均未考虑近邻样本间的相似.提出的基于层次聚类法的Entropy-KNN算法,首先对训练集按类别进行层次聚类,接着在与待测样本最相似的子类中选取近邻样本,使得近邻样本具有较高的相似度,最后结合Entropy-KNN算法进行分类.在蘑菇数据集上的实验结果表明,该算法的分类准确率高于Entropy-KNN算法.  相似文献   

15.
针对现有文本情感分析方法实时性不强、难以应用到大规模文本、不能同时提取文本上下文信息和局部语义特征等问题,提出一种融合双向长短期记忆(LSTM)和卷积神经网络(CNN)的混合情感分析模型通过使用双向LSTM和CNN模型对由word2vec编码得到的文本词向量进行训练,运用注意力机制将双向LSTM模型学习到的特征作用于CNN模型上,并进行特征加权,最后将双向LSTM模型和CNN模型得到的结果进行拼接,由分类器得到相应的情感分类结果在NLPCC SCDL数据集上进行实验,结果表明所提出的融合双向LSTM和CNN模型在精度、召回、f1值和准确度方面优于两个单独的模型  相似文献   

16.
为有效解决传统K-means聚类算法在处理大规模数据集时面临的扩展性问题,提出了一种Hadoop K-means聚类算法.该算法首先根据样本密度剔除数据集中孤立点或者噪声点的影响,再利用最大化最小距离思想选取K个初始中心,使初始聚簇中心点最优化,最后用Hadoop云计算平台的Map Reduce编程模型实现算法的并行化.实验结果表明,该算法不仅在聚类结果上具有较高的准确率和稳定性,而且能够很好地解决传统聚类算法在处理大规模数据时所面临的扩展性问题.  相似文献   

17.
针对如何精准识别僵尸企业的问题,借助湖南科创信息有限公司公开的企业信息数据集,提出了一种决策树-逻辑回归的僵尸企业识别方法.该方法用中位数填充缺失数和离群值,然后分析数据集并进行特征衍生,最后使用多元线性回归和卡方检验等方法完成特征筛选.为了验证所提出方法的有效性,分别在阿里云环境和本地环境下将该方法与过度借贷法、连续...  相似文献   

18.
文本分类是自然语言处理的重要内容,而有效提取文本全局语义是成功完成分类任务的关键.为了体现卷积神经网络提取特征的非局部重要性,在模型中引入Attention机制并建立了包含4个Attention CNN层的A-CNN文本分类模型.其中,Attention CNN层中普通卷积层用于提取局部特征,Attention机制用于生成非局部相关度特征.最后,使用A-CNN模型分别在情感分析、问题分类、问题答案选择等数据集上进行了实验和对比分析.结果表明:相比于其他对比模型,A-CNN模型完成上述3个文本分类任务时的最高精度分别提高了1.9%、4.3%、0.6%,可见A-CNN模型在文本分类任务中具有较高的精度和较强的通用性.  相似文献   

19.
当训练集中各个类别的样本分布不均匀且存在数据稀疏问题时,朴素贝叶斯算法分类不够准确。针对此问题,提出了一种基于数据平滑与加权补集的朴素贝叶斯文本分类算法,该算法引入数据平滑算法计算贝叶斯模型中缺失特征的补偿概率,克服数据稀疏问题;利用当前类别补集的特征来表示当前类别的特征,解决训练集中各个类别的样本分布不均匀时,分类器容易倾向于大类别而忽略小类别的问题。实验结果表明,在样本集分布不均衡时,该算法比传统的朴素贝叶斯分类算法分类效果更好。  相似文献   

20.
模糊k-最近邻(fuzzy k-nearest neighbor,FkNN)及其改进的分类方法忽略了样本存在分布不均匀以及噪声样本的情况,不能充分体现每个类样本特征的差异性,影响了分类的准确率.为此,提出了一种基于紧密度的模糊加权kNN数据分类方法.首先基于样本间紧密度计算样本的隶属度;然后根据特征的模糊熵值分别计算每个类样本特征的权重,并使用加权欧氏距离确定近邻训练样本;最后根据待分类样本所属的每个类别的隶属度确定其类别.对UCI多个数据集的实验结果表明该方法是有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号