首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
在威胁情报包含的信息中,与网络攻击相关的战术、技术、程序(TTPs)是最能刻画组织行为的关键信息。但是,TTPs信息抽象层次高,并且通常存在于语法结构不规则的网络威胁情报文本中。这导致传统的人工分析方法以及基于特征工程的机器学习方法难以快速有效地从中分类出TTPs。使用单一的深度学习特征提取器则因无法提取文本语意中完整的邻域特征和序列特征,导致技战术分类精度低。 针对上述问题,本文提出一种基于注意力机制和特征融合的深度学习模型:ACRCNN,用于网络威胁情报中的战术与技术的分类。该模型通过卷积与循环神经网络同时提取网络威胁情报文本中的邻域与序列信息,再由卷积层与池化层进行深层次的特征抽取与降维,完成特征融合。然后,通过注意力层完成特征加权,最终经由全连接层完成战术与技术的分类。实验结果表明,ACRCNN在战术、技术分类任务中表现优异,在F1指标上达到了91.91%、83.86%,对比现有模型,分别提高了2.46%和4.94%。  相似文献   

2.
单实例多标签分类是指一个样本拥有多个标签的分类问题,对此提出了一种基于半模糊核聚类和模糊支持向量机的多标签分类算法.该算法采用一对一分解策略将多类多标签数据集分解为多个两类双标签数据子集,在每个子集上训练两类双标签模糊支持向量机.为提高分类器的性能引入了半模糊核聚类技术.实验结果表明,与现有的一些算法相比新算法具有其优...  相似文献   

3.
多标签文本分类是自然语言处理领域的重要任务之一.文本的标签语义信息与文本的文档内容有紧密的联系,而传统的多标签文本分类方法存在忽略标签的语义信息以及标签的语义信息不足等问题.针对以上问题,提出一种融合标签嵌入和知识感知的多标签文本分类方法 LEKA (Label Embedding and Knowledge-Aware).该方法依赖于文档文本以及相应的多个标签,通过标签嵌入来获取与标签相关的注意力.考虑标签的语义信息,建立标签与文档内容的联系,将标签应用到文本分类中.另外,为了增强标签的语义信息,通过知识图谱嵌入引入外部感知知识,对标签文本进行语义扩展.在AAPD和RCV1-V2公开数据集上与其他分类模型进行了对比,实验结果表明,与LCFA (Label Combination and Fusion of Attentions)模型相比,LEKA的F1分别提高了3.5%和2.1%.  相似文献   

4.
多标签文本分类任务存在难以从文本信息中提取标签关联的判别特征,建立标签相关性困难等问题。现有方法主要采用基于RNN的序列生成模型来建立标签高阶相关性,但缺乏对文本语义信息的充分利用。为此文章提出基于Transformer解码器的序列生成模型,使用标签嵌入作为查询,通过其多头自注意力机制建立标签之间的高阶相关性,并利用多头交叉注意力子层从文本信息中自适应地聚合标签相关的关键特征。文章的注意力权重可视化实验表明,序列生成Transformer在建立标签相关性的同时,能够更全面、更深层次地考虑文本和标签之间的语义相关性。与传统RNN类模型相比,序列生成Transformer在分类任务中兼具有效性和可解释性,并在AAPD和SLASHDOT两个数据集上取得了更优的结果。在AAPD数据集上分别取得了70.49%的Instance-F1值和52.04%的Label-F1值,比以往分类效果最好的set-RNN模型分别高1.44%和1.83%。  相似文献   

5.
针对面向实际应用场景中数据标签易残缺导致有监督多标签分类方法可用训练数据量减少,未能利用大量标签缺失数据中蕴含的样本特征空间关联知识以最大化判别间隔,限制多标签分类效果等问题,本文提出一种融合样本相似性的弱监督多标签分类方法.该方法利用标签相关性和样本相似性恢复标签以提高数据利用率,并将标签恢复嵌入到训练过程中以便挖掘标签相关性,通过近端加速梯度法进行参数优化,建立弱监督学习场景的多标签分类模型.在真实数据集上的实验结果表明,该方法能够利用样本相似性有效提升模型在标签残缺时的分类能力,实用价值大.   相似文献   

6.
近些年,基于深度学习的算法和模型在各种图像分析任务中都取得了显著的成功,与常见的自然图像相比,医学图像数据集依然面临高度不平衡的问题,不平衡数据会导致特征空间里的决策边缘倾向样本多的类别,导致分类效果的下降.为了解决该问题,提出一种基于卷积神经网络考虑特征类内紧凑性的不平衡医学图像分类方法(Z-Score Compactness-based Convolutional Neural Network,ZC3NC).首先,从一个卷积神经网络的最后一层卷积层提取训练集样本与测试集样本的特征图,随后引入一个新的Z分数来度量测试集数据的特征图相对训练集每个类在特征空间上的偏离度,偏离度的度量基于类内的紧凑度,其主要关注样本的分布特性,对各类样本数量的不平衡性不敏感.最终,根据计算的偏离度,对测试集的数据进行分类.在DermaMNIST数据集上的实验表明,在不对数据和神经网络模型做任何额外增强的情况下,该方法的平衡准确率比原卷积神经网络模型平均提高11.15%,最多提高14.08%,证明提出的分类方法能有效地提高多种卷积神经网络对不平衡医学图像数据的分类性能.此外,和最先进的不平衡分类方法 Und...  相似文献   

7.
多标签分类中如何有效处理具有许多实例和大量标签的大规模数据集、补偿训练集中缺失标签以及利用未标记实例改进预测性能等问题已成为重要研究方向。提出嵌入式多标签分类(EMC)算法,首先从伪实例参数化的高斯过程(GP)中提取两组随机变换来模拟特征向量、潜在空间表示向量和标签向量之间的非线性关系映射,其次引入一组辅助变量结合专家集成(EEOE)方法补偿缺失标签,最后利用未标记实例学习随机函数的平滑映射提高预测性能。仿真结果表明,与特征识别隐式标签空间编码的多标签分类(FaLE)算法和半监督低秩映射多标签分类(SLRM)算法相比,EMC算法优化了处理大规模数据集、补偿缺失标签及利用未标记数据的能力,从而提高了类标签的预测性能,且具有良好的可扩展性,训练时间短。  相似文献   

8.
为实现IFC构件精确、高效分类,提出一种改进的多视图卷积神经网络(Multi-view Convolutional Neural Network, MVCNN)模型,该模型引入了自注意力模块和长短期记忆(Long Short-term Memory,LSTM)网络,针对MVCNN模型特征融合的局限性,设计了LSTM_ATT模块;通过对各视图数据特征关系的自适应调整,并结合注意力权重对输入的各视图数据进行融合,得到一个更具辨识性的3D形状描述符,从而提高模型对各相似IFC构件的分类检测性能. 使用IFCNet数据集对建筑领域20个主要类别的IFC构件进行训练并在测试集上对改进MVCNN模型与MVCNN模型进行实验对比. 实验结果表明,改进模型的分类准确率和F1值分别达到了88.27%、86.72%,相比改进前准确率提高了9.46%,对相似构件之间的分类识别效果明显.  相似文献   

9.
随着数据挖掘技术在现实问题中的广泛应用,多标签学习现已成为数据挖掘技术中的一个研究热点.组合分类器链(ECC)算法是一种性能较好的多标签分类方法,其分类效果好、准确度高,但该算法的时空复杂度较高,不能适应大规模多标签数据分类任务.为此提出了一种基于Spark的组合分类器链多标签分类方法,将串行组合分类器链算法的各步骤进行了并行化实现.通过单机实验和集群并行化实验,证明该方法对大规模多标签数据集具有良好的适应能力和加速比,且分类效果不输于传统的串行多标签分类方法.  相似文献   

10.
利用关系分类模型,将标签之间的相关性以及特征对标签相关性的影响形式化为分数模型,通过要求模型能够区分真实数据和噪声数据的得分建立了基于张量网络的多标签分类模型.多个数据集上的实验表明,相较于传统多标签学习方法和已有考察标签相关性的多标签学习方法,本文方法在平均精确度和错误率等多标签评价指标上提升近一倍,且拥有更低的计算成本.  相似文献   

11.
作为一类网络安全的基础研究,网络异常检测技术目前还存在检测准确率低、误报率高以及缺乏标签数据等问题。为此提出一种融合联邦学习和卷积神经网络的网络入侵检测分类模型(CNN-FL),可有效解决多个参与者在不共享隐私数据的情况下进行一个全局模型的协作训练时所带来的问题。该模型无需汇集模型训练所需要的数据进行集中计算,只是传递加密的梯度相关数据,即可利用多源数据协同训练同一模型,并解决缺乏标签数据的问题。随后将该模型应用于二分类和多分类方法中,并在同一基准数据集NSL-KDD上进行了实验比较与分析,实验结果表明,与其他研究方法相比,所提CNN-FL分类模型在二分类以及多分类中具有较高的识别性能和分类精度。  相似文献   

12.
针对基于词语统计的特征化表示无法有效提取文本的词义特征的问题,提出一种基于上下文关系的文本特征化表示方法。该方法利用Word2vector提取词义特征,获得词向量;再对词向量进行“最优适应度划分”的聚类,并根据聚类结果将词语替代表示为聚类质心;根据质心及其所代表的词语的词频,构成词向量聚类质心频率模型(semantic frequency-inverse document frequency,SF-IDF),用于特征化表示文本。在不依赖语义规则的情况下,分别以路透社文本集Reuter-21578、维基百科(extensible markup language,XML)数据为文本数据集,采用神经网络语言模型(neural network language model,NNLM)算法进行文本分类实验,并采用F1-measure标准进行样本分类的效果评估,词向量聚类质心频率模型SF-IDF(semantic frequency-inverse document frequency,SF-IDF)向量与现有技术中词频-逆向文件频率(term frequency-inverse document frequency,TF-IDF)向量的分类效果对比,与TF IDF模型进行对比实验;在Reuter 21578数据集上平均准确率由原有的57.1%提高到63.3%,在Wikipedia XML数据集上平均准确率由原有的48.7%提高到59.2%。SF-IDF模型可适用于现行的基于特征向量的信息检索算法,且较TF-IDF模型有更高的文本相似性分析效率,可提升文本分类准确率。  相似文献   

13.
文中提出了在短文本建模过程中引入词项与词项之间、词项与文档之间的全局结构关系来增强短文本的表示。由于有标签训练数据的缺乏,使得现有的全局结构关系建模方法,如TextGCN,无法学习到高质量的词项和文档全局结构表示,因此,文中进一步提出采用半监督学习思想来解决有标签训练数据不足的问题。实验结果表明,在基准数据集MEDUI上,与现有相关模型进行对比,文中提出的方法比最好的基准模型在F_1指标上提高了1.91%。  相似文献   

14.
专家可为社区问答提供权威的答复,高效精准的专家发现有助于提升问答社区的服务质量.现有社区用户数据中存在噪声标签数据,且由于专家数量较少造成分类数据不平衡,从而降低了监督学习模型的专家发现精度.针对上述问题,本文提出一种基于特征扰动的半监督专家发现方法.该方法构建了一种无标签数据特征扰动策略,利用Sharpening算法实现无标签数据的伪标签化;基于ADASYN算法,通过构建专家用户邻近样本的方式扩充专家样本数据量,缓解分类数据的不平衡;构建联合损失函数,利用有标签和伪标签数据共同训练分类器,增强模型的泛化性能.实验结果表明,该方法在多个评价指标上优于已有模型和方法.  相似文献   

15.
为了避免复杂背景对精细目标分类的影响,充分利用卷积神经网络提取的目标全局和局部信息进行细粒度任务的研究,提出了一种多尺度区域特征的细粒度目标检测与分类算法.该方法先使用FASTER-RCNN框架训练3个尺度区域的卷积模型进行多尺度目标区域定位,对定位的结果进行包围盒约束和海伦约束以优化提高定位的精确度,然后将提取多个尺度区域的特征进行组合,并用支持向量机训练细粒度分类器.在Caltech-UCSD鸟类数据集和Comp Cars车型数据集上进行实验测试.实验结果表明该算法在Caltech-UCSD鸟类数据集的分类正确率达到82. 8%,比没有使用多尺度区域特征的分类算法提高了7. 5%,比基于部件的分类方法提高了8. 9%;在Comp Cars车型数据集的分类正确率达到93. 5%,比没有使用多尺度区域特征的分类算法提高了8. 3%,比最优的Google Net精细目标分类算法提高了2. 3%,验证了该算法的有效性.  相似文献   

16.
基于真实世界中医医疗数据集,提出了针对性的中医非结构化转结构化的数据预处理方法,并在监督分类模型和半监督分类模型上对得到的症状特征进行了实验验证.在真实医疗数据集上进行实验,发现无论是监督分类算法还是半监督分类算法在所提出的数据预处理模型上都得到了较优的分类效果,并且发现标签传播算法不仅在分类器稳定性上取得了较大的优势,在带标注数据较少时,仍能取得较好的实验结果.  相似文献   

17.
针对非平衡数据的半监督分类问题,提出了一种基于Biased-SVM的非平衡半监督分类算法.该方法首先利用初始的标记样本集训练处理不平衡数据的Biased-SVM模型,然后用训练好的Biased-SVM模型为未标记样本加上标签,再把新标记样本加入到初始标记样本集中,重新训练Biased-SVM模型,最后在测试集上进行测试.选取公共数据库里的一些数据集进行实验,首先在两类不平衡数据集上实验的结果表明,在标记样本所占比例为20%~80%时,所提方法能够在不降低数据集整体G-mean值的基础上,提高小类的F-value值并具有较高的稳定性;然后在多类不平衡数据集上实验的结果表明,在标记样本所占比例为20%~80%时,所提方法能够在不降低数据集整体的EG-mean值的基础上,提高小类识别率并具有较高的稳定性.  相似文献   

18.
分类器链是利用标签间相关性实现挖掘特定对象多维标记信息的重要多标签分类方法.面向现有分类器链算法,针对各标签的基学习器均在完整特征空间中训练导致学习特征冗余,以及因标签学习顺序随机且分类器链训练过程单向无反馈导致的标签间相关信息利用不充分等问题,本文提出一种结合类属特征及因果发现的序列优化分类器链.该方法采用类内仿射传播聚类为每个基学习器构建高级结构化特征,减少冗余信息;利用条件熵准则挖掘标签间因果关系,优化学习序列提高对标签间相关信息的利用程度.在多个公开数据集的实验结果表明,序列优化分类器链有效增强了单节点学习效果以及对多标签间关联信息的利用,有效提升了多标签分类效果,实用价值高.   相似文献   

19.
基于主题情感混合模型的无监督文本情感分析   总被引:4,自引:0,他引:4  
针对有监督、半监督的文本情感分析存在标注样本不容易获取的问题, 通过在LDA模型中融入情感模型, 提出一种无监督的主题情感混合模型(UTSU模型)。UTSU模型对每个句子采样情感标签, 对每个词采样主题标签, 无须对样本进行标注, 就可以得到各个主题的主题情感词, 从而对文档集进行情感分类。情感分类实验对比表明, UTSU模型的分类性能比有监督情感分类方法稍差, 但在无监督的情感分类方法中效果最好, 情感分类综合指标比ASUM模型提高了约2%, 比JST模型提高了约16%。  相似文献   

20.
真实数据集中存在的对抗样本一方面易导致分类器取得较差分类结果,另一方面如果能够被合理利用,分类器的泛化能力将得到显著提高。针对现有大部分分类算法并没有利用对抗样本训练分类模型,提出一种攻击标签信息的对抗分类算法(ACA)。该方法从给定数据集中选取一定比例样本并攻击所选取的样本标签使之成为对抗样本,即将样本标签替换成其他不同类型的标签。利用支持向量机(support vector machine,SVM)训练包含对抗样本的数据集,计算生成的SVM输出误差对于输入样本的一阶梯度信息并嵌入到输入样本特征中以更新输入样本。再次利用SVM训练更新后的样本以生成对抗的SVM(A-SVM)。原理分析与实验结果表明,一阶梯度信息不仅提供了一种分类器输出与输入之间的正相关关系,而且可提高A-SVM的实际分类性能  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号