首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
针对现有大多数多标签特征选择算法未能有效去除特征空间冗余特征,同时也忽略了标签差异性的现状,提出一种基于相关性分析的多标签特征选择方法,利用特征之间的相关度对特征进行分组,解决了特征之间的相关性问题.根据样本所对应的标签属性对样本做一个正负类的聚类,对于正样本和负样本所构成的正类簇和负类簇单独确定其聚类个数,并计算原特征到正负类簇中各个类中心的距离,如此便产生了标签特定特征空间;将标签共享的特征空间和标签特定特征空间融合,考虑到多个标签之间的个性和关联性,解决了标签的差异性问题.实验测试表明,相较于现有的多标签特征选择算法,提出的基于相关性分析的多标签特征选择方法在各个分类指标上均有较优的表现,充分证明了该方法的有效性.  相似文献   

2.
DPC算法是一种能够自动确定类簇数和类簇中心的新型密度聚类算法,但在样本分配策略上存在聚类质量不稳定的缺陷.其改进算法KNN-DPC虽然具有较好的聚类效果,但效率不高而影响实用.针对以上问题,文中提出了一种近邻密度分布优化的DPC算法.该算法在DPC算法搜索和发现样本的初始类簇中心的基础上,基于样本的密度分布采用两种样本类簇分配策略,依次将各样本分配到相应的类簇.理论分析和在经典人工数据集以及UCI真实数据集上的实验结果表明:文中提出的聚类算法能快速确定任意形状数据的类簇中心和有效地进行样本类簇分配;与DPC算法和KNN-DPC算法相比,文中算法在聚类效果与时间性能上有更好的平衡,聚类稳定性高,可适用于大规模数据集的自适应聚类分析.  相似文献   

3.
为解决聚类问题中簇的个数不易确定的难题,提出一种自动化的聚类方法.该方法针对不确定的簇个数,给出了一种新的粒子表示方法,并利用微粒群算法在完成一次聚类后,再利用kmeans算法重新分配数据对象并计算聚类中心.该方法利用结合凝聚度和分离度概念的轮廓系数来确定簇的个数,并用误差平方和来辅助验证.实验表明,该方法可以找到最佳的簇个数,并可以有效的对数据对象进行聚类.  相似文献   

4.
提出了多目标监督聚类GA算法,即:根据样本的类标签有监督地将样本聚类,在每个类中根据样本属性的相似性有监督地聚成类簇.如果分属不同类标签的类簇出现相交,则相交类簇再次聚类,直到所有类簇均不相交.适应度矢量函数由类簇数和类内距离2个目标确定,类簇数和类簇中心由目标函数自动确定,从而类簇数和中心就不受主观因素的影响,并且保证了这2个关键要素的优化性质.预测分类时,删去单点类簇,并根据类簇号和离某个类簇中心距离的最近邻法则以及该类簇的类标签进行分类.算法模型采用C#实现,采用3个UCI数据集进行实例分析,实验结果表明,本算法优于著名的Native Bayes、Boost C4.5和KNN算法.  相似文献   

5.
基于密度聚类的支持向量机分类算法   总被引:8,自引:0,他引:8  
为了解决支持向量机的分类仅应用于较小样本集的问题,提出了一种密度聚类与支持向量机相结合的分类算法.在密度聚类中,当一个样本点不存在拟密度可达的样本点,则其显著特征即表现为该簇的边缘点,将该点加入约简集合,直至选出样本集合中的所有边缘对象,然后再利用约简集合寻找支持向量.实验表明,采用该算法,分类的准确率可从基于无监督聚类的支持向量机算法的86.81%提升至95.43%,核函数计算量由原数量级109下降到106以下,采取限制密度聚类中的核心点ε-邻域内的反例百分比的方法,可以增加约简样本的个数,可将分类准确率提高5%~8%左右.  相似文献   

6.
现有的绝大多数过采样方法着重于寻找少数类样本的边界从而增强样本的可分性,忽略了样本的重叠分布与小析取问题,这导致在过采样阶段产生过多的噪声,最终无法实现对少数类样本的正确分类.针对这些问题,提出一种基于密度峰值聚类和局部稀疏度的过采样算法.首先利用改进的密度峰值聚类算法对全部样本自适应地划分出多个簇,根据簇内样本的不平衡比过滤掉不平衡比过高的簇,然后在筛选出的簇中根据少数类样本的分布情况对各簇的过采样个数进行分配,最后通过样本密度计算出各簇少数类样本的局部稀疏度,从中选择出稀疏度较高的少数类样本参与到最终的合成少数过采样.将提出的过采样算法与八种常用的过采样算法分别与三种基分类器相结合,在18个不平衡数据集上进行对比实验.实验结果表明,提出的算法总体上表现更优,能得到更好的分类性能.  相似文献   

7.
提出了一种基于簇特征的文本增量聚类算法:充分利用简单、有效的k-means算法来进行初始聚类,并保留聚类后每个簇的簇中心、均值、方差、文档数、3阶中心矩和4阶中心矩作为该簇的簇特征,当出现新增数据时,利用初始簇的簇特征对新增数据进行聚类.在20newsgroups数据集上的实验结果表明:相比于对整个数据集进行重新聚类,该算法具有一定的优势.  相似文献   

8.
针对基于关键词元的话题内事件检测算法运行效率不高、不适合进行大规模文本话题检测的问题,提出了一种高效的关键词元聚类算法.该算法在进行词元簇选择时,为簇间相似度分配权值,并借鉴正态分布函数评估词元簇的个数,提高词元簇的选择精度,从而减少所需的词元聚类次数.实验结果表明,将改进的方法应用到舆情监控的话题检测中,能在不影响检测精度的前提下有效地提高算法的运行效率.  相似文献   

9.
非平衡数据集是指数据集中的某类样本数量远大于其他样本的数量。对于此类数据,类分布的不平衡会直接导致很多分类算法的失效。文中基于K-means聚类,Silhouette指标和M-近邻下采样提出一种新的数据平衡方法(K-S-M)。该方法首先用K-means算法对多数类样本进行多次聚类并选取最优聚类个数,然后采用M-近邻下采样对聚类后的数据进行采样,将采样后的点最终构成平衡数据,并对得到的平衡数据进行癫痫性发作的自动检测。实验结果表明,文中所提方法可以很好地处理非平衡数据,减少数据信息损失,同时可以提高非平衡数据分类的有效性。  相似文献   

10.
攻击者为了逃避检测,常利用加壳技术对恶意软件进行加密或压缩,使得安全分析人员以及传统基于静态分析的恶意软件检测方法在恶意软件运行前难以利用反汇编等逆向工具对其进行静态分析。为检测加壳恶意软件,当前主要采用动态分析方法检测加壳恶意软件,然而受限于加壳工具种类和样本规模,以及恶意软件加壳行为带来的混淆噪声,导致传统基于机器学习检测方法存在准确率不足等问题。研究提取并分析加壳恶意软件运行时的系统调用行为特征,识别并筛选出敏感行为,旨在过滤脱壳行为噪声产生的影响;通过对系统调用行为特征加权降维,提升行为特征的有效性;通过对加权降维的行为特征进行聚类分析,最终实现加壳恶意软件未知变种检测和检测模型增量更新。实验结果表明,提出的基于动态行为特征加权聚类的加壳恶意软件未知变种检测方法检测误报率3.9%,相较几种典型机器学习检测方法呈显著降低。  相似文献   

11.
许多新型恶意代码往往是攻击者在已有的恶意代码基础上修改而来,因此对恶意代码的家族同源性分析有助于研究恶意代码的演化趋势和溯源.本文从恶意代码的API调用图入手,结合图卷积网络(GCN),设计了恶意代码的相似度计算和家族聚类模型.首先,利用反汇编工具提取了恶意代码的API调用,并对API函数进行属性标注.然后,根据API对恶意代码家族的贡献度,选取关键API函数并构建恶意代码API调用图.使用GCN和卷积神经网络(CNN)作为恶意代码的相似度计算模型,以API调用图作为模型输入计算恶意代码之间的相似度.最后,使用DBSCAN聚类算法对恶意代码进行家族聚类.实验结果表明,本文提出的方法可以达到87.3%的聚类准确率,能够有效地对恶意代码进行家族聚类.  相似文献   

12.
针对传统恶意代码标注分析方法中特征提取能力不足以及家族标注不统一、不规范、不精确且时效性差等问题,通过对大量恶意样本PE文件纹理构成和分布的研究,提出了基于内容纹理聚类的恶意代码深度标注方法。该方法对恶意代码的纹理指纹进行统计分析,从基准标注和深度标注这2个步骤对恶意代码家族进行归纳和分析,并结合VirusTotal分析方法、基于GLCM纹理特征空间构建方法和基于P-Stable LSH的近邻增量聚类算法,对恶意代码家族进行深度标注。实验结果表明,基于上述方法开发的原型系统具有家族标注准确率高、支持增量标注等优势,通过深度标注生成的基准标签实用性强,且对未知恶意代码检测具有积极意义。  相似文献   

13.
谱聚类是目前最有效的视频镜头聚类算法之一,但是如何自动选择最优化的分类个数仍是谱聚类算法中的难题。该文提出一种基于最优化分类的视频镜头谱聚类算法,对每个镜头采用分区域的Gauss混合模型(DGMM)进行特征建模,并提取模型参数特征作为镜头谱聚类的特征向量,通过构造DGMM和谱聚类的联合评价函数来自动选择最优化的分类个数和特征空间维数。实验结果表明,该文提出的算法比原有谱聚类算法分类结果更加准确和有效。  相似文献   

14.
We propose a new clustering algorithm that assists the researchers to quickly and accurately analyze data. We call this algorithm Combined Density-based and Constraint-based Algorithm (CDC). CDC consists of two phases. In the first phase, CDC employs the idea of density-based clustering algorithm to split the original data into a number of fragmented clusters. At the same time, CDC cuts off the noises and outliers. In the second phase, CDC employs the concept of K-means clustering algorithm to select a greater cluster to be the center. Then, the greater cluster merges some smaller clusters which satisfy some constraint rules.Due to the merged clusters around the center cluster, the clustering results show high accu racy. Moreover, CDC reduces the calculations and speeds up the clustering process. In this paper, the accuracy of CDC is evaluated and compared with those of K-means, hierarchical clustering, and the genetic clustering algorithm (GCA)proposed in 2004. Experimental results show that CDC has better performance.  相似文献   

15.
Smartphones and mobile tablets are rapidly becoming indispensable in daily life. Android has been the most popular mobile operating system since 2012. However, owing to the open nature of Android, countless malwares are hidden in a large number of benign apps in Android markets that seriously threaten Android security. Deep learning is a new area of machine learning research that has gained increasing attention in artificial intelligence. In this study, we propose to associate the features from the static analysis with features from dynamic analysis of Android apps and characterize malware using deep learning techniques. We implement an online deep-learning-based Android malware detection engine(Droid Detector) that can automatically detect whether an app is a malware or not. With thousands of Android apps, we thoroughly test Droid Detector and perform an indepth analysis on the features that deep learning essentially exploits to characterize malware. The results show that deep learning is suitable for characterizing Android malware and especially effective with the availability of more training data. Droid Detector can achieve 96.76% detection accuracy, which outperforms traditional machine learning techniques. An evaluation of ten popular anti-virus softwares demonstrates the urgency of advancing our capabilities in Android malware detection.  相似文献   

16.
K -均值聚类算法在当前提取数据挖掘的聚类分析方法中已经取得了一定的成就,为了进一步改进其在数据预处理及神经网络结构中的应用,文中对算法进行了缺陷研究,主要做了以下几个方面的工作:对K-means算法进行了思路及算法主要流程分析;得出K-均值聚类算法存在简单、迅速、结果簇密集、簇与簇之间区别较为明显等优点;分析得出算法存在与处理符号属性的数据不太适应、必须事先给出k值(想要生成的簇的个数)、对“噪声数据”以及孤立的点数据有较大影响、需要不断计算更新调整后的新聚类中心等缺点。在实验验证中结果得出:聚类结果可知,选取不同的值初始值对聚类结果的影响很小;如果聚类数据集迭代次数较多时,可以尝试着改变其数据的输入顺序;变动数据集的输入顺序,会直接影响聚类结果。实验结果对于K-均值算法的工作效率提高了具有明显的参考价值,这一研究对于数据挖掘技术的改进具有一定的意义。  相似文献   

17.
范志鹏  李军  刘宇强  钮焱 《科学技术与工程》2020,20(29):12014-12020
随着各种新技术的出现,传统的恶意代码的识别和分类技术存在着检测率瓶颈、实时监测效率不高的问题,为了提高准确率,提出了一种基于图像纹理指纹特征与深度学习神经网络结合的分类方法。该方法首先将数据集中恶意代码的二进制文件建模为灰度图,采用改进的灰度共生矩阵提取出恶意代码中的指纹特征图像,并选择不同步长扩展样本量,然后将该指纹特征图像作为输入数据集并采用卷积神经网络模型中进行分类训练。结果表明,该方法可以有效地分类恶意代码,准确率可达96.2%,并在泛化测试中取得了较好的效果。  相似文献   

18.
Focusing on the sensitive behaviors of malware, such as privacy stealing and money costing, this paper proposes a new method to monitor software behaviors and detect malicious applications on Android platform. According to the theory and implementation of Android Binder interprocess communication mechanism, a prototype system that integrates behavior monitoring and intercepting, malware detection, and identification is built in this work. There are 50 different kinds of samples used in the experiment of malware detection, including 40 normal samples and 10 malicious samples. The theoretical analysis and experimental result demonstrate that this system is effective in malware detection and interception, with a true positive rate equal to 100% and a false positive rate less than 3%.  相似文献   

19.
针对基于对象的图像检索问题,提出一种新的谱聚类多示例学习算法.该算法将图像当作包,将分割区域的视觉特征当作包中的示例,针对正包示例集合进行谱聚类,按聚类中心点数最大原则选择潜在正示例中心和潜在正示例代表,并采用径向基函数和金字塔核分别度量潜在正示例间和其它示例间的相似性,最后利用支持向量机和相关反馈实现图像检索.采用S...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号