期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李小展《东莞理工学院学报》2011,18(1):29-32

针对原始K-means算法的一系列问题,提出一种基于半监督的K-means聚类改进算法,能够自动进行聚类,找出最优K值,并且最大限度地找出孤立点.首先根据样本集自身的特点,按照"类内尽可能相似"原则一步一步形成数据集,然后对数据集进行"去噪"与合并相似簇,最后,利用少量的标记信息指导和修正聚类结果.在UCI的多个数据集... 相似文献

2.

一种基于半监督的大规模数据集聚类算法

申彦宋顺林朱玉全《南京大学学报(自然科学版)》2011,(4)

待挖掘数据集规模的不断增长,以往的聚类算法由于需要多次扫描原始数据集而不再适用,现阶段,一遍扫描原始数据集即完成聚类的算法成为了首要的研究目标.但是,现有针对大规模数据集的算法容易受到初始化参数以及原始数据集分布的影响,聚类结果质量不高,并且也不稳定.对此,吸收半监督聚类的思想,提出了基于标记集的半监督一遍扫描K均值算法,该算法利用驻留主存的标记集指导聚类过程,使得聚类效率以及聚类结果的质量得到了进一步的提高.在人工生成数据集以及1998KDD数据集上验证了该算法的有效性. 相似文献

3.

一种基于Seeds集和成对约束的主动半监督聚类算法

陈志雨王慧君胡明刘钢《吉林大学学报(理学版)》2017,55(3):664-672

针对半监督聚类算法中监督信息使用不充分,监督信息中信息含有量低的问题,提出一种结合主动学习的半监督聚类算法.首先结合使用数据的类别标记和成对约束信息,指导Kmeans聚类过程,设计出一种基于Seeds集和成对约束的半监督聚类算法SC-Kmeans;其次将主动学习算法引入到SC-Kmeans中,以尽量小的代价选取信息含有量更高的监督信息,提高SC-Kmeans算法的聚类精度;最后在UCI标准数据集上进行仿真实验.实验结果表明,该算法取得了较好的聚类效果,有效提高了聚类准确率. 相似文献

4.

ID-DC:基于分布式聚类的入侵检测方法

郑苗苗吉根林《江南大学学报(自然科学版)》2007,6(6):733-738

提出了基于分布式聚类的异常入侵检测方法ID-DC,通过对训练集进行分布式聚类产生聚簇模型,采用基于双参考点的标识算法Double-Reference标记异常簇,不需要具有类别标签的训练集且可自动确定聚簇模型的个数.实验中采用了网络入侵检测数据集KDD-CUP-99来训练模型.实验结果表明:通过采用分布式聚类算法建立的分布式入侵检测模型可有效地检测攻击,检测率高,误警率低. 相似文献

5.

基于菌群优化的K均值聚类算法研究

郭婧耿海军吴勇《南京理工大学学报(自然科学版)》2021,45(3):314-319

为了提高数据挖掘的聚类准确度,提出了一种基于菌群优化的K均值(K-means)聚类算法.采用K均值算法建立数据聚类模型.根据聚类类别数设定多个聚类中心坐标.设定所属类别距离阈值,然后计算待聚类点和所有中心点距离来划分该聚类点的类别.根据参与聚类各节点和各自中心点的距离值建立适应度函数.引入菌群优化算法对K均值聚类过程进... 相似文献

6.

一种确定最佳聚类数的新算法 总被引：1，自引：0，他引：1

谢娟英马箐谢维信《陕西师范大学学报(自然科学版)》2012,(1):13-18

针对K-均值聚类算法需要事先确定聚类数K的问题,将粒度计算引入样本相似度函数,定义了新的样本相似度,用模糊等价聚类确定数据集可能的最大类簇数Kmax.以Kmax为搜索上界,利用改进全局K-均值聚类算法,以BWP(Between-Within Proportion)为聚类有效性度量指标,提出确定最佳聚类数的一种新方法.通过UCI机器学习数据库数据集以及随机生成的人工模拟数据集实验测试,证明该算法不仅能有效确定数据集的最佳聚类数,而且适用于大规模数据集,但是会受到噪音点影响. 相似文献

7.

基于半监督学习的k平均聚类框架

陈新泉苏锦钿《广西大学学报(自然科学版)》2014,(5)

为克服k-means算法难以探测出一些局部分布稀疏不均、聚类区域的形状与大小不规整数据点集的聚类分布结构这个缺点,在半监督学习思想的指导下,针对混合属性空间区域中具有同一分布性质的带有类别标记的小样本数据集和无类别标记的大样本数据集,提出了一种基于半监督学习的k平均聚类框架。仿真实验表明：该框架经常能取得比k-means更好的聚类精度,从而说明这个半监督学习框架具有一定的有效性。相似文献

8.

一种改进的全局K-均值聚类算法 总被引：3，自引：0，他引：3

谢娟英蒋帅王春霞张琰谢维信《陕西师范大学学报(自然科学版)》2010,(2)

将快速K中心点聚类算法确定初始中心点的思想应用于全局K-均值聚类算法,对其选取下一个簇的最佳初始中心的方法进行改进,提出选取下一个簇的最佳初始中心的一种新方法.该新方法选择一个周围样本分布相对密集,且距离现有簇的中心比较远的样本为下一个簇的最佳初始中心,得到一种改进的全局K-均值聚类算法.改进后的算法不仅可以避免将噪音点作为下一个簇的最佳初始中心点,而且在不影响聚类效果的基础上缩短了聚类时间.通过UCI机器学习数据库数据以及随机生成的人工模拟数据实验测试,证明改进的全局K-均值聚类算法与全局K-均值聚类算法及快速全局K-均值聚类算法相比在聚类时间上更优越. 相似文献

9.

基尼指数结合K均值聚类的协同训练算法

徐善亮吕佳《重庆师范大学学报(自然科学版)》2022,(4):134

【目的】针对在标准协同训练中不具有充分冗余的视图分割，致使分类器错误累计过多，以及一对基分类器标记样本类别不一致的问题，提出了基尼指数结合K均值聚类的协同训练算法。【方法】该算法首先计算已标记样本中各特征的基尼指数，将该指数升序排列后均等划分到两个视图，然后在基分类器所标记的样本中，运用K均值聚类确定标记不一致样本的类别后加入标记样本。【结果】通过9个UCI数据集在3组实验上的结果表明，所提算法相较于对比算法提升了分类效果。【结论】运用基尼指数均等划分关键特征于两个视图，有利于改善视图分割不充分冗余的缺陷；K均值聚类法对分类不一致样本进行重新标记，降低了协同训练算法中的误标记率。相似文献

10.

数据挖掘中K-均值聚类算法的缺陷及工作效率改进的实验研究

陈晓勇顾晖彭志娟《科学技术与工程》2013,13(34)

K -均值聚类算法在当前提取数据挖掘的聚类分析方法中已经取得了一定的成就,为了进一步改进其在数据预处理及神经网络结构中的应用,文中对算法进行了缺陷研究,主要做了以下几个方面的工作：对K-means算法进行了思路及算法主要流程分析;得出K-均值聚类算法存在简单、迅速、结果簇密集、簇与簇之间区别较为明显等优点;分析得出算法存在与处理符号属性的数据不太适应、必须事先给出k值(想要生成的簇的个数)、对“噪声数据”以及孤立的点数据有较大影响、需要不断计算更新调整后的新聚类中心等缺点。在实验验证中结果得出：聚类结果可知,选取不同的值初始值对聚类结果的影响很小;如果聚类数据集迭代次数较多时,可以尝试着改变其数据的输入顺序;变动数据集的输入顺序,会直接影响聚类结果。实验结果对于K-均值算法的工作效率提高了具有明显的参考价值,这一研究对于数据挖掘技术的改进具有一定的意义。相似文献

11.

任务类型感知的无线传感器网络数据融合调度算法

邹洪森李良奥琛张普宁王峥李宁《科学技术与工程》2019,19(30):247-257

针对数据融合调度能量与时延优化问题,提出一种任务类型感知的无线传感网数据融合调度算法。通过传感器节点多功率、多信道的方式,利用最大独立集思想,构建基于数据融合主干树的网络拓扑结构,从而根据调度优先级,通过近似贪婪算法实现簇内数据融合调度,同时结合稀疏系数感知任务类型,减少传输数据量,进而利用簇头节点在网络中的等级,实现簇间数据融合调度。结果表明,所提算法在减少簇头节点数据传输量,降低节点能耗的同时,缩短了数据融合时延,提高了网络寿命。相似文献

12.

基于改进YOLOv3的合成孔径雷达影像舰船目标检测

黄勃学韩玲王昆杨朝辉黄五超《科学技术与工程》2021,21(4):1435-1441

为了提高合成孔径雷达(synthetic aperture radar,SAR)影像舰船目标的召回率和准确率,降低漏检率,通过以YOLOv3(you olny look once)为检测框架,对锚点框(anchor boxes)生成机制进行改进,提出了利用K-median++生成anchors的聚类算法.结果表明不当的初始聚类中心会降低anchor boxes的平均交并比(mean intersection over union,meanIOU);同时由于SAR舰船数据集存在少量大尺寸box(离群数据点),因此在实验中使用中位数代替平均值,对簇群计算聚类中心,聚类后anchor boxes的meanIOU高达77.10％,在均值聚类算法(K-means clustering algorithm)基础上提高了3.7个百分点,并且减少了迭代次数,计算量得到大幅度降低.可见相比传统基于K-means的YOLOv3,检测效果有了明显提升,召回率达到92.21％,均值平均精度(mean average precision,mAP)达到93.56％,分别提高了2.55、3.82个百分点. 相似文献

13.

一种新的密度加权粗糙K-均值聚类算法 总被引：1，自引：0，他引：1

谢娟英张琰谢维信高新波《山东大学学报(理学版)》2010,45(7):1-6

为了克服粗糙K-均值聚类算法初始聚类中心点随机选取,以及样本密度函数定义所存在的缺陷,基于数据对象所在区域的样本点密集程度,定义了新的样本密度函数,选择相互距离最远的K个高密度样本点作为初始聚类中心,克服了现有粗糙K-均值聚类算法的初始中心随机选取的缺点,从而使得聚类结果更接近于全局最优解。同时在类均值计算中,对每个样本根据定义的密度赋以不同的权重,得到不受噪音点影响的更合理的质心。利用UCI机器学习数据库的6组数据集,以及随机生成的带有噪音点的人工模拟数据集进行测试,证明本文算法具有更好的聚类效果,而且对噪音数据有很强的抗干扰性能。相似文献

14.

基于CDbw和人工蜂群优化的密度峰值聚类算法

姜建华吴迪郝德浩王丽敏张永刚李克勤《吉林大学学报(理学版)》2018,56(6):1469-1475

针对密度峰值聚类(DPC)算法存在的d_c值难选择及近邻原则聚合操作在低密度区效果不佳的问题, 提出一种基于人工蜂群与CDbw聚类指标优化的密度峰值聚类（BeeDPC）算法, 以实现类簇间数据点的自动识别和合理聚类, 并解决DPC对类簇间数据点类别识别上存在的缺陷. 实验结果表明, BeeDPC算法具有自动识别并合理聚类类簇间数据点、自动识别类簇中心点和类簇数量及自动处理任意分布数据集的优势. 相似文献

15.

Application of Algorithm CARDBK in Document Clustering

Yehang Zhu Mingjie Zhang Feng Shi 《武汉大学学报:自然科学英文版》2018,23(6):514-524

In the K-means clustering algorithm, each data point is uniquely placed into one category. The clustering quality is heavily dependent on the initial cluster centroid. Different initializations can yield varied results; local adjustment cannot save the clustering result from poor local optima. If there is an anomaly in a cluster, it will seriously affect the cluster mean value. The K-means clustering algorithm is only suitable for clusters with convex shapes. We therefore propose a novel clustering algorithm CARDBK—"centroid all rank distance(CARD)" which means that all centroids are sorted by distance value from one point and "BK" are the initials of "batch K-means"—in which one point not only modifies a cluster centroid nearest to this point but also modifies multiple clusters centroids adjacent to this point, and the degree of influence of a point on a cluster centroid depends on the distance value between this point and the other nearer cluster centroids. Experimental results showed that our CARDBK algorithm outperformed other algorithms when tested on a number of different data sets based on the following performance indexes: entropy, purity, F1 value, Rand index and normalized mutual information(NMI). Our algorithm manifested to be more stable, linearly scalable and faster. 相似文献

16.

基于密度信息熵的K-means算法在客户细分中的应用

蒲晓川黄俊丽祁宁宋长松《吉林大学学报(理学版)》2021,59(5):1245-1251

为解决企业客户价值体现问题, 提出一种TFA客户细分改进模型, 以客户发展空间T、购买频次F和平均购买额A为指标, 充分体现客户的价值和发展空间. 首先, 引入局部密度值ρ和信息熵H, 改进K-means聚类算法, 以优化传统K-means聚类方法初始聚类中心的选取问题；其次, 通过搭建机器学习框架, 对选取人工数据集及真实数据集进行聚类实验, 验证模型的有效性. 实验结果表明, 该模型能有效分类客户, 充分反映客户价值及其发展空间, 并通过改进聚类算法提升了算法效率. 相似文献

17.

Research and implementation of unsupervised clustering-based intrusion detection 总被引：2，自引：0，他引：2

Luo Min Zhang Huan |guo Wang Li |na School of Computer Wuhan University Wuhan Hubei China 《武汉大学学报:自然科学英文版》2003,8(3):803-807

0　IntroductionWiththedevelopmentofthenetworktechnologyandnet workscale ,thenetworksecurityhasalreadybecomeaglobalimportantproblem .Howtofindvariousupdatedintrusionsrapidlyandeffectivelyiscriticalforguaranteeingthesecurityofthesystemandnetworkresources.Commonly ,therearetwocategoriesofintrusiondetectiontechniques,namely ,anomalydetectionandmisusedetection .Inanomalydetection ,normaluserbehaviorandsystemactivitiesarefirstsummarizedintonormalprofiles.Run timeactivitiesresultinginsignificantdevi… 相似文献

18.

基于主成份分析的河南省城市竞争力评价研究 总被引：2，自引：0，他引：2

沈璐璐张争胜罗丰王晓亚谢丽娟《河南科学》2011,29(4):489-494

根据城市竞争力的涵义,选取河南省18个城市的17项指标构建城市竞争力评价体系,利用SPSS15.0进行主成份分析和聚类分析,得到河南省各城市的竞争力得分及分类.研究结果表明,河南省各城市之间的竞争力差异较大,中原城市群和豫北地区发展水平较高,豫西南和黄淮地区较为落后.并针对各类城市所处的发展阶段与特点,提出了全面提高竞... 相似文献

19.

噪声环境下复杂流形数据的势能层次聚类算法

于晓飞葛洪伟《重庆邮电大学学报(自然科学版)》2018,30(6):848-854

基于势能的快速凝聚层次聚类算法使用一种全新的相似性度量准则,可以更高效地得到聚类结果。针对该算法无法有效处理含噪声的复杂流形数据的缺陷,提出噪声环境下复杂流形数据的势能层次聚类算法。通过势能递增曲线识别噪声点,在新定义的势能最大、最小2层数据上进行自动聚类,以确定类簇的大体框架,并在此基础上对整个数据集进行层次聚类。人工数据集上的实验表明,新算法可以有效处理噪声环境下复杂流形数据;真实数据集上的实验表明,新算法具有更优的聚类效果。相似文献

20.

基于离群点检测的K-means算法

冷泳林张清辰赵亮鲁富宇《锦州师范学院学报(自然科学版)》2014,(1):34-38,48

K-means算法以其简单、快速的特点在现实生活中得到广泛应用。然而传统K-means算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高。针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子。然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中。算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率。实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性。相似文献