排序方式: 共有112条查询结果,搜索用时 31 毫秒
91.
The k-means clustering algorithm is one of the most commonly used algorithms for clustering analysis. The traditional k-means algorithm is, however, inefficient while working on large numbers of data sets and improving the algorithm efficiency remains a problem. This paper focuses on the efficiency issues of cluster algorithms. A refined initial cluster centers method is designed to reduce the number of iterative procedures in the algorithm. A parallel k-means algorithm is also studied for the problem of the operation limitation of a single processor machine when given huge data sets. The analytical results demonstrate that these improvements can greatly enhance the efficiency of the k-means algorithm, i.e., allow the grouping of a large number of data sets more accurately and more quickly. The analysis has theoretical and practical importance for work on the improvement and parallelism of cluster algorithms. 相似文献
92.
经典的分布式k-means聚类算法随机选取初始聚类中心,进行多次的迭代,容易使得聚类效率低,网络通信量大,而且聚类结果不稳定。针对这些问题,提出一种改进的分布式k-means聚类算法。该算法通过划分数据集,计算属性最密集的k个数据块作为聚类中心,以确保聚类中心的代表性,进而减少算法的迭代计算次数,提高聚类效率。通过在Hadoop分布式平台上进行实验,结果表明改进算法能减少迭代次数和收敛时间。 相似文献
93.
针对k-means算法必须事先指定初始聚类数k,并且对初始聚类中心点比较敏感,聚类准则函数对求解的最优聚类数评价不理想,提出一种基于局部密度的启发式生成初始聚类中心方法,在此基础上设计一种准则函数自动生成聚类数目,改进了传统k-means算法.实验表明改进的算法比传统k-means算法提高了聚类效率. 相似文献
94.
本文提出了一种基于机器视觉的变电站指针式仪表检测算法。该算法基于YOLO v3神经网络,引入Res2Net残差模块以及采用特征层融合的方式,采用更少的模块和网络层数获取更高的特征提取效率,通过增加SPP(空间池化金字塔,Spatial Pyramid Pooling)模块融合多重感受野,使用GIoU(Generalized Intersection over Union)损失函数代替原有的损失函数。此外,针对数据集的不同,采取k-means++聚类算法重新选择锚点框的尺寸。实验结果证明,在保证精度的前提下,相对于Faster R-CNN和原始的YOLO v3网络,速度分别提升了73.7%和45.8%。 相似文献
95.
针对异常检测手段用来标定数据集中明显的不同于其他数据的对象,提出多阶段聚类旨在解决噪声数据的引入和缺失属性样本的处理,并改变传统的贝叶斯分类的被动学习为主动学习的方式来构造性能优越的分类器。在数据预处理阶段,利用密度聚类滤去噪声点,密度聚类的输出作为下一阶段的K-means聚类的输入,提高了K-means的分类准确率。K-means负责对缺失属性的样本进行处理。在分类阶段,利用adaboost学习算法优化朴素贝叶斯分类器,使其获得较好的分类效果。 相似文献
96.
为了客观、有效地评价城市有硬隔离非机动车道路的服务水平,本研究以桂林、柳州和南宁三个城市10条道路的实测数据为基础,将非机动车道路内的超车事件数和骑行者主观感受打分作为主要评价指标,运用K-means聚类方法构建混行非机动车道路服务水平评价体系。结果表明:超车事件数与单位小时流量、路段宽度呈线性回归关系;本文构建的混行非机动车道路服务水平评价体系可划分为五个等级。通过实测路段验证,评价结果与对应的非机动车道路交通运行状况一致。该研究成果可为混行非机动车道路运行状态判别以及规划与管理提供理论依据。 相似文献
97.
通过6个洪水指标因子融合了洪水具有时域性和动态性的特征,提出了洪水能级的概念,并建立了模拟退火算法的模糊K-means聚类模型,以它为确定洪水能级的背景模型来量化洪水能级,根据最优目标函数,确定最佳洪水能级的级别数。在此基础上,以北江流域为例,建立了径向辐合型洪水能级跃迁图,从全新的角度论述人类活动影响的利弊。研究结果表明:强干控支措施的实施及水利工程的建立,实现了各支流洪水能级输出的转变,改善了流域的防御性能,由"开放"型转变为防洪能力较强的"防御"型流域,大大降低了干流洪水能级径内跃迁的可能性。科学合理的人类活动有利于干支流洪水能级的削弱,缓解干支流的防洪压力。同时,本研究提出的洪水能级概念及其计算模型具有可拓性,为洪水的分类、频率的计算、洪灾的评估等工作提供了新的起点和思路。 相似文献
98.
基于k-means算法的DNS查询模式分析 总被引:1,自引:0,他引:1
为了研究互联网用户对网站的访问模式,借助中国互联网络信息中心负责管理的国家域名系统资源,选取了一整天CN域名权威服务器的日志。提出了域名规约的方法,将日志中的域名合并为二级域名或者CN下41个类别和行政区的三级域名。该方法不仅保留了用户对网站的访问信息,而且能够达到压缩数据的目的。采用k-means算法对所提取的IP和域名的时间行为特征矢量进行聚类。结果表明:根据时间行为模式的不同,IP地址有3个主要类别,即攻击者、主要ISP的递归服务器和非主流递归服务器;域名有4个主要类别,对其中大量访问的域名进一步分类,找到了真正体现绝大多数用户网络访问需求的域名集合。 相似文献
99.
通过对用户推荐项目模式进行建模, 预测新用户的推荐项目归属类别, 从而推测出目标用户对具体推荐项目的评分. 实验结果表明: 该方法可以提高推荐服务的效率, 实用性较高. 相似文献
100.
针对战训数据丰富, 数据背后空战决策知识贫乏的问题, 提出了一种空战决策知识构建方法。首先, 根据空战决策影响因素来分析决策知识的生成过程, 选择用产生式规则来表示空战决策知识。其次, 针对战训数据存在噪声数据干扰以及连续属性数据难以满足数据挖掘算法离散度量要求的问题, 应用了k-means聚类算法来检测离群点并使用最小描述长度准则算法将连续属性离散化。最后, 基于预处理后数据, 采用粗糙集提取空战最小决策规则知识, 通过构建模糊逻辑推理系统实现空战决策知识的推理与应用。仿真表明, 该方法能够有效地提取空战决策规则知识以及知识的推理与应用。 相似文献