首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 286 毫秒
1.
针对KNN算法在处理推荐系统由稀疏性问题所造成的计算复杂度较大以及评分估计值有误差等问题,本文提出了K-Means聚类中心最近邻推荐算法,首先对初始数据集进行聚类运算,然后找出数据集的聚类中心;其次寻找每个用户所属的聚类中心,将聚类中心代替目标用户放入KNN算法中寻找用户的最近邻;最后做出评分预测.同时又考虑到目标用户与聚类中心对预测评分值的影响,在KMeans聚类中心最近邻推荐算法的基础上进行改进,提出了加权的思想.算法在Movielens数据集上进行实验,实验结果表明,推荐算法评分预测的精确度得到显著提高,而且加权之后的改进算法达到了更好的精确度.  相似文献   

2.
针对结构面产状常规分类方法存在的不足,提出一种新型的结构面分类算法.基于K-Means算法的结构面分类,将人工鱼群算法(artificial fish swarm algorithm,AFSA)与K-Means算法相结合,建立了AFSA-RSK结构面分类算法.利用鱼群算法强大的寻优能力,代替K-Means算法对结构面产状聚心集进行搜寻,并通过K-Means算法进行聚类.聚类完成后,选择相应参数指标对聚类效果进行评价.针对存在的问题,对鱼群算法的步长和视野进行修正,提高寻找聚心集的精度,动态地调整了聚类过程.将改进后的AFSA-RSK算法与其他算法进行比较,结果表明在迭代速度、聚类精度以及内存占比上,改进后的AFSA-RSK算法都要更优,更适合在结构面分组方面的应用.  相似文献   

3.
一种基于语义距离的高效文本聚类算法   总被引:6,自引:0,他引:6  
摘 要:提出了一种基于语义进行文本聚类的新方法。该方法从语义上具体分析文档,利用文档具体语义计算文档间的相似度,使得文档聚类结果更合理。文本聚类主要采用最近邻聚类算法,并提出第二次聚类算法改进最近邻算法对输入次序敏感的问题。类特征词的选择上根据相似度权重优胜略汰类特征词,使得最后类特征词越来越逼近类的主题。实验结果表明本文所提出的算法在聚类精度和召回率上均优于基于VSM的K-Means聚类算法。  相似文献   

4.
为了克服传统K-Means算法k值不能确定问题和不具备变量自动选择能力,将预测强度和变量自动加权K-Means算法相结合,提出基于预测强度的变量自动加权K-Means算法。预测强度表示聚类模型对未知数据的预测能力,预测能力越强,则聚类结果越佳,主要用于k值的确定;变量自动加权K-Means算法具有在聚类过程中自动调整变量权重的能力,对于噪声变量和冗余变量削弱其对距离的贡献,使聚类结果反映最真实的聚类结构。实验表明,算法具有较强的分类能力和预测能力。  相似文献   

5.
基于集群环境的K-Means聚类算法的并行化   总被引:1,自引:1,他引:0  
K-Means聚类算法在面对海量数据时,时间和空间的复杂性已成为K-Means聚类算法的瓶颈.在充分研究传统K-Means聚类算法的基础上,提出了基于集群环境的并行K-Means聚类算法的设计思想,给出了其加速比估算公式,并通过实验证明了该算法的正确性和有效性.  相似文献   

6.
针对市场上智能家居协议标准繁多,加大了流量识别与分类难度这一问题,提出了一种多协议下智能家居协议的分类方法.该方法利用数理统计计算出K-Means聚类算法的K值和聚类初始中心,基于向量空间模型(vec-tor space model,VSM)概念,使用数据对象间的相似度去代替K-Means聚类算法中数据对象间的距离,使用信息熵作为聚类好坏的评估.选用真实环境下捕获的实验数据进行测试验证.结果表明,该方法对多协议下智能家居协议的分类精度达到90%以上.  相似文献   

7.
一种新的最近邻聚类算法   总被引:1,自引:0,他引:1  
在分析现有最近邻聚类算法所存在问题的基础上,提出了一种先利用均值规格化的思想来确定算法的初始半径,然后根据启发式规则修改聚类半径的新的最近邻聚类算法.同时,给出了聚类有效性函数对得到的聚类结果进行合理性判断.  相似文献   

8.
现有的基于密度的数据流聚类算法难于发现密度不同的簇,难于区分由若干数据对象桥接的簇和离群点.本文提出了一种基于共享最近邻密度的演化数据流聚类算法.在此算法中,基于共享最近邻图定义了共享最近邻密度,结合数据对象被类似的最近邻对象包围的程度和被其周围对象需要的程度这两个环境因素,使聚类结果不受密度变化的影响.定义了数据对象的平均距离和簇密度,以识别离群点和簇间的桥接.设计了滑动窗口模型下数据流更新算法,维护共享最近邻图中簇的更新.理论分析和实验结果验证了算法的聚类效果和聚类质量.  相似文献   

9.
一种新的K-Means蚁群聚类算法   总被引:1,自引:0,他引:1  
针对蚁群聚类算法聚类质量不高的原因,使用K-Means算法改进蚁群聚类规则,提出一种新的K-Means蚁群聚类算法(KM-AntClust),并通过实验验证新算法的聚类效果.实验结果表明,新的算法可以明显提高聚类质量.  相似文献   

10.
针对传统K最近邻(KNN)分类法执行效率低的问题,提出一种改进的K最近邻分类法。先采用最短距离聚类法分别对训练样本和测试样本进行聚类,生成一些小簇和孤立点,再对小簇或孤立点使用改进的K最近邻方法进行分类。改进后的方法能极大地缩小分类样本的规模,降低计算成本,提高分类效率。  相似文献   

11.
为了弥补K-Means算法对孤立点数据敏感的缺陷,提高K-Means算法对包含孤立点数据集的聚类效果,在深入研究K-Means算法的基础上,提出了基于PAM和簇阈值的改进K-Means聚类算法。该算法首先对待聚类数据进行抽样,然后利用PAM算法获取样本数据的聚类中心,以样本数据的聚类中心作为KMeans算法的初始聚类中心。在聚类迭代过程中动态计算各簇阈值,利用簇阈值准确地过滤孤立点数据。实验结果表明,本文提出的算法不仅聚类时间短,而且具有较高的聚类准确率。  相似文献   

12.
11月7日,在巴黎联合国总部,以中国古琴艺术为代表的28个项目被联合国教科文组织宣布为第二批“人类口头和非物质遗产代表作”。有着三千年悠久历史的中国古琴艺术的突出价值再次得到世界公认。古琴,又称琴、七弦琴,文献记载其历史可以追溯到三千年前。作为历史渊源最久远的中国弹弦乐器演奏形式,其整体艺术可概括为琴制(形制与制作)、琴弦、琴谱、琴人、琴曲、琴史、琴歌、琴论、琴社、琴派等。古琴艺术是持续三千年不断的、以中国历史上特殊的文人群落为传承表现形式的、总括了中国文化历史创造精华的艺术遗产。琴、棋、书、画自古以来被视…  相似文献   

13.
随着网络技术和相关学科的发展,入侵检测技术日趋成熟.对SOM算法和K-Means算法进行了具体的分析,提出了一种基于SOM和K-Means的使两类算法优点相结合并克服各自不足的聚类算法,提高了聚类信息的精确度、对攻击的识别率和系统的整体性能.  相似文献   

14.
聚类已经被用来提高文本检索或文本分类效率和效果的一种手段,我们在本文中提出层次聚类算法是依据KL测度构造一组聚类,其实质是最小条件熵聚类,通过用结构α-熵代替香农熵推广最小条件熵准则,当α=2时,基于结构α-熵最小熵测度与最近邻方法的误差率相等.实验结果表明,HKLC算法比其它算法在文本聚类中具有良好性能.  相似文献   

15.
为解决传统K-Means算法以及它的变种会产生较大波动的聚类结果的问题,使用改进的模拟退火算法来优化初始中心,得到一种适合对文本数据聚类分析的算法.把改进的模拟退火算法和K-Means算法结合在一起,从而达到既能发挥模拟退火算法的全局寻优能力,又可以兼顾K-Means的局部寻优能力,较好地克服了K-Means对初始化敏感、容易陷入局部最优的缺点.实验证明,该算法可以生成质量较高而且聚类质量波动性较小的结果.  相似文献   

16.
针对K-Means算法对初值敏感和容易陷入局部最优的缺点,本文提出一种基于概率的随机扰动聚类中心优化算法。首先,每次迭代后重新计算聚类中心,以聚类中心为圆心向外搜索一定邻域内的点,将聚类中心以概率随机定位到邻域内的某个点上,称该点为物理中心点;之后,选定的物理中心点以一定速率向聚类中心方向移动一定距离,计算出的位置即为新的聚类中心;最后,根据欧氏距离重新划分数据集。该算法通过概率扰动方式使聚类中心不再固定为某一点,而将其中心扩大到一定区域,搜索该区域内的最优解,从而极大地避免了K-Means算法陷入局部最优的可能;并且,即使计算进程已经陷入局部最优,优化后的算法也可以通过最优区域搜索,以一定概率的机会跳出局部最优。  相似文献   

17.
针对网购用户所产生的购物行为进行分析,首先通过数据处理构建客户关系管理模型(RFM模型),在此模型的基础上采用特征分箱法和K-Means聚类两种方法对用户进行细分,并对2种模型结果进行比较分析,讨论二者的差异性和具体的应用范围和意义.其中,基于特征分箱法的RFM模型将变量转化到相似的尺度上并将变量离散化,使得用户分类标签更加清晰,也可依据各类标签分类出不同类型的用户.K-Means算法通过轮廓系数评估聚类算法质量以至于选取最优K值.本文实验分析结果可为运营商提供更加可靠直观的数据,使得运营商可以根据不同用户的不同行为进行市场细分,进而进行精准营销和服务设置.  相似文献   

18.
提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法,解决海量数据环境下并行执行K-Means算法时,时间开销较大的问题.该算法使用抽样方法,在保证数据分布不变的前提下,对数据集的规模进行约减,并在MapReduce框架下对聚类算法进行优化.实验结果表明,该算法在保持良好聚类效果的同时,能有效缩短聚类时间,对大规模数据集具有较高的执行效率和较好的可扩展性.  相似文献   

19.
针对基于属性的访问控制(ABAC)模型中属性量化、用户分类等尚未解的问题,引用层次分析法确定用户属性的权值,利用属性权值定义加权欧式距离,为用户分类提供依据.对K-Means聚类算法从三个方面进行优化改进,并把改进后的K-Means聚类算法引入ABAC模型的策略库中,使同一类中的用户具有相同的访问权限,不同类之间的用户自动化访问隔离.最后通过仿真实验分析,优化后的ABAC模型效率和准确率比传统ABAC模型具有明显优势.  相似文献   

20.
为了克服传统K-Means算法初始聚类中心选择的盲目性,提高聚类精度和聚类结果的稳定性,提出一种基于闻香识源的人工蜂群聚类算法,用于数据聚类.该算法首先利用样本数据稠密度反馈的信息(花香)来寻找初始聚类中心,接着交替进行K-Means聚类,人工蜂群在高密度数据区以贪婪原则搜索最佳聚类中心,往复多次以达到良好且稳定的聚类效果.实验表明该算法简单高效,聚类效果好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号