首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 468 毫秒
1.
基于改进Single-Pass算法的BBS热点话题发现   总被引:1,自引:0,他引:1  
详细介绍了经典增量式聚类算法Single-Pass的特点,针对该算法中"聚类质心不唯一"的缺陷提出"设定唯一聚类质心"的改进方案,降低了算法的时间复杂度;针对"算法聚类中心随机性强"的不足提出了"不断优化聚类中心"的改进方案,使得聚类中心的代表性更强.最后,基于"中华网BBS"文本数据对改进后的算法进行验证、分析,并与经典Single-Pass算法的聚类结果进行对比,得到了更为理想的实验结果,表明算法可行有效.  相似文献   

2.
K-means算法是一种常用的聚类算法,但是聚类中心的初始化是其中的一个难点。笔者提出了一个基于层次思想的初始化方法。一般聚类问题均可看作加权聚类,通过层层抽样减少数据量,然后采用自顶向下的方式,从抽样结束层到原始数据层,每层都进行聚类,其中每层初始聚类中心均通过对上层聚类中心进行换算得到,重复该过程直到原始数据层,可得原始数据层的初始聚类中心。模拟数据和真实数据的实验结果均显示基于层次抽样初始化的K-means算法不仅收敛速度快、聚类质量高,而且对噪声不敏感,其性能明显优于现有的相关算法。  相似文献   

3.
将数字图像处理中模糊锐化算子与三支聚类进行结合,提出了一种基于图像处理的三支聚类算法。该算法通过逆多元二次核函数将数据集的密度量化为灰度值,对数据总体采用模糊与锐化操作,提取锐化后灰度值较高的数据区域,将低密度区域从原始数据中删除。对灰度值较高的数据采用传统的聚类算法得到不同的类簇,然后对每个类簇利用图像模糊算子得到类簇的核心域,锐化算子得到类簇数据边界域,从而获得每个类簇的三支表示。试验采用不同的UCI数据集,通过比较聚类指标Adjusted Rand Index(ARI),Normalized Mutual Information(NMI)和Adjusted Mutual Information(AMI),验证了该聚类算法的有效性。  相似文献   

4.
针对传统K均值聚类算法对初始聚类中心敏感,易陷入局部最优和对大数据集聚类速度慢的缺点,将ARIA与Kmeans算法相结合,提出了一种ARIA-Kmeans算法,即基于自适应半径免疫的K均值聚类算法。首先利用自适应半径免疫算法对数据进行预处理,产生能够代表原始数据分布以及密度信息的内部镜像数据;然后用K均值聚类算法对其进行多次聚类,获得最佳聚类中心,并将其作为初始聚类中心,推广到全部数据优化聚类效果;最后对其结果进行评价。实验结果表明,相对于传统Kmeans算法,新算法在保证聚类准确度的前提下,提高了算法运行的时间效率和稳定性。  相似文献   

5.
提出一个基于核聚类算法的高校定位模型.引入核函数,将原始数据由数据空间映射到特征空间中进行聚类.核聚类算法经过了核函数的非线性映射,使原始数据的特征更完整地显现出来,从而使聚类结果更客观、有效,可以解决传统方法主观性强、偏差大的缺陷.将核聚类算法应用于我国16所高校定位的研究,结果表明该方法可行且有效.通过聚类结果的分析,提出高校可分为教学科研生态位协调型、低教学生态位高科研生态位型、高教学生态位低科研生态位型3类,并对不同类型高校提出发展建议.  相似文献   

6.
FCM算法在基因表达数据分析中存在噪声点,影响聚类结果,为此提出了一种改进的模糊核聚类算法,通过使用Mercer核把原始数据映射到高雏特征空间,并为特征空间的每个向量分配一个动态权值,分析权值的大小来识别噪声点,得到一个较为理想的聚类结果:实验结果表明,该方法比FCM聚类算法具有更好的聚类效果.  相似文献   

7.
提出了一种新的谱聚类算法:基于K-Medoids的SSKM聚类,不仅利用距离指数变换函数及稀疏化算法构建了分块对角矩阵以重新解释样本之间的相似度,还结合PAM算法取代传统谱聚类中的k-means算法对特征向量聚类以提高算法的聚类稳定性.为了使SSKM算法能够有效地处理高维数据,引入了高相关系数过滤及主成分分析降维技术,提出了SSKM算法的新版本HSSKM,能够识别高维数据结构以减少原始数据的特征规模.模拟数据及高维基因表达数据结果表明新算法具有聚类稳定、聚类结果更精确等显著性能.  相似文献   

8.
待挖掘数据集规模的不断增长,以往的聚类算法由于需要多次扫描原始数据集而不再适用,现阶段,一遍扫描原始数据集即完成聚类的算法成为了首要的研究目标.但是,现有针对大规模数据集的算法容易受到初始化参数以及原始数据集分布的影响,聚类结果质量不高,并且也不稳定.对此,吸收半监督聚类的思想,提出了基于标记集的半监督一遍扫描K均值算法,该算法利用驻留主存的标记集指导聚类过程,使得聚类效率以及聚类结果的质量得到了进一步的提高.在人工生成数据集以及1998KDD数据集上验证了该算法的有效性.  相似文献   

9.
食品安全问题一直是国民热切关注的话题,关系到社会的多个领域。为及时知晓食品安全领域关注的热点问题,对比了食品安全热点话题与其他热点话题在检测方法上的异同,构建了食品安全监理话题检测模型,运用聚类算法对食品安全数据进行文本挖掘来实现话题检测,并对食品安全数据进行分析。通过实验说明,采用Single-Pass算法的评价优于K-Means算法的评价,能够有效地对食品安全话题进行检测。  相似文献   

10.
现有话题检测的主要方法是利用Single-Pass及其改进算法进行聚类分析,没有考虑文本的结构特点,相似度计算方法单一,从而影响准确度.针对此问题,改进了Single-Pass的相似度计算方法,综合考虑文本的标题、摘要、时间、地名以及来源等要素,采用层次分析法计算并赋以不同权重,提出一种多相似度计算组合策略.考虑到食品安全是一个广受关注的话题,实验通过网络爬虫抓取并筛选了最近3年食品安全方面的媒体信息,以此作为数据进行分析,结果表明,采用本文提出的改进Single-Pass聚类算法,话题检测准确度更高.  相似文献   

11.
针对相似话题难以区分的问题,提出了基于层叠模型的话题检测方法.该方法以Single-Pass聚类策略为基础,将新闻实体信息运用到话题检测中,改进时间相似度和地点相似度的计算方法,在底层利用文本内容相似度完成话题检测的任务,在高层结合时间相似度和地点相似度完成话题检测的任务.实验结果表明,该方法的性能优于传统的文本相似度算法.  相似文献   

12.
基于改进Single-Pass的农产品安全事件在线检测方法   总被引:1,自引:1,他引:0  
农产品安全事件在网络上快速传播,容易造成较大的社会影响或导致网络舆情事件,需要及时识别出农产品安全危机事件。提出了基于改进Single-Pass的农产品安全事件在线检测方法。通过将文本进行分块和动态更新特征词的文档频率,改进了特征词权重计算方法;通过引入时间距离,改进了Single-Pass算法聚类时的相似度度量方法。相对于改进前,系统的漏检率和误检率有明显降低;可有效进行农产品安全事件的在线检测,可用于网络上农产品安全危机事件的动态监测。  相似文献   

13.
结合神经网络方法,对入侵检测技术的聚类分析方法进行了研究和分析,探讨了在传统的对偶传播神经网络(Counter Propagation Networks,CPN)的基础上,引入基因表达式编程(Gene Expression Programming,GEP)对聚类进行优化,提出一种应用于入侵检测的CPN改进算法,该方法融...  相似文献   

14.
由于采用传统的分类器进行检测时,存在检测率低而误报率高的问题.提出了一种基于免疫聚类的自适应分类器方法,采用多信息粒度的思想有效地克服了聚类算法与分类算法间的不一致性.通过在真实网络数据集上对多种入侵行为的检测结果表明:该分类器的检测率高、漏报率和误报率低,较RBF分类器和BP分类器具有更好的分类性能和推广性能.  相似文献   

15.
学习者网络拓扑结构稀疏,且传统的社区检测算法无法为惰性/冷启动学习者检测其潜在的社区。针对该类问题,提出了一种基于高阶组织的学习者潜在重叠社区检测算法(POCDL)。POCDL算法是一种局部图聚类算法,首先利用社交化在线课程平台中的好友关系、同学关系和师生关系解决学习者网络数据稀疏问题;然后挖掘学习者网络中的高阶组织并重构学习者网络;最后,根据学习者的度中心性选取初始种子集,根据社区归属度和社区亲密度进行局部社区检测。在人工网络和学者网真实网络数据集上的实验结果表明:POCDL算法能够较好地为惰性/冷启动学习者检测社区;对其他类型的复杂网络也具有一定的普适性。  相似文献   

16.
针对数据集的聚类过程容易受到离群值的影响这一问题,提出了局部密度离群值检测k-means算法,即先对数据集使用局部密度离群值检测方法检测离群值,先把离群值去除,再进行k-means聚类,算法的有效性通过Davies-Bouldin指标(DB)、Dunn指标和Silhouette指标进行评价,在人工生成的数据集与UCI数据集上验证,去除离群值,再使用k-means算法得到的聚类结果相比原始数据集进行k-means算法聚类结果较好,并且用在疫情数据分析上,对安徽省、北京市、福建省、广东省等24个省、市、自治区2020年2月18日新型冠状病毒肺炎确诊人数进行聚类分析,得到的去除离群值在使用k-means算法相比原始数据集进行k-means算法聚类结果较好,该结果能帮助更好地在实际中怎么去做决策以及更好地降低经济损失。  相似文献   

17.
无人驾驶车辆在结构化道路中需要通过车道线判断自身位置,为提高其检测的实时性与准确性,本文提出一种利用改进SegNet网络算法与连通域约束相结合的方法实现车道线检测识别。将对称的SegNet网络算法改为非对称结构对车道线作逐像素提取:利用卷积与池化提取车道线特征,摒弃传统的车道线聚类过程,利用二值化图像结合连通域约束与关联对车道特征点进行分类,最后对相同类别的车道特征点进行车道线拟合。该算法在香港中文大学的 CULane 数据集和图森未来的TuSimple数据集上进行了训练与测试,该算法对车道分割准确、实时处理能力优秀,检测识别效果优于传统SegNet网络算法,其平均检测精度为 94.60%,每帧检测耗时提升53毫秒。  相似文献   

18.
基于免疫算法和免疫进化网络,提出了一种训练RBF网络的混合算法.该算法采用了一种可以实现数据聚类的免疫进化网络,根据输入数据集合自适应地确定RBF网络隐层中心的数量和初始位置;采用免疫算法训练RBF网络,使优化过程趋于全局最优.通过计算机仿真证明,将该方法应用于多用户检测中获得了比传统检测器和其他方法训练的RBF网络多用户检测器更好的误码率检测性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号