首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
针对电子病历中疾病诊断文本同义词识别和命名标准化问题,提出了一种自适应的文本聚类方法.首先提出了一种新的基于集合的文本相似性度量算法;然后采用基于相似度分布的文本聚类算法实现同义文本识别,该算法能够自动确定类簇个数;最后采用基于序列模式的中心概念提取算法实现了疾病命名的标准化,同时对聚类簇进行合并和优化,进一步提升了聚类的准确性.测试结果表明,所述方法具有较高的准确率和聚类效率,在病历文本的预处理、分类和分析中具有广泛意义.  相似文献   

2.
一种确定最佳聚类数的新算法   总被引:1,自引:0,他引:1  
针对K-均值聚类算法需要事先确定聚类数K的问题,将粒度计算引入样本相似度函数,定义了新的样本相似度,用模糊等价聚类确定数据集可能的最大类簇数Kmax.以Kmax为搜索上界,利用改进全局K-均值聚类算法,以BWP(Between-Within Proportion)为聚类有效性度量指标,提出确定最佳聚类数的一种新方法.通过UCI机器学习数据库数据集以及随机生成的人工模拟数据集实验测试,证明该算法不仅能有效确定数据集的最佳聚类数,而且适用于大规模数据集,但是会受到噪音点影响.  相似文献   

3.
给出一种将网格技术、密度技术与分形理论的自相似性结合起来的一种有效聚类算法,利用分形维度变化最小同时是相似程度最大的特点来划分数据集从而得出聚类结果.实验表明该算法可以快速有效的处理多维大型数据集,识别出任意形状簇的个数,而且可以从数据集中挖掘出一些有用的分布信息.  相似文献   

4.
为快速有效地确定聚类中心,提出一种基于距离阈值的自适应K-均值聚类算法.首先确定合理的距离阈值,其次根据距离阈值确定初始聚类中心位置及个数,最后对位置相近的聚类中心簇进行合并,获得新的聚类中心位置及个数.结果表明,该方法可以自动确定k值及中心位置,有效避免将离群点错误聚类,从而改善了聚类效果.  相似文献   

5.
介绍了一种融合多尺度形态学、蚁群聚类、模糊C-均值(FCM)聚类的新的彩色图像分割方法.该算法首先利用多尺度形态学提取图像边缘,再利用蚁群聚类算法的全局搜索性和鲁棒性的优点并结合边缘信息,确定聚类中心和聚类个数,将其作为FCM聚类的初始聚类中心和聚类个数,克服了FCM算法自身并不能确定聚类中心需要人为设定的缺陷.实验结果表明,该算法可以准确地分割出目标,是一种有效的图像分割方法.  相似文献   

6.
目前多数多视角聚类算法不考虑噪声问题,为了更有效地分析含有噪声数据的聚簇结构,提出了一种基于可能性C-均值的鲁棒多视角聚类(PCM-RMVC)算法,该算法同时利用多个视角空间中的特征信息,最小化每个视角空间中数据对象与聚簇中心的距离.推导出数据隶属度和每个视角权重的迭代更新规则,设计出聚类过程的迭代算法.实验表明:PCM-RMVC算法对噪声具有较强的鲁棒性,并且聚类效果优于五种有代表性的多视角聚类算法.  相似文献   

7.
一种基于密度的引力聚类算法   总被引:1,自引:0,他引:1  
针对传统基于距离的聚类算法所存在的缺点,将万有引力和牛顿第二运动定律思想引入到聚类过程中,提出了一种改进的基于密度的引力聚类算法GCABD.该算法可以自动决定目标数据集中的簇的个数,并且能发现任意形状的簇且可以过滤"噪声"数据.实验结果表明,所提出的GCABD算法的聚类效果和精度均比典型的K-means算法好,提高了聚类质量.  相似文献   

8.
目前多数多视角聚类算法属于"刚性"划分算法,不适用于处理具有聚簇重叠结构的数据集,为此,提出一种基于模糊C-means的多视角聚类算法(简称FCM-MVC),该算法利用隶属度描述对象与类别的关系,能够更真实地描述具有聚簇重叠结构数据集的聚类结果。FCM-MVC算法同时利用多个视角信息,自动计算每个视角的权重。研究结果表明:FCM-MVC算法能够有效处理具有聚簇重叠结构的数据集;与已有的3种经典的多视角聚类算法相比,该算法获得的聚类精度更高。  相似文献   

9.
提出了一种基于簇特征的文本增量聚类算法:充分利用简单、有效的k-means算法来进行初始聚类,并保留聚类后每个簇的簇中心、均值、方差、文档数、3阶中心矩和4阶中心矩作为该簇的簇特征,当出现新增数据时,利用初始簇的簇特征对新增数据进行聚类.在20newsgroups数据集上的实验结果表明:相比于对整个数据集进行重新聚类,该算法具有一定的优势.  相似文献   

10.
针对不确定数据流聚类问题,提出一种基于引力相似度和相对密度的聚类算法.采用在线/离线两阶段处理框架,综合考虑元组之间的相似度与元组自身的不确定性,利用引力相似度为每个不断到达的数据元组寻找可能归属的微簇,以新的离群点处理和在线维护机制来适应数据流的演化情况,并在离线层使用相对密度算法进行聚类,不需要预先指定聚类数且可处理任意形状的微簇.实验结果表明,与现有的聚类方法相比,所提出的算法具有更高的聚类质量和准确度.  相似文献   

11.
Clustering data with varying densities and complicated structures is important,while many existing clustering algorithms face difficulties for this problem. The reason is that varying densities and complicated structure make single algorithms perform badly for different parts of data. More intensive parts are assumed to have more information probably,an algorithm clustering from high density part is proposed,which begins from a tiny distance to find the highest density-connected partition and form corresponding super cores,then distance is iteratively increased by a global heuristic method to cluster parts with different densities. Mean of silhouette coefficient indicates the cluster performance. Denoising function is implemented to eliminate influence of noise and outliers. Many challenging experiments indicate that the algorithm has good performance on data with widely varying densities and extremely complex structures. It decides the optimal number of clusters automatically.Background knowledge is not needed and parameters tuning is easy. It is robust against noise and outliers.  相似文献   

12.
交通事故致因因素导致交通事故的发生,而交通事故致因因素的产生与驾驶人的特征相关。基于K-means++对事故伤亡人数、年龄、驾驶经验、事故责任、驾驶人的不安全行为值、车辆的不安全状态值进行聚类分析,探讨具备不同特征的驾驶人群体产生不同类别的交通事故致因因素的倾向性。结果表明,当聚类簇数为3时,轮廓系数为0.52,模型将驾驶人分为3个群体。其中:驾驶经验及年龄较低,事故责任较高的驾驶人群体存在较高的不安全行为值;驾驶经验及年龄较高,事故责任较高的驾驶人群体存在较高的车辆的不安全状态值及较高的伤亡人数;事故责任较低的驾驶人群体的不安全行为值与车辆的不安全状态值均较低。  相似文献   

13.
许多聚类算法有两个缺点:1)采用某种距离作为相似性测度。类别接受域为球形,不能与复杂模式分布匹配;2)对确定合理类别数不能提供任何帮助。采用最大似然准则的聚类算法其类别接受域为球形或椭球形,可以与模式的分布匹配更好。在计算似然值时使用先验概率,能为确定合理的类别数提供依据。本文的贡献是把遗传算法结合到基于最大似然准则的神经网络聚类算法中,解决聚类中心的初值选择问题并获得最优聚类。  相似文献   

14.
提出了多目标监督聚类GA算法,即:根据样本的类标签有监督地将样本聚类,在每个类中根据样本属性的相似性有监督地聚成类簇.如果分属不同类标签的类簇出现相交,则相交类簇再次聚类,直到所有类簇均不相交.适应度矢量函数由类簇数和类内距离2个目标确定,类簇数和类簇中心由目标函数自动确定,从而类簇数和中心就不受主观因素的影响,并且保证了这2个关键要素的优化性质.预测分类时,删去单点类簇,并根据类簇号和离某个类簇中心距离的最近邻法则以及该类簇的类标签进行分类.算法模型采用C#实现,采用3个UCI数据集进行实例分析,实验结果表明,本算法优于著名的Native Bayes、Boost C4.5和KNN算法.  相似文献   

15.
采用实验方法,对流化床发展段流动壁面进行图像分析,以了解颗粒簇团在壁面的流动形态。试验结果表明:颗粒簇团形状变化随风量的变化较为显著;簇团形状随风量的增大由松散、颗粒浓度小、变为密集、颗粒浓度较大;簇团数目随风量的增大而变小。同时,颗粒簇团频率随高度的变化较小,颗粒簇团频率会随着床层高度的增加而有较小的减弱趋势。  相似文献   

16.
针对数据融合调度能量与时延优化问题,提出一种任务类型感知的无线传感网数据融合调度算法。通过传感器节点多功率、多信道的方式,利用最大独立集思想,构建基于数据融合主干树的网络拓扑结构,从而根据调度优先级,通过近似贪婪算法实现簇内数据融合调度,同时结合稀疏系数感知任务类型,减少传输数据量,进而利用簇头节点在网络中的等级,实现簇间数据融合调度。结果表明,所提算法在减少簇头节点数据传输量,降低节点能耗的同时,缩短了数据融合时延,提高了网络寿命。  相似文献   

17.
基于模糊聚类方法的T-S模糊系统建模   总被引:4,自引:0,他引:4  
提出了用一个聚类验证准则设计模糊C均值聚类算法,这个聚类验证准则是用来确定模糊C均值算法中合适的聚类数.针对T—S模糊模型,由模糊c均值聚类算法确定其逻辑前件参数,进而采用最小二乘算法确定模糊推理规则的后件参数.最后,应用本文建模方法对一个非线性实例进行仿真计算,并与其它方法进行了比较,结果表明本文方法是有效的.  相似文献   

18.
王超  李昊昱  陈含露 《科学技术与工程》2023,23(26):11445-11451
为了挖掘终端区进场航空器交通流的分布特征,量化分析空中交通的复杂性,提出了一种基于多特征轨迹相似度和密度峰值聚类(Density-peak Clustering, DPC)的中心航迹提取方法。首先,采用单向距离(One Way Distance, OWD)计算轨迹之间的形状和物理距离,并结合空管实际运行航迹数据特征,考虑航迹之间的位置属性和航向属性,定义多特征航迹相似度模型。其次,使用密度峰值聚类算法对航迹数据进行聚类分析,提取聚类结果中每一簇中具有最高密度的真实轨迹作为中心航迹。最后,对双流国际机场终端区历史航迹数据进行实验分析,使用轮廓系数指标和基于密度的指标进行评价,并与层次聚类算法进行对比。结果表明,轨迹被划分为8个不同形态的类簇,该方法可以直观有效的识别出轨迹的整体运动特征并精确提取出真实的中心航迹。  相似文献   

19.
提出了一种改进的和声搜索算法并应用到聚类分析中.首先,将状态反馈机制引入到和声搜索算法中,通过判断和声记忆库中"最优"和声和"最差"和声之间的差异,来动态调整和声记忆库考虑概率和移动步长,使算法能够快速地收敛到全局最优解.通过更新和声向量中精度变量对应的聚类中心来最小化目标函数值,获得数据样本的最优划分.其次,提出了一种数据样本真实聚类中心数的确定方法,当输入样本数大于真实聚类中心数时,通过计算能够自动地确定数据样本真实聚类中心数目.最后,应用4种性能指标来比较所提算法与蚁群聚类算法和原始和声搜索聚类算法的性能.结果表明,所提算法的性能优于另两种算法.  相似文献   

20.
Atomic simulations using an embedded atom method (EAM) potential were performed to study changes of packing patterns in titanium clusters containing tens to thousands of atoms. The findings revealed that the changes came from the movements and rearrangements of surface atoms in a large temperature range, and they were strongly dependent on cluster size and elevated temperatures. Small size clusters with icosahedron (Ih) configurations of geometric shell closures were preferred. As the cluster size increased, most of the atoms in these clusters could hold their HCP packing patterns. With the increasing temperature, the coexistence of different packing patterns including HCP, BCC, and Ih occurred. At a high temperature, the disorderly packing quickly extended into the entire region of a large size cluster. The calculations of specific heat were compared with Dulong-Petit law. The simulations provide the possibility to straddle structural transformations and determine critical size suitable for classical theory under certain thermal conditions.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号