首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
一种基于互信息的词聚类算法   总被引:1,自引:0,他引:1  
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计聚类方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文利用互信息定义了一种词相似度,在词相似度的基础上给出了词集合相似度的定义.基于相似度,提出了一种自下而上的分层聚类算法,这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,因而提高聚类的使用效果.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.  相似文献   

2.
模糊C均值聚类算法的一种初始化方法   总被引:6,自引:1,他引:5  
模糊C均值聚类算法(FCM)在图像处理和模式识别中有着广泛的应用,该算法实质上是一种局部搜索寻优方法,对初始值很敏感,容易陷入局部极小值。当聚类数比较多时,往往得不到满意的聚类结果。本文首先讨论了FCM算法初始化对聚类结果的影响,然后提出了一种基于形态处理的FCM初始化方法。这种方法不仅可以得到比较满意的聚类结果,而且可以自动确定聚类数。  相似文献   

3.
随着民航业的飞速发展,机场噪声污染问题越来越严重,研究航迹聚类对机场噪声预防治理工作具有重要意义。现有航迹聚类算法所采用的航迹点对选取方式,无法实现所选航迹点对在空间上的对应,严重影响聚类效果。针对这一问题,提出一种基于航迹点法向距离的航迹聚类模型。该模型采用航迹点法向距离作为航迹相似性度量方法,有效地解决了因飞机速度差异引起的航迹点对选取不匹配问题。通过K-medoids聚类算法对航迹进行二维和三维聚类,使用Davies Bouldin (DB)指标、Dunn指标对聚类结果进行评价。实验表明,提出的模型能够更好地度量航迹之间的相似性,航迹聚类效果更好,从而验证了该模型的合理性和有效性。  相似文献   

4.
基于D-S证据理论的灰色定权聚类综合后评价方法   总被引:1,自引:0,他引:1  
结合灰色定权聚类评估模型和D-S证据理论对项目综合后评价方法进行研究.应用差异信息序列熵理论,根据指标所蕴含信息量的多少确定聚类指标的权重;根据所得到的灰色定权聚类系数矩阵并把该矩阵经过适当转换, 把每一个聚类对象作为影响后评价结果的一条证据,考虑到证据推理中零绝对化问题存在的可能性, 给出了解决办法;利用Dempster合成法则, 得到了辨识框架中各子集的信度函数,根据信度函数最大值确定项目综合后评价的结果.可以充分利用定权聚类中所得到各聚类对象所属灰类的信息,减少了直接使用聚类系数最大化方法确定评价对象所属灰类造成的信息损失, 最后通过一个算例说明了该方法的实用性和有效性。  相似文献   

5.
基于知识发现的商品住宅有效需求趋势预测方法   总被引:2,自引:0,他引:2  
给出了影响商品住宅需求趋势的指标体系,并提出基于属性聚类的知识发现算法.该算法以突变级数评价方法进行属性聚类,以基于支持度与可信度的等价矩阵方法进行规则获取,最终获得反映商品住宅的有效需求的变化趋势与其相应的影响因子之间关系的规则,以指导未来的商品住宅需求趋势的预测.  相似文献   

6.
提出一种模糊的粗糙近似法用于对web日志中的用户浏览模式进行聚类.在聚类过程中,一个网页是否被访问反映了用户的浏览兴趣,一个网页上的浏览时间反映了用户浏览兴趣的程度,它被刻画成模糊语言变量以忽略时间值之间的细小差别.每个用户浏览模式被表示成等长的模糊向量的形式以表示该用户访问过的网页及网页上的浏览时间.最后使用粗糙近似的方法对这些表示用户浏览模式的模糊向量进行聚类.这种方法可以把具有相似浏览行为的用户聚成一类.  相似文献   

7.
用户在一定区域内的长期移动行为与某些物理位置相关,如家和办公室等.为了从用户的日常移动轨迹中找出这些位置与轨迹的关系,本文提出一种新的基于移动位置扰动的端点划分与聚类方法.该方法首先将GPS轨迹划分为成组的线段集,然后运用聚类方法将地理上相似的端点进行聚类以检测用户的个性化兴趣点,最后利用原始轨迹来映射个性化兴趣点之间连接关系,生成用户在区域内的移动路径网络.理论与实验结果表明,本文提出的方法可有效地从大量GPS轨迹中发现用户的频繁路径及个性化兴趣点,从而能够为其提供更好的个性化地理信息服务.  相似文献   

8.
双聚类算法是一类新型数据挖掘聚类算法,通常以均方残差为评价指标.基于均方残差的双聚类算法,大多采用贪婪策略求解,通常不能得到大小适中且结果准确的簇.而在联合聚类中,模糊理论能改善这种基于均方残差的算法,得到大小适中且结果准确的簇.为了提高基于均方残差双聚类算法的性能,本文结合模糊理论提出一种求解单一簇的模糊双聚类算法....  相似文献   

9.
一种基于修正划分模糊度的聚类有效性函数   总被引:4,自引:0,他引:4  
针对大多数现有的聚类有效性函数都是针对于数值型数据提出的,无法有效地评价和分析类属型数据的问题,提出了一种新的聚类有效性函数—修正划分模糊度;通过结合模糊划分熵和划分模糊度测度,所提出的聚类有效性函数既可以评价数值型数据分类结果,也可以评价类属型数据的分类性能。实验结果表明了这一新的聚类有效性函数的合理性  相似文献   

10.
针对模糊聚类算法对点数据集聚类敏感性,以及区间类型数据聚类效果不明显等问题,提出了基于二次型距离改进的模糊可能性c 均值(fuzzy-possibilistic c-means,FPCM)聚类算法.首先分析了区间数据的特征,引入了区间值的数学表示方法,在此基础上提出了三种不同的基于区间数据距离度量方法以及相应权重矩阵计算方法,通过建立拉格朗日方程对目标方程优化,求得聚类中心、隶属度以及可能性迭代方程,并证明目标方程的收敛性,最后给出了算法执行步骤。在不同类型的数据集上实验,证明算法在点数据集和区间数据集上都具有较好聚类性能.  相似文献   

11.
基于类内差和改进划分系数的聚类有效性函数   总被引:7,自引:0,他引:7  
针对改进划分系数对模糊聚类有效性的判决并不十分理想,提出了将类内差和改进划分系数相结合的两个聚类有效性函数。该聚类有效性函数从数据聚类效果要求类内样本越相似而类间样本相差越大的观点出发,通过将反映数据聚类类内紧致性程度的类内差和类间分离性程度的改进划分系数相结合,并考虑到模糊C 均值聚类算法的适用条件作为构造聚类有效性函数的约束因子,得到新的聚类有效性标准。给出应用该函数进行模糊C 均值聚类有效性判决的具体步骤,通过仿真实验证明该有效性函数具有良好的分类性能。  相似文献   

12.
基于二维信息的传统聚类方法并不适用于处理面板数据, 在考察面板数据多重信息特征的基础上, 基于面板数据的"绝对指标", "增量指标"及"波动指标", 重构了面板数据相似性测度的距离函数和Ward聚类算法, 提出了面板数据自适应权重聚类方法. 所提供的算法既可退化为传统的绝对量距离聚类方法, 亦可对面板数据的未来所属类别进行聚类预测. 最后, 实例显示此方法兼具有效性和灵活性.  相似文献   

13.
针对证据理论Dempster Shafer(D-S)组合规则存在的不足,考虑辨识框架的非完备性,提出一种基于模糊聚类分析的混合证据组合方法。该方法利用Pignistic概率距离构建证据间的模糊相似矩阵及聚类有效性指标,通过传递闭包法对证据进行最优聚类及可信度求取,对证据进行修正后,采用D-S规则对同一类中的证据组合,利用统一信度函数组合方法对不同类中的证据进行最终合成。仿真实验表明了所提方法的合理性和有效性。  相似文献   

14.
In this paper,a new decision making approach is proposed for the multi-attribute large group emergency decision-making problem that attribute weights are unknown and expert preference information is expressed by generalized interval-valued trapezoidal fuzzy numbers(GITFNs).Firstly,a degree of similarity formula between GITFNs is presented.Secondly,expert preference information on different alternatives is clustered into several aggregations via the fuzzy clustering method.As the clustering proceeds,an index of group preference consistency is introduced to ensure the clustering effect,and then the group preference information on different alternatives is obtained.Thirdly,the TOPSIS method is used to rank the alternatives.Finally,an example is taken to show the feasibility and effectiveness of this approach.These method can ensure the consistency degree of group preference,thus decision efficiency of emergency response activities can be improved.  相似文献   

15.
改进的基于矢量空间的群体聚类算法   总被引:1,自引:0,他引:1  
针对群体聚类算法中,一般以群体成员偏好矢量的相似度作为相聚依据,但这类方法通常不能保证群体聚类后聚集的一致性的问题。提出了成员与成员集的相似度概念,给出了基于聚集一致性的成员与聚集相聚的条件,描述了一个改进的群体聚类启发式算法。同时,还定义了群体及聚集一致性的偏差指标和相对偏差指标,用以评估聚类结果。实例测试表明,该算法有较好的聚类性能和较低的一致性偏差指标。  相似文献   

16.
航空旅客出行的情况对民用航空机场建设与运营具有重大意义,定义了一种航空旅客出行指数,运用机器学习方法对航空旅客出行指数进行预测,克服了单一预测模型精度的不足,提出一种将长短期记忆网络(LSTM)与支持向量回归(SVR)相结合的航空旅客出行指数组合预测模型,并对预测结果集进行聚类分析。以上海机场航空旅客数据为实证,验证了LSTM-SVR组合预测模型可行性与有效性,实验结果显示:LSTM-SVR组合预测模型较传统单一预测模型具有更高的精度;同时,LSTM-SVR组合预测模型与其他组合预测模型相比也有较明显优势。此外,基于K-均值算法对航空旅客出行指数进行聚类分析并给出评级,此举为机场运营管理及旅客出行提供一定的决策支持。  相似文献   

17.
本文在粒度空间理论的基础上,进行了基于粒度空间的最优聚类模型研究.具体包含以下三个内容:首先提出了基于类内偏差和类间偏差获取数据分层结构的优化聚类指标,进一步建立最优聚类模型,证明了该模型解的存在性,并给出了相应的算法;其次将发生在1902-2015年间同时含有HA与NA蛋白的甲型H1N1流感病毒序列作为实验数据库,应用本文提出的优化模型和算法构建了流感病毒蛋白系统的第一级结构和第二级结构,基于距离中心最近原理建立了签名病毒选取的优化模型,挑选签名病毒蛋白,并构建H1N1流感病毒的核心进化树;最后基于距离中心最近原则构建分类器以验证本文方法的有效性.实验结果表明:应用本文方法处理甲型H1N1流感病毒可得到非常好的分类结果,且正确率达到93.25%.这些为基于大数据的信息处理提供一整套全新的处理方法.  相似文献   

18.
基于脉冲描述字进行雷达信号分选时,传统聚类算法需要预先人工设定聚类中心和聚类数目。针对该问题,提出一种基于数据场理论联合脉冲重复间隔(pulse repetition interval,PRI)变换与聚类的雷达信号分选新方法。首先,依据数据场理论,基于势值大小实现干扰点剔除,而后利用PRI变换算法进行PRI估计,依据PRI估计值将归一化脉冲描述字数据预分类,进而以各类数据集中心间的欧氏距离小于辐射因子为准则进行类别合并,自动得到初始聚类中心和聚类数目,最后通过改进K-Means算法完成聚类分选。仿真实验表明:所提方法能够应对存在频率捷变,重频参差、抖动、参数交叠、局部脉冲丢失的复杂信号环境,分选正确率明显提升。  相似文献   

19.
知识粗糙性的粒度原理及其约简   总被引:16,自引:0,他引:16  
粗糙集理论是一种新的软计算方法,已成为知识发现和诊断决策领域的一个研究热点。经典的粗糙集理论提出知识是有粒度的并定义了知识粗糙度的概念,但它不能完全区分不同信息粒度所表示的信息量。从信息论的角度定义了信息粒度的概念,重点研究了知识粗糙性的粒度原理,定义了粒度函数和粒度熵的概念,提出了信息粒度的量化计算方法,解决了知识粗糙度在表达信息时的不足。根据知识粗糙性和信息粒度本质上的一致性,提出了一种基于粒度熵的属性约简算法,该算法可以从各约简集中选择最优属性约简,避免了选择约简集的盲目性。实例研究证明提出的粒度计算方法是可靠有效的,为进一步研究知识的粒度计算提供了可行的方法。  相似文献   

20.
基于模糊投影寻踪聚类的洪灾评估模型   总被引:1,自引:0,他引:1  
针对洪水灾害样本集的复杂性、随机性以及差异性,本文将模糊聚类迭代理论与投影寻踪技术进行互补融合,构建了模糊投影寻踪聚类模型.该模型采用投影值标准差和投影值欧氏距离平方和来构造投影指标函数,避免了传统投影寻踪模型由于经验性选取密度窗宽导致过于主观的问题;将高维数据低维化后进行模糊聚类运算,再通过对最优投影方向的寻优进行投影寻踪聚类运算,降低了模糊聚类迭代的运算量,实现了两种模型的双重迭代聚类.误差分析及聚类有效性评价表明,互补融合后模糊聚类与投影寻踪聚类的双重迭代聚类使得聚类精度和效果也得到了较大提高;此外,除优化算法初始化参数外,模型无需预设其它参数,也不依赖于随机训练样本,可客观依据历史样本集内在规律来进行洪灾聚类评估.实例研究和方法比较表明,提出的模型计算简洁,且能有效处理洪灾评估中的随机、模糊等主客观不确定性,能够为洪灾风险管理提供科学的决策支撑.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号