首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 199 毫秒
1.
为解决邮件社区挖掘中涉及内容隐私及社区形态单一问题,提出了一种基于聚类融合的邮件社区划分算法.该方法中首先利用邮件社交网络特征及邮件属性衡量节点间距离,避免对邮件内容的分析导致涉及用户隐私,其次使用K-Means算法产生若干初始聚类结果,同时引入共协矩阵记录初始聚类时节点的归属,最后根据共协矩阵中邮箱节点间的相似程度,使用融合算法合并初始聚类结果得到最终社区结构.实验表明,该算法未使用邮件内容,得到的社区结构质量较高,并能发现多形态社区.  相似文献   

2.
谱聚类划分算法是经典社区发现算法之一,由于目前构造的相似图承载的社区结构信息较少,导致聚类效果与理想效果具有较大差距,因此,提出了基于DCBM的马尔可夫谱聚类社区发现算法MSCD.首先,基于DCBM模型提出了以节点间连接概率为元素的概率矩阵,并建立了概率矩阵与相似矩阵之间的映射关系;其次,利用马尔可夫链重构了谱聚类的相似图;最后,使用重构的相似图对网络进行社区划分.在人工合成网络和真实网络上与SC,MRW-KNN和FluidC三种典型算法进行了对比实验.实验结果表明,MSCD算法具有更加高效的聚类性能,能够揭示更加清晰的社区结构.  相似文献   

3.
基于多尺度空间聚类的经济区域划分研究
  总被引:1,自引:0,他引:1  
传统的聚类方法能够自动实现类型的划分,但其只考虑空间对象的属性特征,忽略了空间对象之间位置的邻近性。在尺度空间理论基础上,利用多尺度空间聚类方法,同时兼顾空间对象间的空间相邻和属性相似这两个特征,使得在空间尺度由小变大的过程中,具有高度空间相互依赖关系的空间对象相互融合,得到不同空间尺度下的区域划分结果。并以福建省67个县市1990—2004年历年的人均GDP数据分析为例,进行了全省的经济区域划分应用试验。结果表明与实际的区域经济发展情况相符。该方法能够综合考虑空间位置邻近性和属性特征相似性的聚类要求,使得聚类结果更加合理,为制定区域经济持续发展战略提供依据。  相似文献   

4.
提出一类基于谱聚类算法的带有节点特征的社区发现算法(SCSA),该算法首先将带有节点特征的网络图转化为加权图,其中边的权重用节点特征相似度度量,然后将谱聚类算法应用到加权图上进行社区检测.SCSA算法将带有节点特征的网络图分成K个社区,每个社区内节点不仅连接良好而且具有相似的特征属性.注意到不是所有节点的特征在社区划分过程中都是有用的,与划分无关的特征信息会降低社区发现算法的准确度.为此,提出了一类节点特征权重自调整机制嵌入到谱聚类中以提高社区检测质量.数值实验的结果验证了所提算法的有效性.  相似文献   

5.
为提取电力负荷数据的有效信息,改善传统聚类方法在电力负荷数据中相似度衡量方式单一及聚类效果较差的问题,提出一种采用欧式形态距离的负荷曲线近邻传播(AP)聚类方法。使用五分位法将用电负荷曲线重表达为曲线形态变化特征序列,使用改进最长公共子序列算法衡量不同特征序列之间的模式匹配度,以此作为曲线之间的差异度;构造一种兼顾曲线整体分布特征和曲线形态变化特征的双尺度相似性度量方法,使用熵权法对两种特征进行自适应配比;将所提相似度衡量方法应用到AP聚类方法中,改进相似度矩阵计算方法,对用户典型日用电负荷曲线进行聚类。在标准合成时间序列数据集上进行了实验对比,结果表明:欧式形态距离度量方法能够有效区分负荷曲线的变化特征;所提方法具有较高的聚类质量和稳健性,相比其他相似度量方法,调整兰德系数提高了9.0%~43.8%,DB指标与标准集相差0.014 3,在电力实测数据集上能对用户进行合理划分。  相似文献   

6.
为了达到使用3+2轴机床分区加工复杂曲面的目的,提出一种基于聚类算法和法矢方向锥的二叉空间划分的复杂曲面划分算法。该方法将曲面在其参数域内划分为四边形区域,并将边界划分为原曲面的等参数线,使得该四边形区域在原曲面的参数域内为矩形,并且每个区域受其法矢锥的锥角所限制。使用二叉空间划分方法划分参数域,直至所有曲面的法矢锥的锥角满足约束条件。对于每个待划分曲面,可在聚类算法求解出的聚类中心之间,选择出参数域内最优的划分边界。使用UG/OPEN API进行了仿真实验,将某一复杂曲面分划为3个区域,并且所有区域的法矢锥的锥角小于45°。试验结果表明,在3+2轴加工中,可使用此曲面划分算法将原曲面划分为多个区域,并生成具有光滑边界且总量较少的一组曲面。  相似文献   

7.
张真  周志强 《科技信息》2010,(25):9-9,21
经典的固定网格划分算法是CLIQUE算法,在高维的大数据集上聚类效果较好,但是因网格单元采用硬化分的缺陷,导致了其效率和聚类质量不够高。而基于统计学的网格划分技术能充分考虑数据集分布特征,且能识别任意形状和大小的聚类。  相似文献   

8.
针对网络的聚类进行研究,提出了一种基于标记注意力机制的社区发现算法,网络特征通过标记节点频率及反示例节点频率联合度量,为使网络特征的度量更加关注于示例节点的细节信息,引入注意力机制来处理网络特征。社区划分由复杂网络预处理、网络节点的策略、社区博弈归并三个部分组成,其中网络节点的策略由无贡献节点归并、节点到社区的判断以及节点逻辑标记和的判断三个步骤组成。实验借助于真实网络进行验证,在归一化互信息、模块度、社区划分数量及运行时间四个方面,基于标记注意力机制的社区发现算法都优于其它社区发现算法。在实际生活中应用此算法,能够更加直观地显示网络内部之间存在的联系。  相似文献   

9.
为降低供水管网漏损,实现供水管网快速准确分区,提出一种耦合模块度优化与谱聚类的供水管网分区算法。该算法采用快速模块度优化算法对供水管网进行社区划分,以每个社区为节点、社区间连接关系为边,结合各社区内的水力特征和空间区位特征计算差异性作为边权重,构建对偶图。利用谱聚类算法完成供水管网分区。结果表明,该算法求解的管网分区结果相比快速模块度优化和谱聚类算法,将空间上更邻近的管段划分在同一分区,不会产生狭长型无效分区,且在模块度及边界管道数量上表现较为均衡,管网分区方案不仅模块度高,而且边界管道数量少。  相似文献   

10.
针对粗糙模糊C均值聚类的阈值、权重选取问题,提出了一种基于不确定性度量的参数自适应获取方法.该方法将阈值选取归结为一个最优划分寻找问题,给出一种基于方差的划分优劣评价方法;利用信息熵来度量样本归属的模糊性,基于该模糊性度量和类簇的粗糙度,提出了一种权重参数自适应计算方法.将所提方法应用于粗糙模糊C均值聚类,并将分别基于所提方法与典型参数选取方法的粗糙模糊C均值聚类算法在人工数据集和真实数据集上进行实验比较.结果表明,基于所提参数确定方法的粗糙模糊C均值聚类能获得更好的聚类有效性和准确性.  相似文献   

11.
软件成本数据常常表现为高维混合属性数据,传统的相似性度量已不再适用.文中通过建立软件成本数据的高维模糊C均值(FCM)聚类算法对数据相似性进行度量.首先,定义由序数属性到数值属性的初始映射;然后,通过建立改进的迭代高维FCM聚类算法对序数 数值映射进行修正,优化聚类效果;最后,利用得到的模糊划分矩阵对软件成本数据的相似性进行度量.实验结果表明,通过对聚类效果进行优化,文中定义的相似性度量能够提高软件成本估算精度.  相似文献   

12.
基于全局空间相似性的模糊聚类算法   总被引:1,自引:0,他引:1  
用传统模糊C均值聚类算法分割图像时,类内数据空间分布离散.针对这一问题,提出一种基于全局空间相似性模糊聚类算法.算法建立全局空间相似性度量标准和全局灰度相似性度量标准,分别计算图像中任意一点与聚类中心点的空间相似性和灰度相似性;通过调整参数来控制两种特征在节点间差异计算中所占的比重,增强了分割结果中类内数据样本空间分布...  相似文献   

13.
聚类是识别基因表达数据蕴含的关键基因调控模块的一种有效方法,基因表达谱的相似性度量是聚类的关键问题.然而,一般的相似性度量方法不能刻画时间序列基因表达谱数据所蕴含的时间延迟、反向相关和局部相关等复杂的基因调控关系.针对时间序列基因表达谱数据,提出一种基于近邻传播和动态规划的相似性度量方法和聚类算法.在大鼠再生肝细胞基因表达谱数据集上的聚类结果与基因功能富集分析结果高度一致,证明算法在时间序列基因表达谱数据聚类上的有效性.  相似文献   

14.
一种基于语义距离的高效文本聚类算法   总被引:6,自引:0,他引:6  
摘 要:提出了一种基于语义进行文本聚类的新方法。该方法从语义上具体分析文档,利用文档具体语义计算文档间的相似度,使得文档聚类结果更合理。文本聚类主要采用最近邻聚类算法,并提出第二次聚类算法改进最近邻算法对输入次序敏感的问题。类特征词的选择上根据相似度权重优胜略汰类特征词,使得最后类特征词越来越逼近类的主题。实验结果表明本文所提出的算法在聚类精度和召回率上均优于基于VSM的K-Means聚类算法。  相似文献   

15.
为了解决现有生物激励设计过程存在的跨领域知识获取难的问题,提出了面向生物激励设计的基于功能特征语义相关性的功能语义聚类和基于环境特征约束适应性的环境约束聚类组成的两阶段知识元聚类算法。将生物激励设计过程跨领域实例知识检索问题转化为对离散的生物领域或工程领域知识元的聚类检索。根据跨领域术语知识表示的不同确定跨领域检索功能词,执行基于功能特征语义相关性的功能语义的一阶段聚类,结合生物领域功能与环境特征约束间的相关性,完成基于不同类型环境特征约束的二阶段聚类。一方面,将模糊理论与模糊数学引入知识元聚类算法中,提出基于模糊隶属度函数的语义相似度计算方法,实现了基于功能关键字的语义聚类;另一方面,将FCM聚类算法引入到知识元聚类过程中,结合给出的不同类型环境特征约束相似性算法,提出了AFCM算法,实现了基于环境特征约束适应性的环境约束聚类。最后,开发了相应的原型系统,并且以视觉假体装置设计为例进行测试。结果表明,聚类时间和准确率得到极大改善,聚类效率得到显著提升。该算法有效地避免了跨领域知识分布的离散性,减少了设计过程中研究对象的数量,能够合理地获取已有设计知识,为深入研究奠定了基础。  相似文献   

16.
基于Relief算法的特征学习聚类   总被引:3,自引:0,他引:3  
聚类作为数据挖掘常用工具之一,是按照事物间的相似性进行的一种无监督分类.然而传统的聚类方法较少考虑特征权值.为此,通过研究、分析Relief算法及其在聚类应用中存在的问题,提出了一种基于Relief算法的特征评价函数,并将此函数运用到特征学习聚类中,以解决特征权值取值不当对聚类产生的负面影响.  相似文献   

17.
由于时间序列数据具有高维度、动态性等特点,这就导致传统的数据挖掘技术很难有效的对其进行处理,为此,提出了一种基于多维时间序列形态特征的相似性动态聚类算法(similarity dynamical clustering algorithm based on multidimensional shape features for time series,SDCTS).首先,提取多维时间序列的特征点以实现降维,然后,根据多维时间序列的斜率、长度和幅值变化的形态特征定义了一种新的时间序列相似性度量标准,进而提出无需人为给定聚类个数的多维时间序列动态聚类算法.实验结果表明,与其他算法相比,此算法对时间序列具有良好的聚类效果.  相似文献   

18.
为了有效提高文本聚类的质量,用聚类过程不断反馈的信息熵改进向量空间模型中特征词权重的计算,构造以文本相似性为基础的抗体-抗原亲和力和抗体浓度计算方法,提出用亲和力和抗体浓度控制的抗体克隆和变异策略寻找聚类中心,并将文本归入与聚类中心相似度最大的类簇.实验表明,该算法可得到聚类质量较高并且稳定性较好的聚类结果.  相似文献   

19.
针对电子病历中疾病诊断文本同义词识别和命名标准化问题,提出了一种自适应的文本聚类方法.首先提出了一种新的基于集合的文本相似性度量算法;然后采用基于相似度分布的文本聚类算法实现同义文本识别,该算法能够自动确定类簇个数;最后采用基于序列模式的中心概念提取算法实现了疾病命名的标准化,同时对聚类簇进行合并和优化,进一步提升了聚类的准确性.测试结果表明,所述方法具有较高的准确率和聚类效率,在病历文本的预处理、分类和分析中具有广泛意义.  相似文献   

20.
为了使基于模糊C均值(FCM)聚类的图像分割算法对复杂图像更具适用性,将图像结构特征融合到增强型FCM算法.首先,对原始图像进行均值滤波,将滤波结果与原始图像进行线性叠加形成新的输入图像.其次,采用二维Gabor滤波函数提取新的输入图像的纹理结构特征,以此代替灰度特征来衡量节点间的相似性.最后,采用一种改进的节点间距离度量公式来计算图像中节点与聚类中心点的差异.仿真结果表明,对结构复杂的图像所提算法获得了更加精确的分割结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号