首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
构建倒排文本空间索引树(IR)分裂聚类多目标模型,对非支配排序遗传算法(NSGA-Ⅲ)的求解过程进行改进,提出一种基于先验初始种群策略的非支配排序遗传算法(PIPS-NSGA-Ⅲ),使其更适应于倒排文本空间对象分裂聚类问题的求解.通过PIPS-NSGA-Ⅲ算法寻求对象最小包围矩形(MBR)之间的重叠与覆盖面积、对象群间平均距离以及语义相似度等目标的最优前端解.通过对比PIPS-NSGA-Ⅲ,NSGA-Ⅱ,NSGA-Ⅲ和SPEA-Ⅱ进化多目标算法,从对象分类时间、效率、查询时间和准确度等多个方面来评估算法的优劣.实验结果表明:PIPS-NSGA-Ⅲ算法对文本空间对象聚类分裂具有较高的效率;相对于简化传统R树(STR树)与R树空间索引结构,基于改进NSGA-Ⅲ文本空间索引的平均查询时间减少24.8%,平均准确度提高3.75%.  相似文献   

2.
一种面向GIS的静态R-树数据组织方法   总被引:2,自引:0,他引:2  
针对GIS空间数据提出了一种基于空间聚类的静态R-树生成方法.该方法用典型点法进行静态R-树数据组织,用空间对象的最小约束矩形代替空间对象本身进行空间聚类计算,形成若干聚类,并以R-树的构建规则进行适当调整,同时通过改进R-树的一些性能指标如覆盖区域、重叠面积和边界周长等提高其查询性能.通过将该算法与其他静态R-树算法如Low x算法、Hilbert R-树算法进行比较,论证了该算法的可行性.  相似文献   

3.
提出一种新的多类标分类算法——多类标聚类树算法.该算法利用文本属性特征及类标信息,通过迭代调用"基于类标信息的聚类算法",将两空间分类树的生长不断划分,直至空间足够简单为止.实验证明,提出的多类标聚类树算法总体上优于其他对比算法,其分类能力强于排序能力.  相似文献   

4.
针对传统聚类算法存在样本形状及孤立点敏感的问题,提出基于修剪树的优化聚类中心(Optimized Clustering Center Based on Trimmed Tree,OCT)算法.该算法自适应地寻找裁剪尺寸来修剪并分割最小生成树为森林,获取森林全部叶子结点并再次构造最小生成树,根据预设簇数n,修剪最小生成树...  相似文献   

5.
协议聚类是协议逆向工程技术中非常重要的一步,针对二进制协议更加透明且满足的协议种类更加广泛的特点,提出了一种基于基因和蛋白质生物信息的二进制协议聚类方法,能够从原始序列角度对大量协议直接进行聚类.本文方法首先将原始二进制报文转化成四进制基因形式,使用快速聚类方法计算碱基两两组合的k-seed值生成距离矩阵,并用UPGMA计算最小距离生成树得到初始分簇;其次,将每一簇四进制协议报文转化成十六进制蛋白质链,得到序列更有语义的方式并采用基于改进mBed算法的聚类方法将其进行高精度聚类.通过对已知和未知协议单纯和混合场景下的测试表明,该方法能够对二进制协议实现高效并且高准确率的聚类,具有较高的应用价值.  相似文献   

6.
网络分析法为分析股票市场的复杂性提供了有效的方法.文章采用符号时间序列分析法,使用符号编码序列所对应的频率,基于欧几里德空间,计算最小生成树节点之间的距离.同时,引入多维数据分析法,在收益序列的基础上加入股票交易量信息,建立最小生成树和分层树,从而体现出交易量作为股市价格趋势指向标所隐含的信息.最后,对沪深300指数进行了实证分析,系统分析了其网络结构及聚类特性.  相似文献   

7.
针对互近邻距离的不足,提出了互近邻相对距离的概念,同时设计实现了一种新的最小生成树聚类算法.针对某些数据的不平衡问题,提出了兼容不平衡数据的最小生成树分割方法.算法设计简单,易于实现.实验结果表明,该算法能够聚类任意形状数据和兼容处理不均衡数据.对于具有良好几何形状的数据,该算法能够达到非常好的聚类效果,总体性能优于其他算法.  相似文献   

8.
针对说话人确认系统中GMM超向量建模计算复杂度高以及易受信道干扰的问题,提出一种新型的基于Bhattacharyya距离聚类的WCCN序列核函数算法.首先计算话者GMM模型之间的Bhattacharyya距离,根据该Bhattacharyya距离对话者模型进行聚类,得到聚类中心模型;紧接着对聚类中心模型的均值向量进行MAP自适应,进而生成超向量序列核函数;最后采用WCCN平滑归一化技术对序列核函数进行信道补偿,抑制噪音和信道畸变对核函数的影响.将该Bhattacharyya聚类WCCN核函数应用到SVM说话人确认系统,仿真实验结果表明该核函数可以有效地提高系统的识别准确率和识别速度.  相似文献   

9.
针对传统聚类算法存在挖掘效率慢、 准确率低等问题, 提出一种基于最小生成树的多层次k-means聚类算法, 并应用于数据挖掘中. 先分析聚类样本的数据类型, 根据分析结果设计聚类准则函数; 再通过最小生成树对样本数据进行划分, 并选取初始聚类中心, 将样本的数据空间划分为矩形单元, 在矩形单元中对样本对象数据进行计算、 降序和选取, 得到有效的初始聚类中心, 减少数据挖掘时间. 实验结果表明, 与传统算法相比, 该算法可快速、 准确地挖掘数据, 且挖掘效率提升约50%.  相似文献   

10.
图之间的距离度量一直是研究的难点之一。文中提出了一种基于图谱归一化编辑距离的聚类方法。首先利用图的谱方法实现图中点的排序,再用串编辑距离进行两图之间的相似性度量,以此距离构成的不相似矩阵,应用基于矩阵理论的聚类算法实现序列图的聚类研究。考虑到图中点的多少差异,给出归一化串编辑距离的方法解决长短谱序列间距离差异误差问题。实验表明,基于图谱归一化编辑距离的聚类方法是有效的。  相似文献   

11.
流感病毒是流行性感冒病毒的简称,在分类上流感病毒属正粘病毒科,包括甲、乙、丙(也称A、B、C)3个型别。流感病毒可引发人类、禽类和动物类的“流行性感冒”,其中禽流感病毒是甲型流感病毒中的某些亚型(如H2N1、H9N2、H7N7等)。它们以鸡、鸭等禽类病毒贮存,宿主可以感染人类,早年已有若干先例。而此次出现的禽流感病毒主要为甲型流感病毒中的H5N1亚型。  相似文献   

12.
时间序列的相似性度量是时间序列聚类、分类以及其他相关时间序列分析的基础.传统基于距离的相似性度量方法,忽视了时间序列可能存在的时间上的联系,而将时间序列看作一系列孤立点的集合.对于序列间可能存在的前后联系,基于分数阶微分的遗传特性和记忆特性,提出一种新的时间序列聚类的相似性度量.根据时间序列的分数阶微分计算新序列间的点距离,将其作为聚类算法的输入对时间序列进行聚类.仿真实验结果表明,与基于原始序列矢量距离的聚类结果相比,新的分数阶相似性度量方法表现更好.  相似文献   

13.
在用户访问网站点击流形成频繁序列的基础上,提出基于距离函数的聚类分析算法.首先对数据流分区做K均值聚类生成中间聚类结果,然后对这些均值参考点进行离线聚类,以获取用户访问模式.理论分析和实验表明,算法具有较好的聚类效果.  相似文献   

14.
在多粒度时间序列研究中不确定性问题是时间序列数据挖掘研究中的重要课题.时间序列时序粒度本身的不稳定是一种广泛存在现象,也是时间序列数据挖掘困难的一个重要原因,然而这种情况却较少文献进行过讨论.对于这个问题首先建立了多粒度时间序列的基础数据模型及相关时序粒度的定义.其次对时间粒度不确定性现象的不同成因进行了讨论,并建立相应的不确定性时间序列数据模型.最后基于上述理论和粒计算的思想,多粒度时间序列的最优粒度获取和不确定性粒度时序粒度的基本稳定策略分别进行了研究和讨论.由于聚类分析是时间序列数据挖掘中的最重要的理论研究和应用基础之一,不确定性多粒度时间序列数据的聚类成为一个典型的时间序列数据挖掘难题.一个引入稳定粒度策略的聚类算法框架被提出来解决这类不确定性时间序列数据的聚类问题.最后一个典型的具有不稳定粒度时间序列特点的重症监护病房生理指标数据集和病人存活率预测实验被应用于验证上述理论.实验结果表明在时间序列数据挖掘中选择不同的时间属性粒度对于数据挖掘的效果符合粒计算的计算规律,同时选择了粒度稳定性处理策略聚类算法的实验能够获得更好的预测效果.  相似文献   

15.
提出了一种针对码书优化的图像矢量量化算法。首先设定矢量距离的初始门限值,基于空间划分对训练矢量聚类,找到矢量个数小于平均胞腔矢量数的胞腔;提取其聚类矢量后删除该胞腔,然后缩小距离门限值再次聚类提取,依次循环直到聚类矢量个数达到要求。将提取的聚类矢量作为初始码书,进行LBG算法码书设计,有效地改善了传统LBG算法依赖于初始码书而容易陷入局部最优的缺点,采用改进算法生成的码书更接近全局最优,加快了收敛速度。仿真结果证明了该方法的有效性。  相似文献   

16.
大数据下的系统发育估计是一个组合优化问题,在有限计算时间内,现有算法很难为大量序列数据的分析提供最优解.基于前人启发式算法,提出了一种系统发育树随机聚类建树方法,可在较短时间内为系统发育过程产生的大规模序列数据提供所有具有进化意义的解及最优解,以揭示发育过程中的序列进化关系.实验结果表明,该随机聚类方法是行之有效的,对生物计算及系统发育相关领域研究具有积极意义.  相似文献   

17.
一种增量式文本软聚类算法   总被引:1,自引:0,他引:1  
针对传统文本聚类算法时间复杂度较高,而与距离无关的算法又不适用于动态、变化的文本集等问题,提出了一种基于语义序列的增量式文本软聚类算法.该算法考虑了长文本的多主题特性,并利用语义序列相似关系计算相似语义序列集合的覆盖度,同时将每次选择的具有最小熵重叠值的候选类作为一个结果聚类,这样在整个聚类的过程中大大减小了文本向量空间的维数,缩短了计算时间.由于所提算法的语义序列只与文本自身相关,所以它适用于增量式聚类.实验结果表明,算法的聚类精度高于同条件下的其他聚类算法,尤其适合于长文本集的软聚类.  相似文献   

18.
基于K-均值聚类算法的中药叶片显微图像分割   总被引:1,自引:0,他引:1  
本文试图利用图像分割技术,实现叶片自动分类。为了充分利用像素的色彩,分割算法在RGB颜色空间进行。颜色空间数据量巨大,直接进行聚类效率太低,因此,本文运用一种特殊的存储结构存储颜色空间数据,按颜色的密度特征对图像中的颜色进行排序和聚类,并根据待聚类色彩与已有聚类中心距离是否小于类内最大距离来决定归入已有的类或形成一个新的类。实验结果表明算法具有较好的分类效果。  相似文献   

19.
禽流感是A型流感病毒引起的禽类烈性传染病,被世界动物卫生组织(OIE)列为A类动物疫病,我国将其列为一类动物疫病。依据病毒表面的两种糖蛋白血凝素(HA)和神经氨酸酶(NA)不同,可将A型流感病毒分咸若干亚型,目前已有15种HA和9种NA,其中高致病性的亚型如H5N1和H7N7可造成毁灭性的流行爆发,并可直接感染人。由于禽流感病毒的核酸是分节段的,因此易发生交换和重排,从而发生变异,出现新的亚型。这就是流行了一个世纪的禽流感至今无有效的方法预防和控制的原因所在。1997香港、2003年3月荷兰、2004泰国和越南都出现禽流感直接感染人的事件,并引起人员死亡,因此禽流感引起全世界的关注和高度的重视。  相似文献   

20.
《少儿科技》2013,(5):32
近期,H7N9禽流感疫情是人们普遍关注的事件。从3月底上海首次公布,确定发现人感染H7N9禽流感并出现死亡病例后,人们谈之色变。"备战"H7N9禽流感,成为大家的重要任务。H7N9禽流感H7病毒通常是一组在鸟类中传播的流感病毒,H7N9是H7病毒大类下的一个亚群。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号