首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
一种增量式文本软聚类算法   总被引:1,自引:0,他引:1  
针对传统文本聚类算法时间复杂度较高,而与距离无关的算法又不适用于动态、变化的文本集等问题,提出了一种基于语义序列的增量式文本软聚类算法.该算法考虑了长文本的多主题特性,并利用语义序列相似关系计算相似语义序列集合的覆盖度,同时将每次选择的具有最小熵重叠值的候选类作为一个结果聚类,这样在整个聚类的过程中大大减小了文本向量空间的维数,缩短了计算时间.由于所提算法的语义序列只与文本自身相关,所以它适用于增量式聚类.实验结果表明,算法的聚类精度高于同条件下的其他聚类算法,尤其适合于长文本集的软聚类.  相似文献   

2.
考虑到模糊聚类中引入传递性可能使问题失真,提出了一类带最小约束的模糊聚类问题.给出了解决这类问题的两类方法:直接聚类法与基于无约束聚类的方法.并将这些方法与一般模糊聚类的方法进行了比较.  相似文献   

3.
作为最小均准则的拓广,本文从数据熵,数据熵差引进最小均熵差准则,并应用于数据与模式聚类;给出基予最小均熵差准则的动态聚类算法与系统聚类算法,最后通过一个应用示例说明这一最小均熵差准则模式聚类的有效性与优越性。  相似文献   

4.
在格式塔原则下对建筑群进行聚类是计算机理解建筑群空间分布特征并实现地图自动综合的基础.在格式塔原则约束下,首先,利用最小生成树的阈值聚类及参数聚类,实现了对集中和分散均匀排列建筑群空间分布特征的挖掘,并利用■值定量评价了挖掘质量;其次,提出了阈值聚类和参数聚类的异同,以及阈值聚类具有局限性的原因;最后,根据建筑物语义特征获得最终聚类结果.试验表明:1)传统的MST阈值聚类不能维持分散均匀排列建筑群的空间分布特征;2)MST参数聚类的适应性要高于阈值聚类,更加符合人类的视觉认知.该方法更有助于提高计算机对建筑群空间分布的智能理解能力.  相似文献   

5.
针对传统K-eans 算法因初始聚类中心的随机性而导致聚类结果产生很大的波动性问题, 提出一种基于最小距离乘积聚类算法CAMDP(Clustering Algorithm based on Min-Distance Product), 利用数次抽样技术, 在得到的聚类中心集合上继续使用最小乘积法寻找最佳的初始聚类中心, 较大程度减少了K-eans聚类算法对初值选取的随机性。实验结果表明: 改进后的K-eans算法既考虑了网络结构的拓扑信息, 又考虑了节点的属性特征, 为社区划分提供了有力的决策支持。  相似文献   

6.
针对当前三支聚类方法不能有效处理数值型数据,且三支聚类结果受阈值影响问题,文章基于邻域关系提出了确定合适阈值的三支聚类方法。首先给出了确定最优K值的改进K-means聚类算法。进而基于邻域关系下的下、上近似引入精度,提出了权衡边界域和精度关系的有效性评价指标。应用该指标,给出了确定邻域下、上近似中最佳阈值的构建算法,进而得到三支聚类的核心域和边界域。最后,通过UCI数据集上的实验验证了该方法的可行性,且该方法有效提高了聚类精度。  相似文献   

7.
提出了一种通过调整减法聚类半径优选模糊规则的软测量建模方法。首先用减法聚类建立T—S模糊模型,然后通过调整聚类半径优选模糊规则数,以取得具有良好泛化性能的模型,之后利用梯度下降混合最小二乘算法精调参数。最后用该方法对初馏塔石脑油干点进行软测量建模,结果表明能较快确定优化模型,并能满足软测量建模精度要求。  相似文献   

8.
基于聚类分析的油气成因类型判别   总被引:1,自引:0,他引:1  
油气成因类型的确定是油气成藏研究的重要基础,常规的定性描述与经验公式存在一定的局限。聚类分析从数学模型入手,通过相似统计量来衡量地质样品或分析指标间的相关性。通过介绍了树状聚类、逐步聚类和双向聚类的原理和方法,并分别应用于油气成因类型研究中,结果表明聚类分析适合多要求下的成因判别,克服了常规方法的局限,判别结果清楚、正确。  相似文献   

9.
基于人工神经网络的多媒体语音特征挖掘   总被引:1,自引:0,他引:1  
提出了一种基于人工神经网络的聋儿语音训练识别的多媒体特征挖掘技术,构造了邻域三层神经元合作竞争的动态运行为神经元模型,实验选取了动态递减函数、动态最小覆盖矩阵和动态确定阈值形成的SOLA挖掘算法,以及聚类分布的网络图技术,解决了聋语音训练系统中基本语音识别的难题。  相似文献   

10.
基于势能的快速凝聚层次聚类算法使用一种全新的相似性度量准则,可以更高效地得到聚类结果。针对该算法无法有效处理含噪声的复杂流形数据的缺陷,提出噪声环境下复杂流形数据的势能层次聚类算法。通过势能递增曲线识别噪声点,在新定义的势能最大、最小2层数据上进行自动聚类,以确定类簇的大体框架,并在此基础上对整个数据集进行层次聚类。人工数据集上的实验表明,新算法可以有效处理噪声环境下复杂流形数据;真实数据集上的实验表明,新算法具有更优的聚类效果。  相似文献   

11.
K-均值算法中聚类个数优化问题研究   总被引:6,自引:1,他引:5  
在传统的K-均值聚类算法中,聚类数K必须事先给定,然而,实际中K值很难被精确的确定,K值是否合理直接影响着K-均值算法的好坏。针对这个缺点,提出一种优化聚类数算法,根据聚类算法中类内相似度最大差异度最小和类间差异度最大相似度最小的基本原则,构建了距离评价函数F(S,K)作为最佳聚类数的检验函数,建立了相应的数学模型,并通过仿真实验进一步验证了新算法的有效性。  相似文献   

12.
李航 《科学技术与工程》2012,12(9):2163-2166
本文基于数学统学中的聚类理论提出了一种划分储层砂体渗流能力级别的方法:砂体渗流能力聚类法。运用该方法对油藏各个井点的地质属性数据进行聚类分析,将每个小层上各个井点的渗流能力分为若干级别,并对井点之间储层的渗流能力级别进行插值出图,从而得到不同小层的储层渗流能力聚类图,该图能直观的反应小层各个区域渗流能力,最后本文用大庆某采油厂某区快进行实例分析并给出聚类结果。  相似文献   

13.
从手写文档图像中提取出文本行是文档分析的一个重要预处理步骤,但是由于手写文本行之间通常行方向不平行,甚至存在着交叠和弯曲,所以它仍然是一个具有挑战性的问题. 针对该问题,提出了一种基于高阶相关聚类的脱机中文手写文本行的分割算法.首先,使用连通部件构成一个文档超图,然后,在学习所得的相似性度量准则的约束下,通过高阶相关聚类算法将连通部件对标记为属于或者不属于同一文本行;最后,使用union­find算法将连通部件连接成为不同的文本行.该算法在HIT­MW脱机手写数据库上的803幅文档上取得了较好的效果,召回率99.05%,错误率为1.96%.  相似文献   

14.
逆向Skyline查询能够应用到诸如决策支持、用户偏好支持以及市场行为分析等方面。由于参考对象q的存在,在执行逆向Skyline查询的过程中数据空间被划分成许多分区。然而,存在的算法都没有考虑这个问题的影响,直接使用原始数据集建立索引结构。本文提出了一种新的逆向Skyline查询方法CRSQ,它考虑了这个问题。CRSQ首先根据查询对象q对数据进行聚类,然后建立R-tree索引,最后利用高效修剪策略修剪索引搜索空间。实验结果表明CRSQ算法是有效的,它相对于没有聚类技术的算法获得了50%以上的性能提高。  相似文献   

15.
针对一类具有切换结构的混杂系统,提出一种基于仿射传播聚类的模型辨识方法。将模型辨识问题等价成对系统数据的分类和分类数据的回归问题。通过仿射传播聚类算法对样本数据进行聚类划分,并分别采用最小二乘支持向量机算法对子样本分别建立模型。仿真结果验证了该方法的有效性和实用性。  相似文献   

16.
基于最小二乘支持向量机的TSK模糊模型   总被引:2,自引:0,他引:2  
为了提高模糊系统处理高维问题的推广能力, 本文提出用最小二乘支持向量回归机(LSSVR)的思想设计TSK模糊模型.TSK模糊模型的传统算法普遍存在过学习问题, 为此我们在目标函数中考虑了结构风险从而避免了过学习现象.并且,我们将模糊系统的参数寻优问题转化为一个二次规划问题进行求解.由于该规划问题的求解与输入数据维数无关,适用于处理高维数据.算法分为两步:首先用Gustafsonk-Kessel (GK)算法确定模糊规则的前件;然后用最小二乘支持向量算法确定模糊规则的后件,这里的核函数是由模糊聚类确定的, 经证明它是Mercer核.三个著名数据的实验结果表明,与TSK模糊系统的传统算法相比,本文所提的算法提高了TSK模糊系统处理高维问题的推广能力;与LSSVR相比,,本文所提的算法具有良好的鲁棒性.  相似文献   

17.
现实中有很多样本数据是二维的,且多数聚类方法需将二维样本数据向量化,从而导致二维数据的内部几何信息丢失.针对这一问题,提出二维最小二乘回归子空间分割方法直接对二维数据进行聚类,将一维最小二乘回归子空间分割方法推广到二维,使得原始数据的结构信息得以保留.在人脸数据集和哥伦比亚大学图像数据集上进行实验,结果表明该方法是有效的.  相似文献   

18.
0 IntroductionText clusteringis the process of grouping the documentsinto the classes or clusters so that documents within acluster have high si milarityin comparisonto one another ,butare very dissi milar to documents in other clusters .In applica-tions ,the document is always represented by vector spacemodel(VSM) in which each document is represented as a vec-tor and each unique termis of one di mension of this vector .Then,documents are clustered bycalculating distance or si mi-larity[1], …  相似文献   

19.
The performance of automatic speech recognizer degrades seriously when there are mismatches between the training and testing conditions. Vector Taylor Series (VTS) approach has been used to compensate mismatches caused by additive noise and convolutive channel distortion in the cepstral domain, in this paper, the conventional VTS is extended by incorporating noise clustering into its EM iteration procedure, improving its compensation effectiveness under non-stationary noisy environments. Recognition experiments under babble and exhibition noisy environments demonstrate that the new algorithm achieves 35% average error rate reduction compared with the conventional VTS.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号