首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 748 毫秒
1.
一种聚类挖掘软件数据的方法   总被引:1,自引:2,他引:1  
提出了一种聚类挖掘软件数据的方法。首先将一组软件数据的最可能分类情况称为“中心知识”。将该组数据的所有可能分类结果称为“知识的浮动域”,最后将“中心知识”对应分类的可信程度称为“知识的正确度”。分类结果的评价标准主要考虑到:分类数目适中,每个类内半径尽可能小,类间距离尽可能大的分类结果具有较高的评价分数。进行的“软件数据挖掘实验”结果表明,这种方法更加准确、更加切合实际。从理论和实践上证明了软件数据挖掘具有广阔的发展前景。  相似文献   

2.
确定“最佳聚类数”一直是聚类算法面临的一个难题。为了确定一族合理的聚类数而不是单个聚类数,提出了一种基于谱分析的算法,并能处理较为复杂的数据集。该算法构建了数据点之间的相似度图,在不同的分析粒度下,用图上的“随机游走”来传播相似度,采用了一个新的评判标准,“广义特征差”来寻找聚类数族。实验结果表明该算法在聚类数不唯一的情况下能够有效地确定聚类数,并且和其他几种算法相比具有较优的计算复杂度。  相似文献   

3.
将万有引力和牛顿第二运动定律的思想引入到聚类分析中,提出了一种基于引力的聚类算法CABG.该算法可以自动决定目标数据集中的簇的个数,并且能发现任意形状的簇且可以过滤“噪声”数据.实验结果表明CABG可以产生高质量的聚类结果.  相似文献   

4.
廖文彬 《科技资讯》2006,(21):181-182
文中设计了一个3层径向基神经网络(RBFN)用于对企业的5项评价指标进行聚类分析,并与蚁群算法做了比较分析。RBFN由输入层到隐含层采用传统的K-均值算法,隐含层到输出层通过“模2递减”学习速率的BP学习;蚁群算法根据信息素的分配能够自动调整收索路径,从而达到数据自动聚类的目的。结果表明,与蚁群算法相比,改进RBFN具有快速收敛、自动识别奇异样本的优点,而蚁群算法无须教师学习,并能够达到全局最优。  相似文献   

5.
应用灰色关联原理对江西省高新区外高新技术产业科技实力的众多指标进行筛选和组合,建立科技实力评价指标体系,根据相对灰类划分的灰色定权聚类评价方法,对江西省高新区外高新技术产业“十五”期间的科技实力进行了评价分析。结果表明,江西省高新区外高新技术产业科技实力由属于较弱灰类迈入较强灰类,科技实力得到了大幅度提升。  相似文献   

6.
近几年,数据流聚类算法逐渐发展成分层的算法框架。通常情况下,分层聚类算法将算法结构分为两个部分:“在线层”和“离线层”,本文提出了一种新算法(DenCluStream),可用于挖掘数据流中具有任意形状的簇。  相似文献   

7.
针对椭球单元网络在应用中存在的一些问题,提出了改进措施。这些措施主要围绕改进网络的分类能力和表达能力、合理确定网络结构、避免错误泛化等。通过进行聚类初始化处理和引入有界椭球,改进了BP算法;通过在网络训练过程中引入“节点分裂”和“节点修剪”机制,使得训练后的网络结构更为合理,能适应实际问题的需要;工建议在聚类样本送入网络训练前,先进行PCA处理,以确定更为合理的椭球轴向和降低椭球维数,进一步达到缩短训练时间、增强泛化能力的目的。在CSTR故障诊断中的应用表明:改进的椭球单元网络(BPE)具有任意的非线性分界能力、描述紧邻非线性界面的能力和避免对未知故障类空间进行任意划分的能力。  相似文献   

8.
Kohonen聚类神经网络(KCN)在处理数据集的聚类问题时具有良好的准确性.但KCN算法在随机选取初始权值时存在不足,而且在处理存在孤立点和“噪声”时算法鲁棒性和可靠性较差.使用数据场的概念对KCN聚类算法进行了有益的改进.实验表明,改进后的算法相对于随机选取初始权值具有较高的准确率。摘要:Kohonen聚类神经网络(KCN)在处理数据集的聚类问题时具有良好的准确性.但KCN算法在随机选取初始权值时存在不足,而且在处理存在孤立点和“噪声”时算法鲁棒性和可靠性较差.使用数据场的概念对KCN聚类算法进行了有益的改进.实验表明.改进后的算法相对于随机选取初始权值具有较高的准确率.  相似文献   

9.
检索和整理2011—2020年中国知网的绿色创新主题文献,对发文量、发文地区、关键词、来源期刊等信息开展数据与可视化分析,在此基础上利用TF IDF方法和CiteSpace工具对文献的关联度、聚类特征、共现关系及演进趋势特征进行深入研究。研究发现:近10年来我国绿色创新主题文献数增长迅速,其中北京、广东等东部省市发文量处于领先;文献聚类分析模型结构稳定,绿色创新效率是近年来高被引论文的关注热点,“绿色制造”“环境规制”等是文献热点关键词;研究整体呈现“概念界定-融合拓展-绩效探索-模型优化”的时线脉络。基于上述结论,未来应加强对绿色创新的绩效测算、空间联动机制、演化博弈等方向的研究。  相似文献   

10.
一种增量式文本软聚类算法   总被引:1,自引:0,他引:1  
针对传统文本聚类算法时间复杂度较高,而与距离无关的算法又不适用于动态、变化的文本集等问题,提出了一种基于语义序列的增量式文本软聚类算法.该算法考虑了长文本的多主题特性,并利用语义序列相似关系计算相似语义序列集合的覆盖度,同时将每次选择的具有最小熵重叠值的候选类作为一个结果聚类,这样在整个聚类的过程中大大减小了文本向量空间的维数,缩短了计算时间.由于所提算法的语义序列只与文本自身相关,所以它适用于增量式聚类.实验结果表明,算法的聚类精度高于同条件下的其他聚类算法,尤其适合于长文本集的软聚类.  相似文献   

11.
覆盖聚类算法   总被引:9,自引:0,他引:9  
首先比较几类主要的聚类算法,给出每类算法的基本概念、原理、每类的代表性算法,及这些算法的主要特征。在此分析基础上,提出一种新的聚类算法———覆盖聚类算法,该算法采用覆盖的概念将比较集中的样本聚合在一起,从而发现隐含在样本集中的类,对于周围稀疏的样本结合最短距离法,获得聚类效果,并用实验数据对分层聚类方法、LBG方法与覆盖聚类算法进行比较,证明了覆盖聚类算法的可行性和有效性。最后给出了算法的研究方向。  相似文献   

12.
基于山峰聚类的聚类上限确定方法   总被引:1,自引:0,他引:1  
文章提出了一种基于山峰聚类的聚类上限检测方法,依靠山峰聚类确定聚类数目的上限,仿真试验表明,这种方法能将聚类上限确定在一个合理的范围之内,从而加快聚类的效率.  相似文献   

13.
We propose a new clustering algorithm that assists the researchers to quickly and accurately analyze data. We call this algorithm Combined Density-based and Constraint-based Algorithm (CDC). CDC consists of two phases. In the first phase, CDC employs the idea of density-based clustering algorithm to split the original data into a number of fragmented clusters. At the same time, CDC cuts off the noises and outliers. In the second phase, CDC employs the concept of K-means clustering algorithm to select a greater cluster to be the center. Then, the greater cluster merges some smaller clusters which satisfy some constraint rules.Due to the merged clusters around the center cluster, the clustering results show high accu racy. Moreover, CDC reduces the calculations and speeds up the clustering process. In this paper, the accuracy of CDC is evaluated and compared with those of K-means, hierarchical clustering, and the genetic clustering algorithm (GCA)proposed in 2004. Experimental results show that CDC has better performance.  相似文献   

14.
Conceptual clustering is mainly used for solving the deficiency and incompleteness of domain knowledge. Based on conceptual clustering technology and aiming at theinstitutional framework and characteristic of Web theme informauon, this paper proposes and implements dynamic conceptual clustering algorithm and merging algorithm for Web documents, and also analyses the super performance of the clustering algorithm in efficiency and clustering accuracy.  相似文献   

15.
针对k-prototype算法在处理复杂的数据集时,常出现一些纯度不高的簇,影响了聚类质量的问题,提出一种基于k-prototype的多层次聚类改进算法,利用属性自动选择的方法将一些纯度不高的簇进行再聚类,以提高聚类质量.以UCI标准测试数据集进行实验,实验结果表明,该改进算法能够明显提高混合型数据集的聚类质量,并且在数据约简方面有良好表现.  相似文献   

16.
一种新的层次谱聚类算法   总被引:1,自引:1,他引:0  
提出一种新的聚类算法——层次谱聚类算法.该算法在传统二分的SM谱聚类的过程中嵌入了层次聚类算法,目的是为了提高谱聚类的聚类正确率,同时又利用谱聚类纠正了层次聚类过程中所得到的歪斜划分.实验结果表明:提出的层次谱聚类算法的聚类正确率比层次聚类算法、谱聚类算法的聚类正确率都要高,同时又纠正了层次聚类过程中的歪斜划分.  相似文献   

17.
18.
在数据挖掘领域,聚类用于发现数据的分布模式和数据间的相互关系.作者提出一种分层聚类算法,可识大规模、高维数据.该算法首先从不同的角度对电信客户进行聚类或分类,然后以这些聚类为基础,实行自底向上的层次聚类得到最终的聚类结果.算法执行效率高,适合大规模数据的聚类问题.该方法在某电信企业的客户分析中取得了较好的结果.  相似文献   

19.
为了定量分析聚类算法的聚类结果,提出了基于引力概念的聚类质量评估算法.该算法将数据空间中的数据点视为带有单位质量的质点,通过分析聚类结果中数据点之间的引力关系来评估聚类结果的质量.在一个聚类结果中,各类中的数据点之间引力大并且噪音数据受到的引力小,这样的聚类结果视为质量较高的聚类结果.相反,如果类中数据间的引力较小而噪音数据所受到的引力较大,这样的聚类结果就是一个质量不高的聚类结果.在几个不同的数据集上,对算法的有效性和高效性进行了测试.实验结果表明,该算法能在极短的响应时间内得到聚类结果评估值,正确地反映聚类结果的优劣.提出的算法可以引导聚类方法自动发现最佳聚类结果而无需人工干预.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号