首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 406 毫秒
1.
为数据集选择合适的聚类算法是获得高质量聚类结果的前提和保障.提出了基于有效性指标的聚类算法选择方法,通过对不同聚类算法的聚类结果的质量评价为数据集选择最适合的聚类算法.该方法的优点是在对数据集的情况了解甚少的情况下,也能有效地保障聚类质量.实验结果表明本文方法十分有效,为实验数据集正确选择出最适合的聚类算法,并获得了高质量的聚类结果.  相似文献   

2.
针对谱聚类性能优异但因计算复杂度太高而无法应用于大数据的问题,提出一种将谱聚类应用于大数据的新算法.首先,基于数据相似性与随机抽样选取核心点集,并利用核心集对大数据分组;然后在核心集上应用谱聚类;最后综合核心集的聚类结果和数据的分组信息完成大数据聚类.该算法既将谱聚类推广到大数据,又通过核心点选取降低了噪声及异常数据的影响.实验充分验证了推广后的谱聚类应用于大数据的高效性.  相似文献   

3.
为了定量分析聚类算法的聚类结果,提出了基于引力概念的聚类质量评估算法.该算法将数据空间中的数据点视为带有单位质量的质点,通过分析聚类结果中数据点之间的引力关系来评估聚类结果的质量.在一个聚类结果中,各类中的数据点之间引力大并且噪音数据受到的引力小,这样的聚类结果视为质量较高的聚类结果.相反,如果类中数据间的引力较小而噪音数据所受到的引力较大,这样的聚类结果就是一个质量不高的聚类结果.在几个不同的数据集上,对算法的有效性和高效性进行了测试.实验结果表明,该算法能在极短的响应时间内得到聚类结果评估值,正确地反映聚类结果的优劣.提出的算法可以引导聚类方法自动发现最佳聚类结果而无需人工干预.  相似文献   

4.
随着大数据时代的到来,大量的高维数据在生活中无处不在.聚类是分析描述数据并按照某种相似性将数据归类的一项技术.传统聚类算法在面对高维数据时,往往无法进行有效的聚类处理.软子空间聚类是通过分配权重,描述样本隶属于不同簇的不确定性来进行聚类,然而,当数据残缺或信息不准时,现有的软子空间聚类的准确度和效率会受到很大的影响.从软子空间聚类面临的问题出发,提出一种改进的软子空间聚类算法;同时针对数据残缺不足的问题,引入迁移学习来削弱数据量不足对聚类分析的影响;通过引入信息熵的概念,用信息熵确定高维数据权重.实验证明,通过结合迁移学习和信息熵,有效地提高了软子空间聚类算法精确度和准确度.  相似文献   

5.
针对微阵列芯片数据采集量大、 获取成本高的问题, 提出一种新的基于灰值区间的微阵列模拟数据生成算法. 该算法通过灰值度量的方式模拟微阵列数据中基因的差异表达属性, 结合聚类分析方法创建聚类隧道, 进而产生与原始数据具有相似数理分布及生物学意义的模拟数据. 采用模拟数据和真实生物数据对算法进行实验验 证与分析, 实验结果表明, 基于灰值区间理念与聚类隧道产生机制生成的模拟数据是有效且可靠的.  相似文献   

6.
灰色关联聚类是灰色系统分析的重要研究领域.现有的灰关联聚类方法在处理不同长度序列数据时,通常采用补齐或删除数据方式进行处理,增加了系统的不确定性.在动态时间弯曲距离基础上,提出了一种新的灰关联聚类方法,通过计算序列间距离矩阵的最短路径来度量相似程度,最终完成序列的灰关联聚类.该方法无需对序列数据进行人工干预,具有更强的鲁棒性.实验结果表明,在处理不同长度数据序列时,聚类结果更为准确.  相似文献   

7.
对不平衡数据进行聚类分析时,K-means聚类方法可能会错误地将分布在较小区域类别中的样本划分到大区域类别中;谱聚类算法,虽然可以有效优化数据结构,并很好地识别不同形状的样本,但却难以处理大规模数据.针对这些问题,提出一种改进地标点采样的不平衡数据聚类算法.该算法首先对不平衡数据进行预聚类以获得初始类标签,然后基于数据密度对数据进行采样.在此基础上,通过对采样数据执行K-means聚类,并将聚类中心作为地标点,对数据进行谱聚类分析.实验结果显示,该方法在处理不平衡数据时,不仅能够有效提高样本的聚类准确率,而且能够保证聚类结果的稳定性和精度.  相似文献   

8.
结合数据相关性的分析、模糊C均值聚类和模糊分类系数的确定方法 ,给出了气象观测站优化调整的综合模型 .给出的模型综合考虑了聚类结果和数据的相关性 ,在最大限度地保持信息量的同时 ,对冗余的信息进行排除 .也可用于如实验、调查数据整理等方面的数据处理  相似文献   

9.
博客聚类是处理博客信息的有效方法,提出基于评论修正的博客页面聚类算法.首先分析博客所包含的信息层次结构,然后利用博客页面的通用属性构建博客属性模型,基于博客属性模型对博客页面进行聚类,并且在初次聚类的基础上利用博文的评论对聚类结果进行修正.采用通用的熵和纯净度来衡量聚类结果,根据评论利用方式的不同,设计了两种实验方案:一个实验直接使用评论参与聚类,另一个将评论作为聚类后的修正手段.实验结果对比表明,在大多数情况下,利用评论作为修正手段的聚类效果要优于直接利用评论参与聚类.  相似文献   

10.
聚类是大数据时代对海量数据进行数据挖掘与分析的重要工具.本文基于密度峰值聚类算法提出了针对高维数据的聚类模型,以直接简单的形式实现六维度以上数据的任意形状聚类.该模型实现了自动预处理过程,以局部密度较大且距离其他局部密度较大点较远的点作为聚类中心,最后引入参数调整.实验结果表明,该模型不仅对低维数据聚类实用,在高维数据的聚类效果也非常显著.  相似文献   

11.
朱晓姝  蒙霜  龙法宁 《广西科学》2023,30(4):764-775
单细胞转录组测序(single-cell RNA-sequencing, scRNA-seq)数据具有高稀疏性、高噪声、高维度、结构信息和位置信息缺乏等特点,且数据规模迅速增大,使得单细胞聚类面临较大的挑战。为便于对不同的scRNA-seq数据选择合适的分析方法,本研究对scRNA-seq数据的质量控制、基因选择和聚类等方法进行比较分析。首先,分析质量控制中过滤和归一化的方法及其阈值设置;然后,从模型因子、测序技术、方法局限性和优势等方面,对6种典型的基因选择方法进行比较;最后,详细阐述6种典型的单细胞聚类方法,并分析其适用的数据规模和优缺点。收集14个带有真实标签的金标准scRNA-seq数据集,包括5个全长测序数据集和9个双端测序数据集,其中5个数据集包含的细胞数大于3 000个,对6种典型的基因选择方法和6种单细胞聚类方法进行实验比较,分析它们在识别高差异基因时和在聚类性能上的差异。结果发现,不同的基因选择方法在Adam和Wang_Lung数据集分别可以检测到182个和124个共有基因,以及一些独有基因。此外,Seurat、SC3、Monocle 3和scDeepCluster的...  相似文献   

12.
聚类算法是数据挖掘中的核心技术 ,虽然聚类算法已被广泛深入的研究 ,但其应用在数据挖掘领域时间不长 ,其间产生了许多不同的适用于数据挖掘的聚类算法 ,但这些算法仅适用于特定的问题及用户 .为了更好的使用这些算法 ,综合提出了评价聚类算法好坏的 5个标准 ,基于这 5个标准 ,对数据挖掘中近几年提出的常用聚类方法作了比较分析 ,以利于人们更容易、更快速的找到一种适用于特定问题的聚类算法  相似文献   

13.
随着数据挖掘技术研究的进步与发展,并伴随着大数据概念的提出,将为数据挖掘技术的发展和应用带来一个很大的机遇,数据挖掘技术将进入一个新的发展时期.文章全面介绍了大数据,数据挖掘的基本概念以及数据挖掘的分析方法,最后给出了大数据时代的挖掘技术的应用领域及将来发展方向.  相似文献   

14.
 随着IT 技术的高速发展,世界范围内各行各业都在进行信息化变革,几乎每个行业都在努力发现和利用大数据的价值。为了充分利用大数据带来的机遇,同时有效应对大数据带来的挑战,国内外产业界、科学界和政府部门都在积极布局、制定战略规划。本文介绍大数据背景与动态,描述各国大数据政策实践及中国大数据发展的政策环境和产业界生态发展状况;阐述大数据技术的进展,梳理其生态体系和创新特点;提出大数据可视化、多学科融合、安全与隐私、深度分析等发展趋势和相关建议。  相似文献   

15.
冷泳林  张清辰  鲁富宇 《河南科学》2014,(11):2259-2262
数据采集过程中存在大量缺失数据,即不完整数据.传统方法在聚类不完整数据时采用填充或丢弃缺失数据方式实现数据的聚类.依据不完整信息系统理论提出一种基于K-means的不完整数据聚类算法,算法首先将数据集划分成完整数据集和非完整数据集两部分,对完整数据集采用K-means算法进行聚类,然后将不完整数据依据设计的相似度度量方法划分到对应的簇中,实现数据集的聚类.实验结果表明,提出的方法能够高效、精确地实现不完整数据聚类.  相似文献   

16.
数据挖掘领域中的聚类方法   总被引:4,自引:0,他引:4  
聚类算法是数据挖掘中的核心技术,随着对聚类算法广泛深入的研究,产生了许多不同的适用于数据挖掘的聚类算法;文章从算法的角度论述了如何在数据挖掘中进行聚类分析,并通过基于评价聚类算法好坏的8个标准,对数据挖掘中近几年提出的常用聚类方法作了比较分析,以利于人们更容易、更快速的找到一种适用于特定问题的聚类算法.  相似文献   

17.
何菊香  王徵羽 《科技促进发展》2020,16(10):1164-1174
随着金融科技的迅速发展,大数据技术与证券投资的结合日益紧密,大数据基金应运而生,且越来越受到行业的重视。本文遴选18只大数据基金和6只投资结构类似的传统型基金,利用2018年4月1日到2020年3月31日相关数据从收益水平、风险状况、风险调整后收益、业绩归属能力对大数据基金进行考察,运用主成分分析法进行综合评价,并与传统型基金进行了对比分析。研究表明,与传统型基金相比,在考察期内,大数据基金的业绩表现更好,其中,被动指数型基金在各项指标上的优势更为明显,而主动管理型基金的优势相对较弱。  相似文献   

18.
随着人工智能技术在大数据与高性能计算的推动下飞速发展,涌现出大量创新性的方法,对现有的数据安全与脱敏方法带来了诸多挑战。从当今大数据与智能技术发展的现状入手,讨论了数据脱敏技术的内涵、工作流程、系统机制、典型脱敏案例,展望了未来数据脱敏技术的发展趋势,从技术、需求和法治、管理机制方面提出了一些数据脱敏的建议。  相似文献   

19.
Microarray technology, which permits rapid and large-scale screening for patterns of gene expressions, usually generates a large amount of data. How to mine the biological meanings under these data is one of the main challenges in bioinformatics. Compared to the pure mathematical techniques, those methods incorporated with some prior biological knowledge generally bring better interpretations. Recently, a new analysis, in which the knowledge of biological networks such as metabolic network and protein interaction network is introduced, is widely applied to microarray data analysis. The microarray data analysis based on biological networks contains two main research aspects: identification of active components in biological networks and assessment of gene sets significance. In this paper, we briefly review the progress of these two categories of analyses, especially some representative methods.  相似文献   

20.
大数据是时代发展的潮流,它的采用将引起图书馆业务管理模式的全面改革,也将为整个信息社会的全面发展提供强有力的服务保障。阐述了大数据及云技术的发展与应用现状,并对大数据在图书馆的应用优势和存在问题进行了分析,以期对相关理论的发展有所贡献。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号