首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
多维数据的聚类结果可视化技术综述   总被引:1,自引:0,他引:1  
在很多情况下,人们不仅需要聚类算法给出类标,还需要掌握聚类结构和数据分布情况.为满足后一项需求,出现了许多聚类结果的可视化(简称聚类可视化)技术,以图形的方式将多维数据和其聚类结果显示在二维或三维空间.从直接在二维或三维空间显示数据及其聚类结果、数据经降维(或映射)后显示以及其它显示方式3种角度综述了常用的30多种聚类可视化方法,并对各种方法的优缺点和适用性进行了分析和讨论.  相似文献   

2.
自组织特征映射网络的分析与应用   总被引:1,自引:0,他引:1  
数据挖掘的方法主要包括检索和分类两类,而各自都有缺陷.针对这些缺点提出先利用自组织映射的方法对采集的数据进行聚类和可视化,获得一些关于采集到的数据的初步信息.自组织映射法的目的是一个将高维数据非线性的投到一个预先定义好的二维拓扑中.它通过竞争学习的方法达到了降维、聚类、可视化的目的.  相似文献   

3.
处理数量巨大且富含多维信息的数据正成为人们关注的热点,可视化技术为分析和处理海量信息提供了新的手段.SOM能够通过自组织的方式实现高维数据的降维.本文介绍了基于SOM法的多维信息可视化技术.该方法先通过SOM矢量量化法建立原型矢量,然后通过SOM的批量训练实现降维,并用多维比例缩放法实现降维后的数据在低维空间坐标上的投影.在此基础上,分别阐述了地图网格映射、基于聚类的可视化和基于变量的可视化3种可视化方法.论文最后用SOM方法对2003年中国非典的多维信息进行了可视化分析,验证了该方法的实用性.  相似文献   

4.
数据挖掘的方法主要包括检索和分类两类,而各自都有缺陷。针对这些缺点提出先利用自组织映射的方法对采集的数据进行聚类和可视化,获得一些关于采集到的数据的初步信息。自组织映射法的目的是一个将高维数据非线性的投到一个预先定义好的二维拓扑中。它通过竞争学习的方法达到了降维、聚类、可视化的目的。  相似文献   

5.
面向通用数据资源,研究聚类数据可视化方法与技术,旨在探索有效的数据处理方法,满足信息领域对高维数据处理的要求。通过对高维数据进行降维处理和可视化映射实现,建立K均值算法的聚类数据挖掘可视化系统模型,实现中间聚簇结果、聚类中心、收敛准则函数值三类要素的可视化。利用加利福利亚大学欧文分校(UCI)数据库中的Iris数据集、Wine数据集、Seeds数据集对可视化系统模型方法进行测试。结果表明,该模型实现了对数据集的有效聚类,能够将中间聚类、聚类中心、收敛准则函数值进行实时有效的可视化表达,达到了预期效果。  相似文献   

6.
当样本数多、数据维数高时,利用Kohonen自组织特征映射聚类后相邻类簇间容易发生大面积重叠,导致聚类和可视化的效果降低.利用Ultsch涌现自组织特征映射神经网络对测井数据进行聚类,而后分别通过分量图、U矩阵和P矩阵在超环面上进行可视化,并对其结果进行比较分析.该模型可克服Kohonen自组织特征映射的上述缺陷,优化聚类结果.借助该模型进行测井数据的聚类分析与可视化,可为岩性识别提供参考.  相似文献   

7.
合成生物学中标准化元件数量多、种类杂,使得构建生物设备时难以选择标准化元件,将这些元件可视化有助于提高生物设备构建效率。考虑生物元件为长度不一的基因短序列,文章通过结合编辑距离与高斯核函数构建生物元件距离矩阵,使用拉普拉斯特征映射方法将生物元件序列降为二维或三维数据;通过图形化展示,功能类似的生物元件可有效地聚类,功能差异大的元件可有效地区分,且对降维后数据聚类显示的二分类精度达到91.6%,三分类精度达到82.4%。实验结果表明,降维后的数据具有良好的区分度,通过降维可视化将显著提高标准化元件的选择效率。  相似文献   

8.
两种基于谱方法的流形学习算法研究   总被引:1,自引:1,他引:0  
流形学习方法是一种新型的非线性降维方法,它可以有效地对具有内在流形形式的非线性高维数据进行维数约简.目前,流形学习已被成功应用于聚类、可视化等数据挖掘领域,表现出卓越的性能.首先讨论了流形学习的研究现状,然后介绍了这一领域中影响最大的2种算法:局部线性嵌入算法和等距特征映射算法.  相似文献   

9.
一种基于半监督降维的聚类算法   总被引:1,自引:1,他引:0  
半监督聚类通过利用少量有标号样本或成对约束等监督信息来提高聚类性能.在此提出一种新颖的基于半监督降维的聚类算法,首先用半监督降维方法对原始数据进行降维,然后在降维后的空间中进行半监督聚类.由于在降维和聚类两个阶段中都利用了监督信息,从而使得算法的聚类性能得到进一步提升.在UCI标准数据集、yale人脸库以及文本数据集上的实验结果验证了该算法的有效性.  相似文献   

10.
根据语音信号的时变特性,提出了一种具有很好分类定位能力的语音可视化方法——局部线性嵌入(LLE)和模糊核聚类相结合的算法.通过利用LLE对提取的语音特征进行非线性降维,然后再利用模糊核聚类算法对其进行聚类分析,即利用Mercer核,将原始空间通过非线性映射到高维特征空间,在高维特征空间中对语音信号特征进行模糊核聚类分析.由于经过了核函数的映射,使原来没有显现的特征突现出来,从而能够更好地支持基于位置的语音可视化.以10名男生和10名女生在实验室环境下的720个语音资料(汉语元音)作为样本进行了试验,试验结果验证了该方法的可行性和有效性.  相似文献   

11.
分析数据挖掘与信息可视化之间的关系,介绍如何对关联分析和分类、聚类分析的结果进行可视化研究,探讨实现数据挖掘结果可视化的技术手段。  相似文献   

12.
介绍了文本聚类的有效性的概念及三种最常用文本聚类有效性的评价方法F-measue、正确率、数据可视化技术.通过实例进一步分析说明这三种方法各自的优缺点及其适用的范围.  相似文献   

13.
本文说明了数据挖掘中可视化技术应用的特点与方法,给出了数据挖掘中可视对象与参数的确定及算法分解的方法,并给出基于平行坐标技术的聚类算法的可视化方法与平行坐标的度量模型,以及在K-means算法上的应用方法.结果表明这种方法对于数据及聚类算法K-means的数据挖掘过程的可视化表示是有效的.  相似文献   

14.
平行坐标可视化是数据可视化方法中的典型代表.在平行坐标法可视化的基本原理的基础上,实现了在数据可视化过程中嵌入维度限制条件,探讨了在维约束条件下的平行坐标可视化技术.以海洋监测台站数据为例,开发了DBSCAN聚类算法,并利用平行坐标对聚类的结果进行可视化表达.  相似文献   

15.
基因表达模式分析及软件系统   总被引:2,自引:0,他引:2  
研究和实现了4种基因表达模式的聚类方法,开发了基因表达模式分析软件系统.该软件包含了两两平均连锁聚类法、系统聚类法、自组织特征映射法和模糊聚类等聚类算法,其中模糊聚类算法是首次用于基因表达模式分析.该软件同时具有数据过滤、多种相似性度量选择、聚类方法选择和结果可视化等功能.对于同一组基因表达数据,可通过不同的聚类算法的组合,提供更多的基因分类信息,为生物体复杂的基因表达模式研究提供了一个重要的综合分析平台.  相似文献   

16.
信息可视化研究综述   总被引:4,自引:0,他引:4       下载免费PDF全文
信息可视化是可视化技术在非空间数据领域的应用,可以增强数据呈现效果,让用户以直观交互的方式实现对数据的观察和浏览,从而发现数据中隐藏的特征、关系和模式。可视化应用非常广泛,主要涉及领域:数据挖掘可视化、网络数据可视化、社交可视化、交通可视化、文本可视化、生物医药可视化等等。根据CARD可视化模型可以将信息可视化的过程分为以下几个阶段:数据预处理;绘制;显示和交互。根据SHNEIDERMAN的分类,信息可视化的数据分为以下几类:一维数据、二维数据、三维数据、多维数据、时态数据、层次数据和网络数据。其中针对后4种数据的可视化是当前研究的热点。多维数据可视化方法主要包括基于几何的方法、图标方法和动画方法等。基于几何的可视化方式中最经典的就是"平行坐标系"方法。平行坐标系(parallel coordinates)使用平行的竖直轴线来代表维度,通过在轴上刻划多维数据的数值并用折线相连某一数据项在所有轴上的坐标点展示多维数据。平行坐标系方法能够简洁、快速地展示多维数据,发展出很多改进技术。但是当数据集的规模变得非常大时,密集的折线会引起"视觉混淆"(visual clutter),处理方法包括维度重排、交互方法、聚类、过滤、动画等。其他基于几何的方法包括Radviz方法使用圆形坐标系展示可视化结果;散点图矩阵(scatter plot matrix)将多维数据中的各个维度两两组合绘制成一系列的按规律排列的散点图。基于图标的可视化方法用具备可视特征的几何形状如大小、长度、形状、颜色等刻划数据,代表性的方法包括星绘法和Chernoff面法等。动画方法用于可视化中可被用来提高交互性和理解程度,其缺点包括可能分散注意力、引起用户的误解、产生"图表垃圾"等。时间序列数据是指具有时间属性的数据集,针对时间序列数据的可视化方法如下:线形图、堆积图、动画、地平线图、时间线。层次数据具有等级或层级关系。层次数据的可视化方法主要包括节点链接图和树图2种方式。其中树图(treemap)由一系列的嵌套环、块来展示层次数据。为了能展示更多的节点内容,一些基于"焦点+上下文"技术的交互方法被开发出来。包括"鱼眼"技术、几何变形、语义缩放、远离焦点的节点聚类技术等。网络数据具有网状结构。自动布局算法是网络数据可视化的核心,目前主要有以下3类:一是力导向布局(force-directed layout);二是分层布局(hierarchical layout);三是网格布局(grid layout)。当数据节点的连接很多时,容易产生边交叉现象,导致视觉混淆。解决边交叉现象的集束边(edge bundle)技术可以分为以下几类:力导向的集束边技术、层次集束边技术、基于几何的边聚类技术、多层凝聚集束边技术和基于网格的方法等。其他研究热点包括图形的视觉因素研究、自适应可视化研究、可视化效果的评估等。视觉因素对于可视化效果的影响,如位置、长度、面积、形状、色彩等影响已经引起很多研究者的注意。色彩是视觉因素的重要组成部分,研究主要集中在颜色选择的原则和交互系统中。这些原则基于数据类型、类的数量、认知约束等。自适应可视化可以提高信息可视化的适应性。研究成果分为以下几类:自适应可视化展示、自适应资源模型、自适应用户模型。自适应可视化展示是指根据用户的特征自动为用户提供多种展示类型,自动选择可视化内容及布局的形式,自动调整可视化的元素等。自适应资源模型反映了对硬件和软件的利用以提高可视化性能。自适应用户模型通过显示用户模型的内容并让用户能够编辑,从而让用户能够控制模型的内容。当前关于信息可视化评价的研究较少,少量研究也没有提出直接和通用的可视化的评估方式,需要对信息可视化评价的理论基础、方法和应用做深入的研究。可视化技术与应用还应该继续向以下4个方面努力:直观化、关联化、艺术化、交互化。信息可视化技术的发展方向是协同(collaboration)、分析过程(analytics)、计算(computational)和意会(sense-making)。未来研究方向可以包括以下几个内容。信息可视化和数据挖掘的紧密结合。为提高处理海量数据时的速度和效率和解决视觉混淆现象;必须运用数据挖掘的公式和算法,对数据分析的过程及结果进行可视化展现。协同可视化。协同可视化领域的研究方向可以包括可视化接口设计、基于Web的可视化协同平台开发、协同可视化工作的视图设计、协同可视化中的工作流管理及协同可视化技术的应用等。更多领域的应用技术开发。包括统计可视化:需要研究使用几何、动画、图像等工具对数据统计的过程和结果进行加工和处理的技术;新闻可视化:对新闻内容进行抓取、清洗和提取和可视化展示;社交网络可视化:可视化方式显示社交网络的数据,对社交网络中节点、关系及时空数据的集成展示。搜索日志可视化:针对在使用搜索引擎时产生的海量搜索日志,可视化的展现用户的搜索行为、关系和模式等。  相似文献   

17.
因特网上的数据规模大、动态性强,通常发现的知识或规则很可能是不精确和不完备的。为了克服以上不足,引入模糊理论,通过寻找模糊相似上近似集进行合理聚类,在确定聚类数目的过程中,利用平均信息熵进行最佳聚类。同时将模糊聚类算法嵌入WEKA平台,利用WEKA中的类和可视化功能,扩充了WEKA中的聚类算法。实验表明,算法对含有噪声的、分布不规则的大数据集具有很高的精度和收敛速度。  相似文献   

18.
面向随钻的井筒可视化方法研究   总被引:1,自引:0,他引:1  
针对随钻过程中数据的复杂多样性以及井下信息可视化的重要性,以随钻井轨迹数据和随钻测井数据为研究对象,研究并给出随钻井筒可视化建模的方法,建立立体井筒模型。基于成像原理给出钻遇地层可视化建模方法,建立地质属性映射模型,采用纹理技术实现二者的有机融合,真正实现随钻井筒的三维可视化。利用Open Inventor图形开发工具包,实现三维井筒的绘制和钻遇地层信息在三维井筒上的展示。  相似文献   

19.
A dynamic fuzzy clustering method is presented based on the genetic algorithm. By calculating the fuzzy dissimilarity between samples the essential associations among samples are modeled factually. The fuzzy dissimilarity between two samples is mapped into their Euclidean distance, that is, the high dimensional samples are mapped into the two-dimensional plane. The mapping is optimized globally by the genetic algorithm, which adjusts the coordinates of each sample, and thus the Euclidean distance, to approximate to the fuzzy dissimilarity between samples gradually. A key advantage of the proposed method is that the clustering is independent of the space distribution of input samples, which improves the flexibility and visualization. This method possesses characteristics of a faster convergence rate and more exact clustering than some typical clustering algorithms. Simulated experiments show the feasibility and availability of the proposed method.  相似文献   

20.
阐述了信息可视化中色彩的基本理论,从信息可视化中对色彩的认知过程入手,论述了信息可视化中色彩的使用原则,介绍了信息可视化中色彩的应用方式。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号