首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
基于Web的可视化数据挖掘工具综述   总被引:1,自引:0,他引:1  
在互联网存储的信息中,对于含有有效信息的数据挖掘工作具有极高的价值,而数据可视化工具又为挖掘工作以及对于信息的分析提供了更直观方便的方法.文章介绍了数据挖掘、数据可视化、Web挖掘的基本概念、基本方法及流行技术;比较了常见的可视化数据挖掘工具,并且对数据挖掘技术的发展做出了适当的展望.  相似文献   

2.
网络信息计量学的研究对象主要涉及三个层次或组成部分:网上信息本身的计量,网上文献、文献信息的计量,网络站点的计量。链接分析法是网络信息计量学中的一个重要方法,是文献计量学中引文分析法在网络环境中的应用。网络信息计量学能对数字图书馆的资源管理进行科学的指导,并提供定量依据,提高数字图书馆的管理水平。  相似文献   

3.
文献计量学是运用数学和统计学方法对文献知识单元进行定量分析、揭示文献内部知识内容的一门科学。共现网络分析是文献计量研究中分析文献特征项数据关系的一种可视化方法,根据被分析特征项的数量分为单重共现网络分析和多重共现网络分析。与单重共现网络分析相比,多重共现网络分析增加了特征项的维度,对文献知识的呈现更加深入。但是,由于被分析特征项维度的增加,导致共现网络中的节点数量增多,节点间连线重合度和交叉频率过大,降低了文献计量可视化的效果。因此,目前文献计量共现网络分析主要以单重共现为主,多重共现网络分析可视化效果尚有待提升。为解决多重共现网络中节点过多、连线密度过大、不利于发现数据价值以及可视化效果较低等问题,引入LDA主题模型,采用空间划分的方法,将特征项全域可视化的问题转化为子空间可视化问题。首先,使用SATI文献题录信息分析软件抽取文献关键词,进行TF-IDF计算,以计算结果作为实验数据;其次,使用Python构建主题模型,对目标文献集合进行主题聚类分析;最后,使用Ucinet软件对不同主题子空间文献进行多重共现分析,并将子空间分析结果叠加和重构,完成多重共现可视化系统的结构化表达。结果表明:与原多重共现可视化方法相比,在内容呈现等价的前提下,基于LDA主题模型的多重共现可视化改进方法由于缩小了多重共现网络分析系统的规模,即子空间文献数量与特征词数目,因而降低了共现网络中的节点数量和节点间连线密度,使得多重共现可视化系统的结构更为清晰,增加了数据的可读性,突出了数据价值,有效提升了多重共现可视化效果。因此,多重共现可视化改进方法在一定程度上可以推进文献构成元素在多重组合知识挖掘方面的深入研究,提高不同领域文献计量的实证研究质量。  相似文献   

4.
信息可视化研究综述   总被引:4,自引:0,他引:4       下载免费PDF全文
信息可视化是可视化技术在非空间数据领域的应用,可以增强数据呈现效果,让用户以直观交互的方式实现对数据的观察和浏览,从而发现数据中隐藏的特征、关系和模式。可视化应用非常广泛,主要涉及领域:数据挖掘可视化、网络数据可视化、社交可视化、交通可视化、文本可视化、生物医药可视化等等。根据CARD可视化模型可以将信息可视化的过程分为以下几个阶段:数据预处理;绘制;显示和交互。根据SHNEIDERMAN的分类,信息可视化的数据分为以下几类:一维数据、二维数据、三维数据、多维数据、时态数据、层次数据和网络数据。其中针对后4种数据的可视化是当前研究的热点。多维数据可视化方法主要包括基于几何的方法、图标方法和动画方法等。基于几何的可视化方式中最经典的就是"平行坐标系"方法。平行坐标系(parallel coordinates)使用平行的竖直轴线来代表维度,通过在轴上刻划多维数据的数值并用折线相连某一数据项在所有轴上的坐标点展示多维数据。平行坐标系方法能够简洁、快速地展示多维数据,发展出很多改进技术。但是当数据集的规模变得非常大时,密集的折线会引起"视觉混淆"(visual clutter),处理方法包括维度重排、交互方法、聚类、过滤、动画等。其他基于几何的方法包括Radviz方法使用圆形坐标系展示可视化结果;散点图矩阵(scatter plot matrix)将多维数据中的各个维度两两组合绘制成一系列的按规律排列的散点图。基于图标的可视化方法用具备可视特征的几何形状如大小、长度、形状、颜色等刻划数据,代表性的方法包括星绘法和Chernoff面法等。动画方法用于可视化中可被用来提高交互性和理解程度,其缺点包括可能分散注意力、引起用户的误解、产生"图表垃圾"等。时间序列数据是指具有时间属性的数据集,针对时间序列数据的可视化方法如下:线形图、堆积图、动画、地平线图、时间线。层次数据具有等级或层级关系。层次数据的可视化方法主要包括节点链接图和树图2种方式。其中树图(treemap)由一系列的嵌套环、块来展示层次数据。为了能展示更多的节点内容,一些基于"焦点+上下文"技术的交互方法被开发出来。包括"鱼眼"技术、几何变形、语义缩放、远离焦点的节点聚类技术等。网络数据具有网状结构。自动布局算法是网络数据可视化的核心,目前主要有以下3类:一是力导向布局(force-directed layout);二是分层布局(hierarchical layout);三是网格布局(grid layout)。当数据节点的连接很多时,容易产生边交叉现象,导致视觉混淆。解决边交叉现象的集束边(edge bundle)技术可以分为以下几类:力导向的集束边技术、层次集束边技术、基于几何的边聚类技术、多层凝聚集束边技术和基于网格的方法等。其他研究热点包括图形的视觉因素研究、自适应可视化研究、可视化效果的评估等。视觉因素对于可视化效果的影响,如位置、长度、面积、形状、色彩等影响已经引起很多研究者的注意。色彩是视觉因素的重要组成部分,研究主要集中在颜色选择的原则和交互系统中。这些原则基于数据类型、类的数量、认知约束等。自适应可视化可以提高信息可视化的适应性。研究成果分为以下几类:自适应可视化展示、自适应资源模型、自适应用户模型。自适应可视化展示是指根据用户的特征自动为用户提供多种展示类型,自动选择可视化内容及布局的形式,自动调整可视化的元素等。自适应资源模型反映了对硬件和软件的利用以提高可视化性能。自适应用户模型通过显示用户模型的内容并让用户能够编辑,从而让用户能够控制模型的内容。当前关于信息可视化评价的研究较少,少量研究也没有提出直接和通用的可视化的评估方式,需要对信息可视化评价的理论基础、方法和应用做深入的研究。可视化技术与应用还应该继续向以下4个方面努力:直观化、关联化、艺术化、交互化。信息可视化技术的发展方向是协同(collaboration)、分析过程(analytics)、计算(computational)和意会(sense-making)。未来研究方向可以包括以下几个内容。信息可视化和数据挖掘的紧密结合。为提高处理海量数据时的速度和效率和解决视觉混淆现象;必须运用数据挖掘的公式和算法,对数据分析的过程及结果进行可视化展现。协同可视化。协同可视化领域的研究方向可以包括可视化接口设计、基于Web的可视化协同平台开发、协同可视化工作的视图设计、协同可视化中的工作流管理及协同可视化技术的应用等。更多领域的应用技术开发。包括统计可视化:需要研究使用几何、动画、图像等工具对数据统计的过程和结果进行加工和处理的技术;新闻可视化:对新闻内容进行抓取、清洗和提取和可视化展示;社交网络可视化:可视化方式显示社交网络的数据,对社交网络中节点、关系及时空数据的集成展示。搜索日志可视化:针对在使用搜索引擎时产生的海量搜索日志,可视化的展现用户的搜索行为、关系和模式等。  相似文献   

5.
信息可视化技术利用计算机图形图像和数据挖掘的技术与方法,将数据中隐藏的信息以交互方式形象生动地展示给用户。在学术搜索领域,信息可视化技术主要用于辅助用户分析数据,进而发现其中蕴含的规律。因此,研究信息可视化技术与应用,具有重要的理论意义和实用价值。对微软学术搜索的信息可视化应用进行深入的研究,提出了针对学术搜索数据的可视化与分析方法,为解决信息可视化所面临的问题提供了新的思路和技术手段。  相似文献   

6.
网络信息计量学是随着网络的发展和网络信息资源的激增而产生的一种新型网络计量分析工具,集计算机技术、网络技术、计量学方法、统计学方法于一体,其应用范围覆盖了所有基于网络通信技术的信息测度。综述了网络信息计量学在医学图书馆和医学网站(医学搜索引擎)的应用进展及可能的应用范围。  相似文献   

7.
简要介绍了入侵检测技术,研究将数据挖掘技术应用于网络异常检测,应用数据挖掘中的关联分析方法和序列模式分析的方法提取网络审计数据中的正常或异常的行为模式,这种模式用频繁情节规则表示.  相似文献   

8.
以中国学术期刊网络出版总库为来源,收集2004-2013年10年中收录的第一作者单位为重庆市,且题名或关键词为"图书馆"的论文.运用文献计量学、统计学及文本数据挖掘等方法,对论文的发文量、著者、关键词分布等进行了统计与计量分析.研究发现重庆市10年间图书馆学论文增长较缓慢,作者的合作度与合作率不高,机构发文量不均衡,相关研究处于与新兴信息技术结合的初步阶段.  相似文献   

9.
为提升数据挖掘技术与网络恶意行为识别准确率,研究基于大数据关联规则的网络恶意行为识别检测方法.模糊化处理网络中存在的大数据,构建模糊数据库,分类聚集模糊数据库中的模糊数据,离散化处理模糊数据的连续属性,确定模糊数据频繁关联规则,通过基于模糊关联规则的数据挖掘方法获得整理后的网络数据;以此为基础,分析用户恶意访问流量特征...  相似文献   

10.
可视化和可视化分析学   总被引:1,自引:0,他引:1  
可视化就是把数据、信息和知识转化为可视的表示形式的过程。一般来讲,可视化可分为数据可视化、科学计算可视化、信息可视化和知识可视化。可视化可以看做是人类与计算机这两个信息处理系统之间的一个接口单元。本文在给出可视化定义基础上,简要介绍了国际近年出现的可视化分析学情况,讨论了可视化在数据挖掘、复杂网络等领域的应用。最后指出了可视化研究存在的问题和重要发展方向。  相似文献   

11.
从理论信息学的研究角度出发,阐述了数据挖掘方法,指出数据挖掘技术的研究和应用对生产力的发展起着至关重要的作用。  相似文献   

12.
入侵检测作为主动的安全防御技术,是计算机网络中继防火墙之后的第二道安全防线,是近年来网络安全领域的研究热点.研究了基于数据挖掘的网络入侵检测系统的建模及实现,建立融合简单规则、协议分析、数据挖掘分析为一体的模型,其中着重讨论了基于数据挖掘技术的网络入侵检测系统的实现方法.  相似文献   

13.
由于android手机平台网络中数据流众多,以往研究出的面向android手机平台网络恶意数据流挖掘方法,均无法对网络恶意数据流进行高效、准确挖掘。故提出一种挖掘效率和挖掘准确性均较高的android手机平台网络恶意数据流挖掘方法。网络恶意数据流通常均有自动收发行为,所提方法利用概率分类法和邻近值法对android手机平台网络数据流进行预分类,使具有自动收发行为的网络数据流优先进行网络恶意数据流挖掘,提高挖掘效率和挖掘准确性。该挖掘方法将网络数据流划分成多段行为向量,对具有自动收发行为的网络数据流和不具有自动收发行为的网络数据流采取不同精度的挖掘操作,输出网络恶意数据流,存储网络非恶意数据流,供下次挖掘使用。经实验验证可知,所研究的方法挖掘效率高、挖掘准确性高。  相似文献   

14.
从安钢电极控制的实际应用出发,应用数据挖掘技术建立了电极预测模型并应用于电极控制系统的参数整定.首先介绍了建立电极预测模型的数据挖掘过程;然后在数据挖掘算法中提出了一种新的变结构遗传Elman网络方法,该算法用改进的混合遗传算法对网络结构和权值及自反馈增益同步动态寻优.将基于BP算法的Elman网络和本文提出的变结构遗传Elman网络都应用于安钢交流电弧炉的电极预测模型中进行比较.通过基于安钢现场数据的计算机仿真实验表明:采用变结构遗传Elman网络的数据挖掘算法比BP算法具有更好的动态性能、更快的逼近速度和更高的精度.在此基础上,把建立的模型应用于安钢电极控制系统的参数整定,取得了良好的控制效果.  相似文献   

15.
讨论了数据库中的知识发现的基本技术 ,提出了一种适用于数据挖掘的神经网络方法 ,并给出了神经网络数据挖掘系统的构造过程 ,应用结果表明该方法是可行有效的 ,并对该方法进行了深入的讨论。  相似文献   

16.
结合实例对商务网站Web日志数据进行挖掘研究,介绍将Web数据转变为数据仓库数据的过程和数据挖掘的方法,文章的最后讲述了可视化数据挖掘技术在表现挖掘结果中的应用.  相似文献   

17.
为了充分发掘和利用信息资源的价值,数据挖掘技术应运而生;首先就可视化数据挖掘的概念和分类进行了阐述,然后探讨了可视化数据挖掘的一些主要技术,最后通过所开发的一个系统对经典的购物篮分析问题进行了可视化数据挖掘技术的实现探讨。  相似文献   

18.
计算机网络入侵通常具有高频度特性,因此,识别是否正常访问,对数据流中重复元素的挖掘,给出频度指标,是一种重要的依据.提出一种基于数据流频繁模式的改进型AFP算法,该算法采用滑动窗口树技术,单遍扫描数据流及时捕获网络上的最新模式信息,并将该算法应用在入侵检测模型中正常数据和异常数据的在线挖掘.解决了有限存储和无限数据流的矛盾.实验结果表明,该模型有较高的报警率和较低的误报率.  相似文献   

19.
王现君  高莉 《河南科学》2007,25(6):988-991
通过加权平均算法(ML_TWA)发现多层关联规则.该算法针对现有多层关联规则挖掘中存在阈值定义不合理的情况,依据多层数据的特点,提出了一种加权平均阈值估计方法,来提高挖掘效率和结果的准确性.实验结果证明这种算法是有效的.  相似文献   

20.
面向知识发现的数据分类技术在网络教学中的应用研究   总被引:2,自引:0,他引:2  
提出将数据挖掘技术应用于网络教学平台的设计,采用决策树分类方法从学习者的大量信息中分析学习者的学习能力,构建学习者特征模型,提高网络教学对不同学习者个体的针对性,为实施个性化教学提供决策支持.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号