共查询到20条相似文献,搜索用时 0 毫秒
1.
Deep Web的规模和所包含的信息量都在飞速发展。因此Deep Web数据集成已成为一个新的研究热点,文本对deep web数据集成领域的若干问题进行了总结,并对未来的工作进行了展望。 相似文献
2.
3.
油污处理技术包括防止油污附着的预处理手段以及油污清洗技术,而油污清洗技术包括自清洗和外部清洗,外部清洗费时费力,由于现代人对生活品质的追求,自清洗技术发展成为油污清洗领域的技术热点,现有的自清洗技术主要包括加热除油清洗、水/蒸汽清洗以及其他方式清洗.笔者综述了近年来油污自清洗技术,着重分析了各类油烟机油污自清洗技术的演进路线. 相似文献
4.
基于证券行业半结构化数据的抽取技术 总被引:1,自引:1,他引:1
半结构化数据是网络中一种重要的数据形式,其数据抽取和知识发现研究是半结构化数据各项研究的核心.针对互联网上的证券交易系统半结构化的个股资料,根据OEM模型,利用SAS软件建立了半结构化到结构化数据的转换.本文关于信息的抽取技术,提供了一种新的方法,无论为投资者还是为数据挖掘都提供了证券分析的基础,从而能更好地提高抗风险的能力. 相似文献
5.
随着电子商务,电子政务等各种网络应用的不断发展,数据挖掘中的隐私保护问题近年来引起人们的广泛关注,并成为一个急待解决的问题。本文介绍了当前数据挖掘隐私保护技术的发展现状,着重介绍了几种关键隐私保护技术的特点。在此基础上对隐私保护技术进行了综合对比与分析,提出了隐私保护技术未来的研究方向。 相似文献
6.
《中国科学:物理学 力学 天文学》2017,(5)
信息技术、制造技术的蓬勃发展为提高射电望远镜灵敏度和分辨率奠定了基础.随着观测设备接收面积的增大及多功能数字终端技术的发展,天文观测设备的数据收集能力也得到了大幅提升,天文数据已经进入了PB量级时代.然而海量的观测数据并非全部实现了全世界范围的开放共享.部分新投入或正在建设中的大型天文观测设备在设计过程中并没有充分考虑到数据管理问题;已有的观测数据采用离线存储在磁盘或磁带上没能实现数字化:发表的文章所用到的数据没有进行有效归档,使他人无法重复数据处理;部分国家或地区的网络限制使科研人员无法在线获取归档数据.本文以目前主流的单天线和阵列射电望远镜为基础,综述各观测设备现状及数据管理相关情况.以虚拟天文台相关协议标准为依据介绍如何通过最新的虚拟天文台(Virtual Observatory,VO)技术实现数据发布及无缝透明的资源连接与访问.分析了目前常用的索引技术B-Tree,R-Tree,HTM,HEALPix,Q3C的特点,最后给出针对新疆奇台110 m射电望远镜数据管理方面可选择的关键技术. 相似文献
7.
郭文龙 《齐齐哈尔大学学报(自然科学版)》2012,28(5)
数据清洗中,中文地址类信息对于重复记录的检测起着非常重要的作用。中文地址按照行政归属可划分为五级,通过组建地址信息数据库对中文地址进行匹配,提出基于地址树的中文地址分词技术,构建了中文地址的分词算法流程并设计了算法。 相似文献
8.
Web数据挖掘作为数据挖掘技术和Internet应用研究相结合的研究领域,涉及机器学习、数理统计、数据库、神经网络、模式识别、粗糙集、模糊数学等人工智能相关技术,目前已经发展成为一个受到社会各界关注的研究热点。 相似文献
9.
10.
针对测井和试井资料中存在数据质量的问题,提出了一种基于聚类分析和神经网络预测技术的数据清洗新方法。该方法首先检测测试井数据中存在空缺项的记录数据,对无空缺数据项的记录数据采用模糊聚类分析技术进行数据分类,再对各类数据分别进行蚁群聚类分析和神经网络学习并矫正噪声数据。将该数据清洗方法运用到试井分析中进行检验,取得了良好的效果。为提高测试井数据质量进行正确的解释评价提供了保证。 相似文献
11.
数据质量是商业智能的基础,数据质量的好坏直接影响到商业智能的成败.数据质量存在问题有多方面的原因,在此基础上提出了实施数据清洗的五个步骤,最后阐述了提高数据质量的方法. 相似文献
12.
结构化数据到XML数据的语义映射 总被引:6,自引:0,他引:6
XML的DTD机制不足以表现结构化数据的语义,本文在路径约束的基础上,提出一种新的语义映射机制,引入域的概念描述结构化数据到XML数据的结构映射,将结构化数据的平面结构映射为XML数据的树状结构,通过有域层次的键规则表达式,将结构化数据中分散在各表中的键的定义映射到XML数据中,利用域的概念和模板匹配的原理,引入域关系表达式及其扩展表达式来实现结构化数据以XML数据的语义映射,由此构成的语义映射机制可以和XML数据的模式抽取很好的集成在一起,体现数据的语义约束并为数据库对XML数据存储和查询的优化提供有效信息。 相似文献
13.
研究了如何利用查询和视图来解决半结构化数据查询重写问题.给出了一种OEM数据模型和一种半结构化数据查询重写算法.算法借用了半结构化数据查询重写桶算法的思想,解决了半结构化数据模型之下查询重写的一些新问题.理论分析表明,它降低了算法的代价. 相似文献
14.
15.
介绍了开发基于JESS的智能数据清洗平台所涉及的解决了大庆某采油厂数据清洗问题. 相似文献
16.
一种XML数据到结构化数据的转换方法 总被引:2,自引:0,他引:2
分析半结构化树状层次结构的XML文档的结构特征,描述XML结构与关系数据库的对应关系.给出XML文档的DTD中各主要元素与关系数据模型之间的映射规则,设计转换规则脚本的自动生成算法和数据转换算法. 相似文献
17.
大数据具有体量大、来源和格式多样、增长速度快、价值密度低和处理难度大的特点,即使通过合理设计参数对某段数据进行点估计的结果可能相当令人满意,但通过应用标准统计程序对整个数据体进行精度估计得到的结果,却是差强人意,从而误导人们。目的旨在分析影响大数据清洗的主要因素有哪些,首先回顾了数据获取对时间序列的依赖性并构造了一个大数据模型,然后在列出数据估计时所用的一些属性后,给出了数据清洗时的回归分析,同时探讨回归系数估计的可能影响。最后给出了大数据处理中误差累积的通用表示方法,提出了与时间序列理论中短程和长程依赖之间的区别大致相同的问题。 相似文献
18.
多传感器数据融合技术综述 总被引:3,自引:0,他引:3
介绍数据融合技术发展历史与研究现状,描述数据融合技术的几种典型实现方法,给出数据融合技术的主要应用,最后,对数据融合技术研究中存在的问题和发展前景进行了论述. 相似文献
19.
近年来,随着互联网技术的快速发展,无论是互联网企业还是传统的金融机构,用户量和业务处理数据量都在快速地增长.传统的通过增加服务器并采用基于分库分表的方法来解决扩展性问题,需要大量的人工维护成本和硬件开销.为降低开销和分库分表带来的各种问题,业界通常用新型数据库系统替换原有的系统,其中,基于日志结构合并树存储的数据库系统(如OceanBase)被广泛采用,这类系统磁盘上存储数据块呈现全局有序的特征.在从传统数据库切换到新型数据库过程中,需要将大量数据加载到新数据库系统中,长时间加载的过程中可能出现数据库节点宕机.为了减少总加载时间和故障恢复时间,提出了一种负载均衡且支持高效容错的数据加载方法;为了支持负载均衡的数据加载,与预确定分区划分数据的方法不同,考虑到目标系统默认存储块大小,采用通过基于文件大小和目标系统默认存储块大小预计算分区数目,并利用分库分表的数据导出往往已经排序的特点,采用选取部分采样块和等间隔选取样本的方式确定分区之间的切分点,避免了全局采样和随机或头部样本选取方式确定切分点带来的高开销;为了加快故障恢复速度,利用日志结构合并树存储系统的多备份减少故障恢复时的数据量,提出了基本副本局部故障恢复方式,避免了完全重新加载的故障恢复方式.实验结果表明,相比采用预确定分区数目和全局选取采样块的随机或头部选取样本方法,采用预计算分区数目和部分选取采样块的等间隔选取样本确定切分点的方法,提高了数据加载的性能,并且验证了基于副本局部故障恢复方法相比完全重启加载恢复方法的高效性. 相似文献