首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 515 毫秒
1.
文章论述了地质调查技术方法非结构化数据在关系型数据库存储的基础上,进行文档检索技术与方案实现的研究,设计了一个针对多种格式文档进行处理的可扩展的应用服务框架,并在框架中实现对文档的全文和元数据的存储、索引和检索等服务。并对关系型数据库存储和检索非结构化数据的不足进行了分析,提出了以NoSQL数据库支撑地质调查技术方法非结构化数据存储检索的改进方向。  相似文献   

2.
从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取多维度特征训练序列标注模型,并利用上下文信息进一步提高系统性能,进而在非结构化文本中抽取出实体的属性及属性值.实验结果表明:该方法在百度百科多个类别中均有效;同时,该方法可以直接扩展到类似的非结构化文本中抽取属性.  相似文献   

3.
探讨围绕知识发现领域中较为宏观、较为重大的问题。首先,根据复杂类型数据(包括Web数据、多媒体数据、空间数据、时间序列数据等)所具有的非线性动力学性质和特征,采用模式(定义为Hilbert空间中的矢量)来定量地表征复杂类型数据的多变性及具有的不确定状态和行为,并用模式的变化来刻画其整体知识发现过程的发展和演变规律;其次,以知识发现系统内在机理的研究为基础,构造了复杂类型数据知识发现系统的总体结构模型——发现特征子空间模型DFSSM;最后,用基于Web的文本挖掘系统和基于图像信息(气象云图)的知识发现系统作为实例进行了验证,结果表明DFSSM方法对于非结构化的文本数据及图像数据类型的知识发现过程具有指导性作用。因此,该结构模型具有较好的实用性与普适性,有望拓展到其他复杂类型数据的知识发现过程中。  相似文献   

4.
数据到文本的生成是指从结构化数据生成连贯文本的一种自然语言处理方法。近年来,由于端到端训练的深度神经网络的应用,数据到文本生成的方法显示出了巨大潜力。该方法能够处理大量数据自动生成连贯性文本,常用于新闻写作、报告生成等场景。然而,已有研究中对于数据中具体数值、时间等数据信息的推理存在较大缺陷,无法充分利用数据间的结构信息给出合理的生成指引,并且生成过程容易出现语义与句法分离训练的问题。因此,文中提出一种结合Transformer模型与深度神经网络的数据到文本生成方法,并提出一个用于内容规划的Transformer Text Planning(TTP)算法,有效地解决上述问题。在Rotowire公开数据集上进行方法验证,实验结果表明,文中方法性能优于已有数据到文本生成模型,可直接应用于结构化数据到连贯性文本的生成任务中,具有一定的实际应用价值。  相似文献   

5.
增量式关联规则维护的时间窗口技术   总被引:1,自引:0,他引:1  
数据库中的知识发现是指在大型数据集中识别有效、新奇、潜在有用、且最终可理解模式的非平凡的过程。人们已经提出了许多种知识发现算法 ,然而 ,由于数据随时间变化而导致的所发现知识的更新维护问题却较少研究。笔者提出一种用于增量式关联规则维护的时间窗口技术。该技术可以集中在当前数据中发现强关联规则 ,避免利用过时数据。为了避免在已有数据上重新发现 ,降低数据存储开销 ,我们保存了次强关联规则  相似文献   

6.
针对Web论坛的一种结构化数据自动抽取方法   总被引:1,自引:0,他引:1  
由于网页布局设计的复杂性和用户发表帖子的灵活性,从论坛网页中抽取结构化的数据是一项未能很好解决并非常具有挑战性的任务。本文提出了一种从任意的论坛站点中自动抽取结构化数据的通用解决方案,通过分析网页结构发现列表页和帖子页中的数据记录,并利用一组产生式规则从发现的数据记录中抽取结构化的数据。实验结果表明该方法在抽取论坛数据记录方面明显优于已有的方法,对论坛帖子的标题、作者、发表时间和内容文本块等元数据的抽取达到了较高的准确率。  相似文献   

7.
文本挖掘是数据挖掘的重要内容之一,对于信息的获取和知识的发现具有十分重要的意义,同时也是维护互联网信息内容安全的重要手段。对文本挖掘技术和信息内容安全的基本概念和理论进行系统地归纳并对相关前景进行了展望。研究分析了文本挖掘和信息内容安全的定义及文本挖掘与现有的数据挖掘和自然语言处理进行了对比;深入总结分析了文本挖掘的数据预处理、挖掘分析以及可视化过程中涉及到的关键技术和文本挖掘在信息内容安全领域的相关应用;研究新的文本特征表示模型、发展全新的非结构化的文本挖掘算法和构建融合大数据处理、自然语言处理、数据挖掘、图像处理、模式识别相集成的文本挖掘综合系统是提升文本挖掘性能的重要方向。  相似文献   

8.
本文从非结构化数据库技术出发,分析了网络环境下数据库应用现状,探讨了网络数据库的建设、非结构化数据的分析,并以一个具体应用实例进行了说明。  相似文献   

9.
人工智能技术在GIS应用中的研究   总被引:1,自引:0,他引:1  
人工智能技术与GIS相结合,能够对海量空间地理数据中的结构化和非结构化知识进行表达推理,预测未来发展趋势,智能化的解决复杂的现实问题。文中阐述了人工智能与GIS结合的研究热点,在智能化知识推理中给出了详细解释,并以实例具体描述了专家系统中自然语言输入到结果输出的运行过程。  相似文献   

10.
为实现不同数据管理系统之间的互通,提出一种基于半监督学习算法的多源异构数据治理框架,并由此设计、实现和测试了一套非结构化数据与结构化数据的自动化对齐方法。利用命名实体识别(NER)技术,将非结构化数据转化为结构化数据,再分别利用基于字符串相似度的方法和基于监督学习的方法,对结构化数据进行模式匹配;通过半监督学习方法,在结构化数据与数据库记录实体之间进行实体匹配与融合;利用自然语言处理(NLP)技术及深度学习方法,对融合后的数据集进行缺失值填补。结果表明:在论文数据集和视频元数据集上进行对齐处理后,两者的F1值分别达到89.70%及96.50%;在不同属性上进行缺失值填补后,整体填补准确率达到78%以上,大大优于基线方法的准确率。  相似文献   

11.
数据仓库数据加载技术   总被引:2,自引:0,他引:2       下载免费PDF全文
数据仓库中的数据不是传统数据库中数据的简单堆积,其数据的组织必须方便基于数据仓库基础之上的数据挖掘和商业智能工作,为决策者提供访问、分析及共享信息的能力,从而发挥数据仓库的真正功效。成功构造一个数据仓库的关键在于自始至终理解用户需要,紧紧围绕用户目标这一主题进行数据的搜集和存储。首先分析数据仓库的特点及拥有的数据类别及组成,重点介绍如何从现有数据库中有效地将数据引导至数据仓库的方法和策略,具体给出了数据仓库中5种不同类别数据的加载方法。  相似文献   

12.
大数据时代下数据量的爆炸式增长,使得分析和解读大数据显得尤为重要. 阐述了解析数据工具——数据挖掘和数据可视化技术,重点探讨了两者创新性结合的重要意义和实际效果.  相似文献   

13.
数据挖掘中的数据预处理技术   总被引:8,自引:0,他引:8  
阐述了数据集成的预处理技术及必要性,讨论了不完整数据、含噪声数据、不一致数据的清理方法。  相似文献   

14.
数据仓库清洗技术讨论   总被引:4,自引:0,他引:4  
数据仓库建设过程中最关键的环节是数据集成,本文重点分析了数据清洗需要解决的问题及涉及的主要技术,针对数据库的数据模型与数据仓库模型的区别讨论了利用元数据的映射规则的数据清洗方法.  相似文献   

15.
基于ERP模型数据仓库元数据表示方法   总被引:1,自引:0,他引:1  
针对数据仓库元数据表示问题 ,建立一般问题求解过程的数学描述 ,提出实体、关系、问题ERP建模体系 ,并以星形模型元数据的表示为例 ,提出了基于ERP模型的数据仓库元数据表示方法  相似文献   

16.
分析了数据集成过程中需要将集中存放的数据进行拆分实际问题,提出了基于字段的纵向拆分、基于记录的横向拆分和基于表的双向拆分等3种数据集成方法,实现了数据集成和资源共享,其思想对于数据集成的过程中需要将各自分布的数据合并起来的实际问题也有很大意义。  相似文献   

17.
当今,越来越多的企业和商业机构需要准确把握信息确定战略,而新一代数据仓库和数据集市技术就为数据收集、整合、挖掘提供了卓有成效的解决方案。从数据仓库和数据集市的概念入手,介绍了数据仓库和数据集市的特点、体系结构、构件、评价指标及其应用。  相似文献   

18.
白冰  张晶  苏勇 《科学技术与工程》2007,7(18):4741-47454749
收视率是衡量电视节日质量的重要指标,而质量不高的收视调查数据将导致收视率指标计算的不准确。为解决基于数据挖掘的电视收视率分析的数据问题,就调查数据进行了有效的前期处理,其中涉及原始数据的正确录入,对存入数据库的原始数据实施的数据清理、数据变换、数据归约技术和应用的模糊集理论。实验结果表明在预处理后的收视率资料库中能够挖掘出知识,为收视率应用提供了有力支持。  相似文献   

19.
信息时代的快速发展带来的是信息总量呈现几何级数的增加,而海量数据的存储和分析处理对计算机硬件能力和数据分析能力都是一个极大的挑战.数据挖掘算法是针对于大批量数据处理而提出并逐步发展起来的,基于完备的数据库技术,可以在云计算算法、矩阵压缩算法和并行关联算法的基础上,进行算法集成,能进一步提高数据挖掘的速度、精度和时效性,在实际海量数据的处理过程中有较好的适应性,为海量数据处理提供了新的技术分析方法.  相似文献   

20.
目前市场上有很多股票交易软件,这些软件会根据股票交易的实际情况定期产生股票交易信息数据,并将这些信息数据写入二进制格式的文件中,如DAY文件等.由于这些文件不是文本文件,无法直接使用常规的文件读写进行数据的抽取,而必须设计一种数据抽取算法完成相应操作.对DAY文件进行了分析和研究,在此基础上设计了一种数据抽取算法,并利用JAVA语言实现了数据抽取算法程序,利用该程序完成了从DAY文件中抽取数据并写入数据库的实验.实验结果表明,该程序能够正确地从DAY文件中抽取数据,为后期的股票信息处理和数据挖掘提供了重要的基础.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号