共查询到20条相似文献,搜索用时 515 毫秒
1.
2.
从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取多维度特征训练序列标注模型,并利用上下文信息进一步提高系统性能,进而在非结构化文本中抽取出实体的属性及属性值.实验结果表明:该方法在百度百科多个类别中均有效;同时,该方法可以直接扩展到类似的非结构化文本中抽取属性. 相似文献
3.
探讨围绕知识发现领域中较为宏观、较为重大的问题。首先,根据复杂类型数据(包括Web数据、多媒体数据、空间数据、时间序列数据等)所具有的非线性动力学性质和特征,采用模式(定义为Hilbert空间中的矢量)来定量地表征复杂类型数据的多变性及具有的不确定状态和行为,并用模式的变化来刻画其整体知识发现过程的发展和演变规律;其次,以知识发现系统内在机理的研究为基础,构造了复杂类型数据知识发现系统的总体结构模型——发现特征子空间模型DFSSM;最后,用基于Web的文本挖掘系统和基于图像信息(气象云图)的知识发现系统作为实例进行了验证,结果表明DFSSM方法对于非结构化的文本数据及图像数据类型的知识发现过程具有指导性作用。因此,该结构模型具有较好的实用性与普适性,有望拓展到其他复杂类型数据的知识发现过程中。 相似文献
4.
数据到文本的生成是指从结构化数据生成连贯文本的一种自然语言处理方法。近年来,由于端到端训练的深度神经网络的应用,数据到文本生成的方法显示出了巨大潜力。该方法能够处理大量数据自动生成连贯性文本,常用于新闻写作、报告生成等场景。然而,已有研究中对于数据中具体数值、时间等数据信息的推理存在较大缺陷,无法充分利用数据间的结构信息给出合理的生成指引,并且生成过程容易出现语义与句法分离训练的问题。因此,文中提出一种结合Transformer模型与深度神经网络的数据到文本生成方法,并提出一个用于内容规划的Transformer Text Planning(TTP)算法,有效地解决上述问题。在Rotowire公开数据集上进行方法验证,实验结果表明,文中方法性能优于已有数据到文本生成模型,可直接应用于结构化数据到连贯性文本的生成任务中,具有一定的实际应用价值。 相似文献
5.
增量式关联规则维护的时间窗口技术 总被引:1,自引:0,他引:1
数据库中的知识发现是指在大型数据集中识别有效、新奇、潜在有用、且最终可理解模式的非平凡的过程。人们已经提出了许多种知识发现算法 ,然而 ,由于数据随时间变化而导致的所发现知识的更新维护问题却较少研究。笔者提出一种用于增量式关联规则维护的时间窗口技术。该技术可以集中在当前数据中发现强关联规则 ,避免利用过时数据。为了避免在已有数据上重新发现 ,降低数据存储开销 ,我们保存了次强关联规则 相似文献
6.
针对Web论坛的一种结构化数据自动抽取方法 总被引:1,自引:0,他引:1
由于网页布局设计的复杂性和用户发表帖子的灵活性,从论坛网页中抽取结构化的数据是一项未能很好解决并非常具有挑战性的任务。本文提出了一种从任意的论坛站点中自动抽取结构化数据的通用解决方案,通过分析网页结构发现列表页和帖子页中的数据记录,并利用一组产生式规则从发现的数据记录中抽取结构化的数据。实验结果表明该方法在抽取论坛数据记录方面明显优于已有的方法,对论坛帖子的标题、作者、发表时间和内容文本块等元数据的抽取达到了较高的准确率。 相似文献
7.
张丐卓 《华北科技学院学报》2018,(2)
文本挖掘是数据挖掘的重要内容之一,对于信息的获取和知识的发现具有十分重要的意义,同时也是维护互联网信息内容安全的重要手段。对文本挖掘技术和信息内容安全的基本概念和理论进行系统地归纳并对相关前景进行了展望。研究分析了文本挖掘和信息内容安全的定义及文本挖掘与现有的数据挖掘和自然语言处理进行了对比;深入总结分析了文本挖掘的数据预处理、挖掘分析以及可视化过程中涉及到的关键技术和文本挖掘在信息内容安全领域的相关应用;研究新的文本特征表示模型、发展全新的非结构化的文本挖掘算法和构建融合大数据处理、自然语言处理、数据挖掘、图像处理、模式识别相集成的文本挖掘综合系统是提升文本挖掘性能的重要方向。 相似文献
8.
本文从非结构化数据库技术出发,分析了网络环境下数据库应用现状,探讨了网络数据库的建设、非结构化数据的分析,并以一个具体应用实例进行了说明。 相似文献
9.
人工智能技术在GIS应用中的研究 总被引:1,自引:0,他引:1
陈曦 《中山大学研究生学刊(自然科学与医学版)》2007,28(1):77-86
人工智能技术与GIS相结合,能够对海量空间地理数据中的结构化和非结构化知识进行表达推理,预测未来发展趋势,智能化的解决复杂的现实问题。文中阐述了人工智能与GIS结合的研究热点,在智能化知识推理中给出了详细解释,并以实例具体描述了专家系统中自然语言输入到结果输出的运行过程。 相似文献
10.
为实现不同数据管理系统之间的互通,提出一种基于半监督学习算法的多源异构数据治理框架,并由此设计、实现和测试了一套非结构化数据与结构化数据的自动化对齐方法。利用命名实体识别(NER)技术,将非结构化数据转化为结构化数据,再分别利用基于字符串相似度的方法和基于监督学习的方法,对结构化数据进行模式匹配;通过半监督学习方法,在结构化数据与数据库记录实体之间进行实体匹配与融合;利用自然语言处理(NLP)技术及深度学习方法,对融合后的数据集进行缺失值填补。结果表明:在论文数据集和视频元数据集上进行对齐处理后,两者的F1值分别达到89.70%及96.50%;在不同属性上进行缺失值填补后,整体填补准确率达到78%以上,大大优于基线方法的准确率。 相似文献
11.
数据仓库中的数据不是传统数据库中数据的简单堆积,其数据的组织必须方便基于数据仓库基础之上的数据挖掘和商业智能工作,为决策者提供访问、分析及共享信息的能力,从而发挥数据仓库的真正功效。成功构造一个数据仓库的关键在于自始至终理解用户需要,紧紧围绕用户目标这一主题进行数据的搜集和存储。首先分析数据仓库的特点及拥有的数据类别及组成,重点介绍如何从现有数据库中有效地将数据引导至数据仓库的方法和策略,具体给出了数据仓库中5种不同类别数据的加载方法。 相似文献
12.
大数据时代下数据量的爆炸式增长,使得分析和解读大数据显得尤为重要. 阐述了解析数据工具——数据挖掘和数据可视化技术,重点探讨了两者创新性结合的重要意义和实际效果. 相似文献
13.
14.
数据仓库清洗技术讨论 总被引:4,自引:0,他引:4
数据仓库建设过程中最关键的环节是数据集成,本文重点分析了数据清洗需要解决的问题及涉及的主要技术,针对数据库的数据模型与数据仓库模型的区别讨论了利用元数据的映射规则的数据清洗方法. 相似文献
15.
16.
分析了数据集成过程中需要将集中存放的数据进行拆分实际问题,提出了基于字段的纵向拆分、基于记录的横向拆分和基于表的双向拆分等3种数据集成方法,实现了数据集成和资源共享,其思想对于数据集成的过程中需要将各自分布的数据合并起来的实际问题也有很大意义。 相似文献
17.
翁丹丹 《科技情报开发与经济》2007,17(10):187-189
当今,越来越多的企业和商业机构需要准确把握信息确定战略,而新一代数据仓库和数据集市技术就为数据收集、整合、挖掘提供了卓有成效的解决方案。从数据仓库和数据集市的概念入手,介绍了数据仓库和数据集市的特点、体系结构、构件、评价指标及其应用。 相似文献
18.
19.
唐宝富 《湖南工程学院学报(自然科学版)》2014,24(3):37-40
信息时代的快速发展带来的是信息总量呈现几何级数的增加,而海量数据的存储和分析处理对计算机硬件能力和数据分析能力都是一个极大的挑战.数据挖掘算法是针对于大批量数据处理而提出并逐步发展起来的,基于完备的数据库技术,可以在云计算算法、矩阵压缩算法和并行关联算法的基础上,进行算法集成,能进一步提高数据挖掘的速度、精度和时效性,在实际海量数据的处理过程中有较好的适应性,为海量数据处理提供了新的技术分析方法. 相似文献
20.
目前市场上有很多股票交易软件,这些软件会根据股票交易的实际情况定期产生股票交易信息数据,并将这些信息数据写入二进制格式的文件中,如DAY文件等.由于这些文件不是文本文件,无法直接使用常规的文件读写进行数据的抽取,而必须设计一种数据抽取算法完成相应操作.对DAY文件进行了分析和研究,在此基础上设计了一种数据抽取算法,并利用JAVA语言实现了数据抽取算法程序,利用该程序完成了从DAY文件中抽取数据并写入数据库的实验.实验结果表明,该程序能够正确地从DAY文件中抽取数据,为后期的股票信息处理和数据挖掘提供了重要的基础. 相似文献