首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
由于时空数据呈指数产生,研究问题具有多样性和不确定性,在地学时空数据的存储、表达和分析研究基础上提出面向地学的4FS的状态——事件时空数据模型。模型采用面向对象与面向过程相结合的方式,以面向对象表达时空数据,以面向过程表达时空变化关系。空间数据由几何特征、空间关系、专题属性、驱动事件四特征(4F)表达。时空数据对象由四特征序列(4FS:几何特征序列、空间关系序列、专题属性序列、驱动事件序列)表达。时空变化关系则通过改进状态——事件模型,增强事件语义,以面向过程结构表达。通过对时空数据表达、时空变化表达、时空对象检索进行论述与实现,突出表达此时空数据模型在完整表达时空语义、因果关系和数据检索效率等方面的优点。  相似文献   

2.
互联网等信息技术的迅猛发展使网络中积累了大量半结构化和非结构化的文本数据,如何从这些海量电子文档中获取需要的信息并以高效直观信息图的形式展现,成为统计分析工作者的一项主要任务。文字云是信息图表达的一种新型文本显示方式,利用文字云和主题模型文本挖掘方法,对文本进行移除数字、去除停用词等预处理操作,然后执行中文分词,构建语料库,建立文档-词条矩阵,最后以文字云和主题模型的形式呈现挖掘结果。实验中主要利用R语言,以多年粗糙集会议纪要为实验数据进行了相关统计分析,并对比了 Tagxedo文字云生成器,结果表明,从文字云中比较容易获取文本的重要信息如主题模型等,挖掘效果较好。  相似文献   

3.
随着文本信息(软信息)对多传感器信息融合的影响不断加深,如何形成一个有效的软信息结构化转换模型,给予计算机和传感器更多可融合的结构化软信息,成为了一个重要的任务。针对软信息结构化问题,即文本表示问题,首先对文本分类技术中向量空间模型的TF-IDF权重进行研究;然后针对其结构化有效性方面的不足,通过引入事件全局权重和信息增益对TF-IDF权重进行特征项关于文本主旨的信息及特征项在文本类间的分布信息补充、完善和实现软信息的结构化表示;最后通过实验验证了该改进方法对软信息结构化转换的可行性和有效性。  相似文献   

4.
从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取多维度特征训练序列标注模型,并利用上下文信息进一步提高系统性能,进而在非结构化文本中抽取出实体的属性及属性值.实验结果表明:该方法在百度百科多个类别中均有效;同时,该方法可以直接扩展到类似的非结构化文本中抽取属性.  相似文献   

5.
针对基本话题模型只能抽取粗粒度上下文信息的问题,通过对潜在狄里克雷分配(LDA)模型进行扩展,建立了一种利用词序信息的多粒度话题情感联合模型(MTSU-Col)。MTSU-Col模型客观表达了词汇、全局/局部话题、情感标签和词序信息之间的关联关系,使模型中话题和情感的建模更加符合文本的语义表达,有效解决了现有话题、情感分析方法存在的领域依赖问题,从而实现了文本多粒度话题信息和情感倾向信息的同步非监督获取。实验表明:利用MTSU-Col模型对文本进行情感倾向性分类,可使综合评价指标F1值达到84%,整体性能与监督分类方法支持向量机(SVM)类似,均优于未采用词序信息的分析方法。由于挖掘话题集合具有层次化、语义相关的特点,因此MTSU-Col模型对观点挖掘是可行、有效的。  相似文献   

6.
信息获取已成为药商经营活动的重要组成部分和市场判断依据,网络大量非结构化、半结构化信息的出现为药商个性化服务提供了技术空间和实证依据.文章通过对个性化服务中文本挖掘的关键技术进行设计,并应用了中药材信息网站文本挖掘流程,把文本挖掘技术应用于中药材信息网站的用户兴趣获取实例中,实现用户兴趣的自动获取功能.  相似文献   

7.
研究了利用半结构化时空数据的"嵌套"特征实现对时空数据存储和管理的问题,提出了一种面向时空嵌套关系的半结构化时空数据管理模型.该模型以时空数据的"嵌套关系"为管理对象,用更丰富的数据语义(semantics)区别了"实体对象类"的属性、"空问嵌套关系类"的属性和"时空嵌套关系类"的属性等概念,运用非第一范武的嵌套关系数据库实现对时空数据的综合营理.基于传统关系型DBMS和GIS组件构成的软件实验系统表明,本模型简明有效,在数据更新和冗余方面均取得了较好的效果.该研究为半结构化时空数据的管理探索了一条新的途径.  相似文献   

8.
随着互联网的普及,非结构化文本数据的规模不断扩大且越来越多地用于大众传播。因此,从海量数据抽取热点信息已成为一个重要的研究课题。针对新闻的热点挖掘进行方法改进及分析,结合新闻及事件模型,使用TextRank算法提取关键词,运用相似度计算方法,提出了一种基于评论的热点新闻事件识别方法。研究结果表明该方法具有一定的可行性。  相似文献   

9.
针对单一领域数据进行建模求解时,在数据较为匮乏的新兴领域中论辩挖掘任务难以开展的问题,提出一种面向低资源场景的多任务学习的论辩挖掘方法.该方法首先通过卷积神经网络和高速神经网络对原文本的字符信息进行编码,获得多个数据集在词级的共享信息表示;然后由有序神经元-长短时记忆循环神经网络进一步处理词级信息和任务相关特征的联合表示,挖掘文本中潜藏的层级结构信息;最后使用条件随机场进行求解.采用德国UKP实验室的六个数据集进行相关的对比实验.实验结果表明,所提出的方法在宏观F1值上较基准模型有1%~2%的提升,有效地提升模型的整体性能.  相似文献   

10.
基于主张量的时空数据特征驱动可视化方法   总被引:1,自引:0,他引:1  
面向时空场数据高维分析与表达的需求,构建基于主张量的时空数据结构分析与动态表达模型.简述了张量的定义、基本算子及主张量分解方法,给出了基于主张量分解的多维度特征分析流程.利用张量的多维融合特性进行多维时空数据的组织与表达,设计了多维时空数据统一组织与存储方法.利用主张量分解方法,实现了时空数据不同维度结构特征的解析与动态重构,进而建立了基于主张量的多维时空数据多维度解析模型与特征驱动的时空数据联动可视化策略.以赤道太平洋海域卫星测高SSHA(Sea Surface Height Abnormity)网格数据进行实验验证.实现了基于张量的多维透视、子集提取、等值面绘制与时空体可视化等功能.利用主张量分解实现了对ENSO(El Ni(n)o-Southern Oscillation)事件时间型与空间型的解析与提取,并实现了时间、经度、纬度系数驱动下的联动可视化.实例验证表明,该方法较好再现了ENSO事件的时空分布格局与动态演化特征,并可实现对ENSO时空演化过程的多维度透视.  相似文献   

11.
通过主题模型与语义网络对旅游电商中的评论文本进行挖掘,从而引导消费者与商家对评论信息作出重要决策;提出一种基于LDA(Latent Dirichlet Allocation,LDA)主题聚类与语义网络模型(LDA topic clustering and semantic network model,LTC-SNM)的方法对酒店在线评论文本进行研究;获取在线评论文本进行数据预处理,使用Word2vec生成词向量,利用机器学习算法对评论文本进行情感分类;通过LDA主题模型对分类后的文本进行聚类,生成酒店的特征主题词;通过ROSTCM将特征主题词与所修饰的情感词生成语义网络,缓解了挖掘文本信息的复杂性;实验结果表明:提出的LTC-SNM文本挖掘方法使得在线用户评价的主题更具表达性。  相似文献   

12.
由于论辩挖掘任务的复杂性,其往往需要大规模的相关语料进行训练;但当前的研究工作大多是针对单一领域数据进行建模求解,在数据较为匮乏的新兴领域中,论辩挖掘任务难以开展。因此,提出了一种面向低资源场景的多任务学习的论辩挖掘方法。该方法首先通过卷积神经网络(CNN)和高速神经网络(Highway)对原文本的字符信息进行编码,获得多个数据集在词级的共享信息表示,然后由双向的有序神经元-长短时记忆循环神经网络(Bi-ON-LSTM)进一步处理词级信息和任务相关特征的联合表示,挖掘文本中潜藏的层级结构信息。最后使用条件随机场(CRF)对模型进行求解得到最终的序列标注结果。该文实验采用德国UKP实验室的学生论文数据集、维基百科文章等六个数据集进行相关的对比实验。实验结果表明,该文提出的方法在宏观F1值上较基准模型有1%-2%的提升,有效地提升模型的整体性能。  相似文献   

13.
结构化数据和非结构化文本被视为两种不同的模态。数据到文本生成是自然语言生成领域中一个重要的跨模态任务,该任务的目标是对于给定的结构化数据,生成一段文本用以描述结构化数据中包含的关键信息。近年的研究工作通常关注于描述性文本的生成,虽然取得了一定的研究进展,但仅能做到信息的传递而不能带来任何增益。为解决这一问题,本研究数据到分析性文本的生成,并针对该任务提出一个基于主题感知的跨模态序列到序列模型。该模型在编码器-解码器结构的基础上,引入数据表的主题信息以保证生成文本与数据表之间的主题一致性,提高生成文本的质量。为验证模型的性能,提出两个真实数据集,并与其他6个模型进行对比实验,结果表明,提出的模型取得了最好的性能。  相似文献   

14.
文本挖掘是数据挖掘的重要内容之一,对于信息的获取和知识的发现具有十分重要的意义,同时也是维护互联网信息内容安全的重要手段。对文本挖掘技术和信息内容安全的基本概念和理论进行系统地归纳并对相关前景进行了展望。研究分析了文本挖掘和信息内容安全的定义及文本挖掘与现有的数据挖掘和自然语言处理进行了对比;深入总结分析了文本挖掘的数据预处理、挖掘分析以及可视化过程中涉及到的关键技术和文本挖掘在信息内容安全领域的相关应用;研究新的文本特征表示模型、发展全新的非结构化的文本挖掘算法和构建融合大数据处理、自然语言处理、数据挖掘、图像处理、模式识别相集成的文本挖掘综合系统是提升文本挖掘性能的重要方向。  相似文献   

15.
目的:解决Web数据挖掘中的半结构化数据模型和半结构化数据模型的抽取问题.方法:运用XML作为元标志语言所提供的描述结构化资料的格式来使复杂的Web数据挖掘简单化.结果与结论:可以加强对非结构化数据如文本数据、图形图像据、多媒体数据的挖掘.  相似文献   

16.
为了从大量日常收集的航空安全信息中快捷、准确、高效地获取可能存在的安全隐患,为安全风险控制提供明确的改进方向,结合文本分析和机器学习对给定类型的航空安全信息根据其内容聚类是挖掘有效信息的重要基础.以2017年中国民航收集的系统失效/卡阻/故障事件为样本,在Python 3.6环境下通过对文本预处理,采用对数的词频-逆文本频率(term frequency-inverse document frequency,TF-IDF)进行特征提取以及K-means方法,建立该样本信息的自动聚类模型,基于多维缩放(multi dimensional scale,MDS)降维输出可视化结果.分析结果表明,文本信息聚类和可视化能够快速自动地对信息整理归档,识别各样本信息之间相似程度,轻松锁定关键信息,为下一步风险管控提供有针对性的措施.  相似文献   

17.
研究利用文本挖掘技术对已有的刑侦档案进行信息整合和文本挖掘,可以获取大量的有用知识,这些知识不论对刑侦研究,还是对于一线的刑侦工作都有很大的价值。文章对刑侦档案的信息整合和挖掘进行了初步探讨,给出面向刑侦档案文本挖掘的系统框架及文本精炼方法。  相似文献   

18.
事件指代消解任务比实体指代消解难度大, 主要原因为事件描述在非结构化文本中分布稀疏, 且不具备同指关系的单链占很大比例, 同时事件自身承载的语义信息比实体更加丰富。为了准确地抽取文本中的同指事件, 针对以上特点, 提出一种融合篇章表征的事件指代消解模型。该模型通过CRF有效地区分非事件句、单链以及同指链, 同时利用分层注意力机制捕捉句子级别和篇章级别的重要信息。在KBP2015和2016数据集上进行的事件指代消解实验验证了该模型的有效性, 在CoNLL评测标准下F1值达到43.07%。  相似文献   

19.
数据到文本的生成是指从结构化数据生成连贯文本的一种自然语言处理方法。近年来,由于端到端训练的深度神经网络的应用,数据到文本生成的方法显示出了巨大潜力。该方法能够处理大量数据自动生成连贯性文本,常用于新闻写作、报告生成等场景。然而,已有研究中对于数据中具体数值、时间等数据信息的推理存在较大缺陷,无法充分利用数据间的结构信息给出合理的生成指引,并且生成过程容易出现语义与句法分离训练的问题。因此,文中提出一种结合Transformer模型与深度神经网络的数据到文本生成方法,并提出一个用于内容规划的Transformer Text Planning(TTP)算法,有效地解决上述问题。在Rotowire公开数据集上进行方法验证,实验结果表明,文中方法性能优于已有数据到文本生成模型,可直接应用于结构化数据到连贯性文本的生成任务中,具有一定的实际应用价值。  相似文献   

20.
从Web上异质的、非结构化的数据中发现有用的知识或者模式是目前数据挖掘研究中的一个重要内容。Web挖掘就是从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏的信息。介绍了Web挖掘基本情况,在此基础上对基于Web的文本挖掘进行了分析研究,给出了一个基于Web的文本挖掘的结构模型图。重点介绍了网页聚类算法,实现了远程教学的按需学习和因材施教的要求。提出了一个基于Web挖掘的智能化、个性化的现代远程教育系统结构模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号