共查询到20条相似文献,搜索用时 15 毫秒
1.
研究了利用半结构化时空数据的"嵌套"特征实现对时空数据存储和管理的问题,提出了一种面向时空嵌套关系的半结构化时空数据管理模型.该模型以时空数据的"嵌套关系"为管理对象,用更丰富的数据语义(semantics)区别了"实体对象类"的属性、"空问嵌套关系类"的属性和"时空嵌套关系类"的属性等概念,运用非第一范武的嵌套关系数据库实现对时空数据的综合营理.基于传统关系型DBMS和GIS组件构成的软件实验系统表明,本模型简明有效,在数据更新和冗余方面均取得了较好的效果.该研究为半结构化时空数据的管理探索了一条新的途径. 相似文献
2.
基于2017—2021年浙江省12345政务热线数据,从居民视角构建细粒度的民生问题三级分类体系,并利用BERT预训练模型来构建文本分类模型,将居民诉求文本转化为民生问题标签。研究结果表明,在政务热线数据中加入30%的人工生成诉求样本,可以使模型的分类准确率提升约10个百分点,准确率最高可达84.59%。对浙江省各类民生问题占比的分析结果表明,环境保护、违规经营和市政服务等诉求的比例呈现下降趋势,而公共服务、交通问题、购房问题和新兴消费模式的诉求比例呈上升趋势。研究结果有助于加强政府对于民情民意的了解,提升数据驱动的社会治理能力。 相似文献
3.
针对面向中文网络百科条目文章的属性和属性值抽取, 提出一种无监督方法。此方法将属性值看做命名实体, 利用频繁模式挖掘和关联分析, 从文本中抽取类别属性; 采用自扩展方法为属性建立触发词表; 基于属性触发词和属性值实体标注挖掘属性值抽取模式, 利用层次聚类算法获取高质量的模式。在互动百科中采集的数据集上进行实验, 结果表明所提方法行之有效。 相似文献
4.
针对Web论坛的一种结构化数据自动抽取方法 总被引:1,自引:0,他引:1
由于网页布局设计的复杂性和用户发表帖子的灵活性,从论坛网页中抽取结构化的数据是一项未能很好解决并非常具有挑战性的任务。本文提出了一种从任意的论坛站点中自动抽取结构化数据的通用解决方案,通过分析网页结构发现列表页和帖子页中的数据记录,并利用一组产生式规则从发现的数据记录中抽取结构化的数据。实验结果表明该方法在抽取论坛数据记录方面明显优于已有的方法,对论坛帖子的标题、作者、发表时间和内容文本块等元数据的抽取达到了较高的准确率。 相似文献
5.
从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取多维度特征训练序列标注模型,并利用上下文信息进一步提高系统性能,进而在非结构化文本中抽取出实体的属性及属性值.实验结果表明:该方法在百度百科多个类别中均有效;同时,该方法可以直接扩展到类似的非结构化文本中抽取属性. 相似文献
6.
在非结构化数据挖掘结构模型——发现特征子空间模型(DFSSM)——的运行机制下,提出了一种新的Web文本聚类算法——基于DFSSM的Web文本聚类(WTCDFSSM)算法.该算法具有自稳定性,无须外界给出评价函数;能够识别概念空间中最有意义的特征,抗噪声能力强.结合现代远程教育网应用背景实现了WTCDFSSM聚类算法.结果表明:该算法可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘;采用网格结构模型,帮助人们进行文本信息导航;从海量文本信息源中快速有效地获取重要的知识. 相似文献
7.
文本表示是自然语言研究的基础问题,也是帮助我们高效处理网络上文本信息的关键.针对当前基于词或短语的文本表示模型容易丢失语义信息的问题,采用图结构的思想构造一种面向事件的文本表示模型-事件语义网络,该模型用事件触发词代替事件作为节点,以事件之间的语义关系作为边,把文本表示为节点和边构成的图.基于该模型实现了自动摘要应用,... 相似文献
8.
针对文本信息抽取中训练数据来源的多样化,不利于学习到最优的模型参数的问题,提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法. 新算法利用文本排版格式、分隔符等信息,对文本进行分块,在此基础上,通过对训练数据分成多个形式模板训练隐马尔可夫初始概率及转移概率参数,最后,结合统一训练的释放概率参数,对文本信息进行抽取. 实验结果表明,新算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能. 相似文献
9.
以基础地理数据为例,在研究现实世界-计算机世界-数据库中事件-变更操作-要素之间的逻辑关系的基础上,通过建立要素信息表、事件信息表以及包含事件关联、事件约束的事件树索引体系,提出并实现了面向事件的地理要素的时空回溯方法,为地理要素的时空查询与回溯奠定了基础. 相似文献
10.
11.
提出一种基于案例分析的文本数据抽取方法,通过将知识进行特征化表示,借助"用户特征—案例特征—案例知识"三者之间的映射关系和概念模块间的知识关联,完成复杂信息的知识抽取,同时引入增量式案例知识学习模型,有效地避免了因人工干预导致的知识拓展的不连续性,提高了抽取过程的识别效率. 相似文献
12.
杨晓宇 《太原师范学院学报(自然科学版)》2003,2(3):36-39
Web数据存在方式的特殊性使Web数据控制变得十分复杂,把现有的Web页面转换成XML可以使那些熟悉Web最常用技术的开发人员能快速而便捷地获取他们所需的以Web方式发布的信息.描述了从目前存在的最大信息来源-万维网-抽取信息的方法和实现过程. 相似文献
13.
结合模式匹配、生物医学本体及共现技术,设计了一种自动抽取基因与疾病、基因与基因之间关系的文本挖掘方法,并开发了一个可以处理海量文本数据的系统.该系统可抽取与疾病相关的基因实体,挖掘基因与疾病、基因与基因之间的关系,衡量基因与疾病实体的相关性,并为分析基因与疾病、基因与基因之间的关系提供了网络可视化工具.实验结果表明,系统在测试数据集上抽取基因与疾病之间的关系可获得83.0%的综合测评率,抽取基因与基因之间的关系可获得78.5%的综合测评率.该系统已成功应用于乳腺癌及相关基因的研究. 相似文献
14.
对只能获得部分标记的训练文本,将主动学习方法应用到文本信息抽取中,提出了一种基于主动学习隐马尔可夫模型的文本信息抽取方法.在该方法中,通过主动学习,仅将对隐马尔可夫模型的训练最有价值的训练文本挑选出来进行标记.实验表明,通过选择模型信任值的最佳门槛值,该方法在保证文本信息抽取性能的前提下,大大减少了用户标记训练文本的工作量. 相似文献
15.
随着大数据存储需求的不断扩大,网络存储技术面临如何存储并管理海量数据的问题.通过对现有各种大数据存储模型进行了对比分析,针对现有存储模型存储的局限性和大数据存储的特点,提出了一种基于数据特征的面向对象存储思想.采用虚拟类技术设计并实现了一种基于面向对象的大数据存储模型.在仿真环境中,对该模型的分类关键模块与非结构化数据存储性能进行了测试与分析,实验结果表明该模型分类模块误差较小,读写效率较高,而且随着数据的增大,非结构化存储性能保持稳定. 相似文献
16.
信息抽取技术是深层次分析文本语义信息的基础.随着数据量的增加,尤其是针对海量网络信息分析的需求,传统的基于手动标注或人工干预的训练分类方法已不能满足要求.以“大学生心理健康”相关网页作为信息语料,提出一种基于案例分析的文本数据抽取方法,可以实现跨领域信息自动抽取,能够快速有效地获得满足用户需求的信息. 相似文献
17.
随着计算机技术和Web技术的日益发展,Web的数据量越来越大,如何从庞大的数据量中挖掘出自己需要的信息,越来越成为人们的需要。本文以此为目的,设计了一个Web数据挖掘系统的体系框架,为后续的实现打下了基础。 相似文献
18.
针对金融系统数据的特点,基于ETL基本原理,结合工作流调度引擎,设计开发了具有结构化数据和半结构化数据处理能力的ETL(Extract Transfer move and Loading)处理平台——SETL(SMART ETL)智能化ETL处理平台。 相似文献
19.
基于OEM模型的半结构化数据的模式抽取 总被引:5,自引:0,他引:5
Web数据是典型的半结构化数据 ,缺乏明确的、预知的、与数据分离存储的外在模式 ,导致查询、浏览和集成Web数据的效率极低。该文提出一种基于 OEM (objectexchange model)模型的半结构化数据的模式抽取算法 ,采用自顶向下的剪枝策略 ,可快速发现频繁简单路径集 ,应用于半结构化数据的集成及查询回答与优化。其特点是可降低目标模式的规模 ,有效改进模式抽取的效率 相似文献
20.
针对当前主要的CTM模型只能分析公共话题的缺陷,提出一种PCCMix混合模型来实现跨文本集的话题分析.该模型把多个文本集中的话题划分为公共话题和文本集特有话题,首先根据文本数据建立这两类话题在所有词上的概率分布,再使用期望最大化算法进行模型的参数估计.实验结果表明,该模型不仅能够发现公共话题在不同文本集中的差异,而且能分析各文本集特有的话题.模型能更精确地对文本建模,具有良好的性能. 相似文献