首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
随着互联网的快速发展,信息也呈爆炸式增长,如何从海量的文本信息中获取所需的信息成为当今一门重要的课题.检索、分类、抽取等文本信息处理技术取得了长足发展,但面向人物属性的自动信息提取却没有引起人们的重视.基于规则的人物信息抽取算法,首先对需要抽取的信息进行规则描述,重点是时间、地点、籍贯等信息.在规则的基础上,研究开发人物信息抽取系统,最终实现了半结构化人物属性信息的自动提取.  相似文献   

2.
基于DOM的Web信息抽取规则的构造与实现   总被引:1,自引:0,他引:1  
为了实现对Web信息的查询、重构和再利用,人们采用了Web信息抽取技术.本文主要讨论基于DOM的Web信息抽取,研究如何构造抽取规则,才能提高信息抽取的准确度、提高抽取规则的适应能力,并给出了抽取规则的生成过程.  相似文献   

3.
研究了从包含多个数据块的页面中抽取数据的方法.通过对比各个数据块的XPath,发现这些数据块具有相似的XPath,提出一种基于XPath比较的数据块抽取规则生成算法XERG.得到各个数据块抽取规则之后,块内的信息可以使用相对XPath或者正则表达式的方法来进行抽取.实验结果表明,该方法能够准确地获得各个数据块,正确抽取块内信息.  相似文献   

4.
王腾阳  赵小丹  胡林 《科学技术与工程》2023,23(27):11562-11569
马铃薯育种领域积累有大量尚未结构化处理的育种文献文本,人工整理文献内的种质资源数据费时费力。为了快速、准确地从育种文献中提取种植资源数据,使用基于词性标注规则和预设词的方法抽取文献数据。文献格式为PDF文档,对于不能直接获取文档文本的情况,使用游程平滑算法和光学字符识别(Optical Character Recognition, OCR)获取文本内容。采用用户可灵活建立的关键词库保存抽取项,通过正则表达式获取关键词所在语句,并利用自然语言处理工具对语句进行分词与词性标注,根据规则抽取目标词,同时采用基于关键词与预设词距离的信息抽取方法,实现将育种文献从自由文本转化为结构化数据。对115篇文献的1490个抽取项进行信息抽取,实验表明,该方法的准确率为82.97%,召回率为99.72%,F值为90.58%,能以较高的准确率和召回率对马铃薯育种文献种质资源进行抽取,可为构建马铃薯遗传育种数据库提供数据基础。  相似文献   

5.
一种通用的多数据库间数据抽取方法及应用   总被引:4,自引:0,他引:4  
为方便从多个异构的数据源中抽取转换数据、并加载到目标数据库,提出一种较为通用的抽取方法,并开发了工具软件.该方法基于客户端的方案,使用数据库驱动程序屏蔽异构数据库间的差异;数据的抽取、转换和加载由数据抽取软件执行;数据的抽取转换基于抽取规则,抽取规则采用可视化方法编辑生成;抽取规则存储于规则库,供多次调用修改;多个抽取任务组成抽取任务队列.开发的抽取工具软件DbBridge,支持从Oracle,SQL Server,SAS,Access,Excel等数据源抽取数据.软件成功应用于某数据仓库的建立及数据迁移工作.  相似文献   

6.
从应用的角度提出了一种用于半结构化文本的基于正则表达式的信息抽取方法.通过对单个样本Web页面生成DOM(document object model)树生成信息抽取任务的规则.抽取规则采用正则表达式的形式记录目标信息的页面特征,通过规则的执行完成信息的抽取.该方法采用了基于正则表达式的Web页面的预处理(约简)、Web页面DOM树的生成、抽取规则的生成和执行.由于在实际大批量的抽取工作中能够避免多次生成页面DOM树,因此批量信息抽取的速度提高了约10倍.  相似文献   

7.
主要对COAE 2014评测中采用的算法进行描述,并结合评测结果进行分析比较。本次评测共有5个任务,本文重点描述与微博相关的3个任务。在微博情感新词发现和判断的任务中,方法核心是利用谷歌翻译算法的对齐操作来获得候选新词,之后使用平均点互信息筛选高频词语。在微博倾向性分析任务中采用两种方法,一种是传统的基于情感词典的极性判断方法,另一种是结合情感词标注的基于条件随机场CRFs的极性判断方法。在微博观点句要素抽取任务中,首先利用名词在复杂网络中的中介性和趋近性提取候选产品名和属性名,然后分别采用3种方法完成对产品属性名的抽取,其中,第一种方法是基于简单规则的滑动窗口抽取策略,后面两种方法都是基于CRFs的有监督抽取策略。  相似文献   

8.
在网络舆情分析中,人们迫切需要自动化的工具在海量信息中抽取所需要的信息,以供进一步分析利用.针对此问题,提出了基于自动生成模板的Web信息抽取方法,可以消除网页噪声,快速有效地抽取所需的网页信息.该方法通过解析器将Web文档解析成文档对象模型,根据用户需求建立抽取规则,采用自动生成模板机制,并依据模板的抽取规则对网页信息进行抽取.实验证明,该抽取方法具有较高的召回率和准确率.  相似文献   

9.
典型隐马尔可夫模型对初始参数非常敏感,采用随机参数训练隐马尔可夫模型时常陷入局部最优,应用于W eb信息抽取时效果不佳.文中提出基于模拟退火算法与隐马尔可夫模型的W eb信息抽取算法.通过实验比较选择最佳的模拟退火算法参数,结合Baum-W elch算法优化隐马尔可夫模型并应用于W eb信息抽取.实验结果表明新算法在信息抽取的精确率和召回率都有明显的提高.  相似文献   

10.
基于条件随机场的汽车领域术语抽取   总被引:1,自引:0,他引:1  
中文领域术语抽取是中文信息处理领域的一项重要研究任务,在词典构建、领域本体构造等方面有重要的应用.采用条件随机场(conditional random fields,CRFs),从汽车知识网站上爬取网页,预处理后得到纯文本,然后分析汽车领域的术语组成特点并制定相应的语料标注规则进行人工标注,对汽车领域进行了术语抽取.在使用词和词性特征的基础上增加了词典特征、领域词频和背景领域词频等特征,精确率、召回率和F-值分别达到84.61%、80.50%和82.50%.与其他方法比较说明所提出的汽车领域术语抽取方法是有效的.  相似文献   

11.
XQuery语言的实现   总被引:1,自引:1,他引:0  
首先分析了万维网联合会(W3C)提出的XML查询语言XQuery语言的特点,提出了支持W3C的XQuery语言查询处理引擎的体系结构。简要介绍了基于该体系结构所实现的XQuery处理引擎的词法/语法解析、语法转换、类型检查和分析、赋值计算等四个处理阶段涉及的主要内容。  相似文献   

12.
为揭示微波辅助技术强化中草药提取过程的机理,针对微波预处理.回流提取联合工艺,建立了提取动力学方程,并利用该方程模拟了山楂提取实验,探讨了微波功率和辐照时间对目标成分提取过程动态特性的影响.结果表明,回流提取时间均为2.5h,微波辐照80s,经65w和455W微波处理后的提取效果均较高,目标成分的提取量比未处理工艺分别提高了51.0%和47.7%.虽然上述不同功率水平的微波处理均能达到强化目标成分提取的效果,但微波强化提取的作用机制有所不同,前者在于材料内部较高的温度和含水量,后者在于较高的压力.微波作用主要通过2方面影响目标成分的提取动力学特性,一是影响目标成分与基质材料之间的解吸,二是影响基质材料内部的细微组织结构.  相似文献   

13.
传统方法实现过程复杂、历史复杂时态数据的片面性,导致其无法全面地描述时态数据;且相似性计算无法准确匹配具有动态性与复杂性的时态数据,造成提取精度低。为此,提出一种新的分布式多空间数据库复杂时态数据提取技术。设计动态RBF神经网络,对分布式多空间数据库中未知动态进行识别和建模;通过建模结果完成对复杂时态数据的描述。依据加权关联规则与时态关联规则对支持度和置信度的定义,获取T-FS-tree加权时态关联规则中支持度和置信度。将复杂时态数据描述序列、最小支持度、最小置信度作为输入,将加权时态关联规则作为输出,建立T-FS-tree加权时态关联规则挖掘算法。按照向量计算获取加权时态频繁1项集以及频繁2项集,依据获取的加权时态频繁项集建立初始频繁项集树;依据初始频繁项集树获取全部时态频繁项集;通过获取的频繁项集产生加权时态关联规则。从所有关联规则中选择优先度高的规则,构建的复杂时态数据提取器,实现复杂时态数据提取。实验结果表明,所提方法复杂性低,提取结果更加全面、可靠,有很高的准确性。  相似文献   

14.
响应面法优化莽草酸微波辅助提取工艺   总被引:4,自引:1,他引:3  
为优化八角茴香中莽草酸的微波提取工艺,在单因素实验基础上,选择微波提取时间、微波功率、液料比(mL/g)为自变量,莽草酸得率作为响应值,采用中心组合设计的方法,研究各自变量及其交互作用对莽草酸提取的影响。采用响应面分析软件,模拟得到二次多项式回归方程的预测模型,并确定微波提取最佳工艺条件为时间19min、微波功率614W、液料比17.3∶1。在此条件下,莽草酸的平均得率为3.03%。  相似文献   

15.
以油茶根为材料,分别采用甲醇回流提取、甲醇超声、蒸馏水超声等3种方法提取有机酸,并进行HPLC测定。结果表明:在水提和醇提中草酸、酒石酸、琥珀酸无显著性差异,苹果酸、马来酸、柠檬酸等含量均以水提最高。水提回流提取除了乙酸含量其余6种有机酸含量均低于超声提取的。植物根系中有机酸均适合以水提,而乙酸也适合以醇提。  相似文献   

16.
The aggregation behavior of various acid extractants in the solvent extraction systems of metal ions is re-examined and explained according to knowledge obtained in recent work. The conclusions are as follows. (1) Complexes formed by the extractants and metal ions can form reversed micelles in organic diluents, depending on the microstructures of the complexes. The dimers of the acid extractant cannot percolate to the metal-extractant aggregates, and the acid-salt complexes are always formed in the aggregates. The reversed micelles or the W/O microemulsions formed by different species cannot be associated with each other to form a unified aggregate. (2) In solvent extraction systems, hydration of the extractants and metal ions can be considered as the driving force of forming reversed micelles. (3) Information of the first approach to the insight of the bicontinuous microemulsion of NaDEHP shows that various components in the aqueous phase behave confined and very similar to the typical AOT/n-heptane W/O microemulsions. (4) In the extraction of lanthanide ions by the W/O microemulsion of sodium naphthenate, the saponification is a process of forming reversed micelle or W/O microemulsion, while the extraction step is a process of destroying reversed micelles or W/O microemulsion droplets.  相似文献   

17.
为了开发利用桂西北岩溶地区丰富的桑科榕属植物资源,采用超声波辅助法提取,苯酚一硫酸法测定桑科榕属植物果实多糖的含量,通过单因素试验和正交试验优化多糖提取的最佳工艺条件,并对其进行验证。结果表明:黄毛榕果实多糖提取的最佳工艺条件是:料液比1:40,提取时间60min,提取温度80℃,超声波功率160w。此条件下黄毛榕未成熟果实多糖的提取率为1.61%。按黄毛榕多糖提取的最佳工艺条件提取并测定的14种桑科榕属植物果实多糖含量为0.39%~3.63%,其中舶梨榕果实多糖含量最高,斜叶榕果实多糖含量最低,不同成熟度的榕属植物果实,其多糖含量略有差异,不同的桑科榕属植物果实,其多糖含量有较明显的差异。  相似文献   

18.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号