首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
信息抽取任务旨在从非结构化的文本中抽取出结构化的信息,帮助将海量信息进行自动分类、提取和重构,提高信息的利用率.目前,基于深度神经网络的信息抽取技术已经成为自然语言处理领域最重要的研究主题之一,它提供了分析非结构化文本的有效手段,是实现大数据资源化、知识化和普适化的核心技术,此外进一步为更高层面的应用和任务提供了支撑....  相似文献   

2.
随着互联网的快速发展,信息也呈爆炸式增长,如何从海量的文本信息中获取所需的信息成为当今一门重要的课题.检索、分类、抽取等文本信息处理技术取得了长足发展,但面向人物属性的自动信息提取却没有引起人们的重视.基于规则的人物信息抽取算法,首先对需要抽取的信息进行规则描述,重点是时间、地点、籍贯等信息.在规则的基础上,研究开发人物信息抽取系统,最终实现了半结构化人物属性信息的自动提取.  相似文献   

3.
对只能获得部分标记的训练文本,将主动学习方法应用到文本信息抽取中,提出了一种基于主动学习隐马尔可夫模型的文本信息抽取方法.在该方法中,通过主动学习,仅将对隐马尔可夫模型的训练最有价值的训练文本挑选出来进行标记.实验表明,通过选择模型信任值的最佳门槛值,该方法在保证文本信息抽取性能的前提下,大大减少了用户标记训练文本的工作量.  相似文献   

4.
通过对各种Web信息抽取方式的分析,将一种新的抽取方法应用于电子期刊信息抽取.该方法首先应用文档结构相对路径结合节点内容特征进行相似度比较来完成对所需抽取信息块的精确定位;然后对于需要抽取出来的各个信息项则采用正则表达式构造文本信息项的特征模式;在此基础上,实现准确抽取.测试结果表明:基于Web的电子期刊元数据信息抽取方法在查全率和精确度方面高于一般的信息抽取方法,取得了比较令人满意的效果.  相似文献   

5.
基于分块的网页主题文本抽取   总被引:2,自引:2,他引:0  
根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块.实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法.  相似文献   

6.
提出一种基于案例分析的文本数据抽取方法,通过将知识进行特征化表示,借助"用户特征—案例特征—案例知识"三者之间的映射关系和概念模块间的知识关联,完成复杂信息的知识抽取,同时引入增量式案例知识学习模型,有效地避免了因人工干预导致的知识拓展的不连续性,提高了抽取过程的识别效率.  相似文献   

7.
为准确地获取动态的用户兴趣信息,提出了一种基于信息抽取的用户兴趣自动获取方法.该方法首先根据电子商务网站中商品的领域知识构建领域Ontology,然后基于该领域Ontology自动抽取用户事务的语义文本信息,并将结构化的信息存入内容数据库,最后通过分析这些数据库中信息的特征值取得用户兴趣的描述文件.在汽车销售网站上的应用实例表明了该方法的有效性.  相似文献   

8.
实体关系抽取是信息抽取的重要组成部分.描述了一种融合多信息的实体语义关系抽取方法,充分利用中文的各种特征和信息来提高关系抽取的性能.该方法主要结合特征向量和树核函数两种方法;特征向量表示了文本的语言信息,树核方法表示了文本的结构化信息.并且在2005年的自主内容抽取(automatic content extraction,ACE)基准语料上进行关系检测和6个关系大类抽取的实验.实验结果表明,该方法能识别出大部分的非关系实例,各种关系类型识别的精确率和召回率也有一定提高.  相似文献   

9.
基于条件随机场的中文科研论文信息抽取   总被引:1,自引:1,他引:1  
科研论文头部信息和引文信息对基于域的论文检索、统计和引用分析是必不可少的.由于隐马尔可夫模型不能充分利用对抽取有用的上下文特征,因此文中提出了一种基于条件随机场的中文科研论文头部和引文信息抽取方法,该方法的关键在于模型参数估计和特征选择.实验中采用L-BFGS算法学习模型参数,并选择局部、版面、词典和状态转移4类特征作为模型特征集.在信息抽取时先利用分隔符、特定标识符等格式信息对文本进行分块,在分块基础上用条件随机场进行指定域的抽取.实验表明,该方法抽取性能明显优于基于隐马尔可夫模型的方法,且加入不同的特征集对抽取性能提升作用不同.  相似文献   

10.
提出了一种基于语义标注和最小二乘神经网络信息抽取的方法,并选用教材为研究对象,以语义标注作为构建信息抽取规则的基础,以原始文本与目标模板之间的相似度作为竞争力,通过原始文本与目标模板的竞争来实现原始文本的分类和噪声信息的过滤,直接从分类的角度抽取出教材信息。  相似文献   

11.
文章选用教材义特征向量作为信息抽取的基础,并用神经网络方法对语料进行训练学习并自动获取模板语义特征向量,最后结合目标模板抽取出所需信息.这种方法避开语法分析,具有较细的处理粒度,对语义元素搭配形式相对规范的领域具有一定的普遍适用性.实验结果表明,基于中文框架语义的信息抽取方法具有相对较高的准确率.  相似文献   

12.
Web信息抽取技术研究进展   总被引:14,自引:0,他引:14  
Web信息抽取技术是当今的一个研究热点.目前出现了基于不同原理的多种信息抽取技术,它们具有不同的性能.本文根据信息抽取的原理,对现有的信息抽取技术进行了分类,结合典型的系统,在语义的附加方式、模式的定义方式、规则的表现形式、语义项的定位方式、对象的定位方式等几方面进行了分析和比较,在此基础上提出了待研究的问题.  相似文献   

13.
Information extraction techniques on the Web are the current research hotspot. Now many information extraction techniques based on different principles have appeared and have different capabilities. We classify the existing information extraction techniques by the principle of information extraction and analyze the methods and principles of semantic information adding, schema defining,rule expression, semantic items locating and object locating in the approaches. Based on the above survey and analysis,several open problems are discussed.  相似文献   

14.
基于语义标注的信息抽取   总被引:8,自引:2,他引:6       下载免费PDF全文
词性标注是引起语义缺失的根本原因,提出了以语义标注作为构建信息抽取规则的基础。基于语义标注的信息抽取可消除词性标注引起的3个负面影响,用统一的方法来指导信息抽取过程。这种方法避开语法分析,具有较细的处理粒度,对语义规则性强的领域有一定的普遍适用性。设计了基于语义标注的MIE(军用信息抽取)系统,并对标图文本试行信息抽取。抽取结果表明,基于语义标注的信息抽取方式有一定的可行性和适用性。  相似文献   

15.
Web信息抽取与语义检索框架   总被引:1,自引:1,他引:0  
提出了一种Web信息抽取与语义检索框架,采用定制本体模型,针对Web网页特点设计了抽取与语义标引策略,并在检索过程中引入语义推理机制,从而改善了信息检索的效果.最后介绍了基于Jena实现的该框架的原型系统.  相似文献   

16.
从问句分析、信息检索和答案抽取3个环节介绍了基于本体的网络问答式语义检索系统的基本原理及技术方案,描绘了该项目的应用服务以及发展前景。  相似文献   

17.
在信息迅速发展的当今社会,信息技术课程教学的成败将直接影响到我国教育是否能够早日实现教育的信息化。计算机教师在信息技术的课堂教学中,如何提高学生的信息处理能力和运用信息技术解决实际问题能力有待深入研究。在探究的过程中,"任务驱动"教学法脱颖而出。目前,信息技术教育的大量实践证明,"任务驱动法"是非常科学的具有可操作性的教学方法。从实际教学的角度出发,分析了中职体育学校信息技术课程教学的现状,对"任务驱动"教学坚实的理论基础和内涵特点及主要结构进行研究分析,得出课堂教学模式改革势在必行性,从而对中职信息技术课堂教学采用任务驱动教学模式案例进行探讨。同时展望了"任务驱动式"教学模式的发展趋势。  相似文献   

18.
分析了利用SPOT卫星影像提取下垫面信息的现状,包括工程实践中通过SPOT立体像对恢复DEM的方法及其特点以及其他下垫面信息的提取方法及其特点;综述了智能化、高效率获取下垫面信息的研究进展.结果表明,随着科学技术的进步,空间分辨率低、大区域、高质量立体像对获取困难及云层覆盖等SPOT影像数据本身存在的缺陷将逐步被克服,但智能化、高效率地进行下垫面信息的提取,将是今后必须努力解决的理论与技术难题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号