首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 8 毫秒
1.
针对传统英语语料库的缺陷,提出了对英语语料建立本体的新型语料库,并对基于Ontology在Web上挖掘英语语料做出了详细的阐述.对在Web上进行语料挖掘的几个关键技术作了不同程度的说明,并对此语料挖掘系统做出了评价.  相似文献   

2.
随着互联网技术的快速发展,Web信息呈现爆炸性增长,人们发现用信息检索的方法不能及时的得到想要的信息,于是出现了信息抽取,Web信息抽取是指从Web文档中自动抽取感兴趣信息的过程。本文主要介绍Web信息抽取的研究现状及抽取工具和抽取方法。  相似文献   

3.
在网络舆情分析中,人们迫切需要自动化的工具在海量信息中抽取所需要的信息,以供进一步分析利用.针对此问题,提出了基于自动生成模板的Web信息抽取方法,可以消除网页噪声,快速有效地抽取所需的网页信息.该方法通过解析器将Web文档解析成文档对象模型,根据用户需求建立抽取规则,采用自动生成模板机制,并依据模板的抽取规则对网页信息进行抽取.实验证明,该抽取方法具有较高的召回率和准确率.  相似文献   

4.
盲文语料库建设在国内外还没有先例.为了建设多功能、综合性的汉语盲文语料库,通过对现行盲文颁布60多年来的盲文出版物语料、非出版物语料以及盲人语料的采集,力图涵盖盲文使用的全貌.从语料调查、语料筛选、语料采集流程几个方面阐述了盲文语料库语料采集的主要内容,并指出语料采集的重点难点问题及应对策略.  相似文献   

5.
双语平行语料库是多语种自然语言处理的重要资源,已被广泛地应用于机器翻译、机助人译、翻译知识抽取与跨语言信息检索等领域中。本文针对汉语-印尼语平行语料的自动对齐与可比语料的自动提取问题,提出了基于锚点和词典相结合的段落对齐方法,并在此基础上采用基于置信区间的长度模型实现句子对齐,同时,为了快速提高汉语-印尼语平行语料库的构建效率,还提出了基于跨语言文档相似度的可比语料提取方法。实验结果表明,本文提出的平行语料对齐方法和可比语料提取方法的准确率较传统方法有显著的提高,说明本文提出方法是有效的、可行的。  相似文献   

6.
基于XML /Schema 甲骨文语料库语料标注的研究   总被引:3,自引:1,他引:2  
对语料库进行语料标注是实现原始语料信息计算机可读的关键.采用XML+XML Schema对甲骨文语料库进行结构化标注,使不同类型的数据表示成统一的格式,方便数据的交换与共享.给出了一种依据XML文档中使用的词汇集,对词汇集进行建模来约束XML文档中使用的元素和属性及其之间的结构关系和数据类型.根据定义好的XMLSchema使用XML对甲骨文信息进行结构化标注,可以准确地描述数据的结构及数据类型.  相似文献   

7.
抽象语义表示(Abstract Meaning Representation,AMR)到文本生成(简称AMR-to-Text生成),可将给定的AMR图生成与其意义相同的文本。由于AMR-to-Text生成可使用的标准数据集规模较小,因此该任务生成文本的性能受模型影响较大。针对此问题,文章基于大规模自动标注语料来比较先进模型和基准模型生成文本的性能,探索了先进模型在使用大规模自动标注语料的基础上,是否还能够保持其显著的性能优势。使用了(Sequenceto-Sequence,Seq2Seq)的Transformer模型和当前AMR-to-Text生成性能最优的图到序列模型,通过不同方案比较模型生成文本的性能。实验结果表明,在大规模自动标注语料的基础上,AMR-to-Text生成任务的先进模型与基准模型生成文本的性能没有显著差异,先进模型的性能优势不明显。  相似文献   

8.
基于DOM的Web信息抽取方法研究   总被引:1,自引:0,他引:1  
以往基于DOM的Web信息抽取方法在信息抽取过程中存在如需要较多样本集、适应性较差等问题,为解决Web上的信息在抽取中存在的问题,本文提出了一种在原有基于DOM的Web信息抽取方法的基础上引入竞争分类方法进行信息抽取。  相似文献   

9.
提出了一种利用多主体理论设计的信息采集系统ICS.它利用现有搜索引擎搜集回应者(能够提供查询问题答案的网络用户)的电子邮箱地址,将查询问题通过电子邮件发送给回应者,并收集回应者提供的答案,经过处理后提交给用户,从而将静态的信息检索变为用户之间动态的对话.试验证实,该系统能够提供复杂查询的答案.  相似文献   

10.
Web信息抽取是近十年来发展起来的一门数据挖掘技术。主要介绍信息抽取的概念和任务,并给出了Web信息抽取的评价指标和信息抽取的原理,最后提出了当前Web信息抽取方法中存在的问题以及以后研究的重点。  相似文献   

11.
Web信息查询研究进展   总被引:3,自引:1,他引:2  
Web上大量、分布、动态的信息,造成了用户在查询Web上的信息时产生的"信息过载”和"信息迷向”现象.Web信息检索与查询是目前的研究热点,本文分析和比较现有Web信息检索和查询语言技术的发展现状,介绍了基于人工智能领域中机器学习方法的Web信息检索和查询以及信息抽取技术的研究,以供研究者参考.  相似文献   

12.
基于关键词的搜索引擎满足了人们一定的需要,但由于其通用的性质,并不能满足用户的个性化需求,为此,设计并实现了一个基于示例的个性化Web信息自动获取系统.该系统采用了一种新的基于少量Web示例网页和语料库词频统计的特征抽取算法和过滤阈值设定方法.实验结果表明,较基于关键词的搜索引擎而言,该系统能充分考虑用户的兴趣偏好(示例),长期、主动地向用户提供更加准确的Web信息获取服务.  相似文献   

13.
对现行的Web信息资源搜索技术进行了分析,提出了基于Web的信息资源搜索的专业元搜索引擎分布式协作解决方案。  相似文献   

14.
根据现代社会对生态环境信息的需求,提出一种容易实现的实时信息采集系统。本系统能够通过Internet进行信息传送,实现全局生态环境信息采集。分析该系统的特点,简要说明实现本系统的关键因素。  相似文献   

15.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.  相似文献   

16.
介绍了目前网络上的主要WEB搜索方法和技术及一种优化搜索技术的方法,分析了搜索技术存在的不足及未来发展趋势.  相似文献   

17.
随着网络与通信技术的迅速发展,为了满足人满对特定领域信息的个性化需求,更具有针对性的垂直搜索引擎应运而生。本文介绍了垂直搜索引擎,并对垂直搜索引擎的核心技术垂直网络蜘蛛技术和信息抽取技术作了介绍,最后进行了总结和展望。  相似文献   

18.
基于 DOM 的 Web 信息抽取规则的构造与实现   总被引:1,自引:0,他引:1  
为了实现对Web信息的查询重、构和再利用,人们采用了Web信息抽取技术.本文主要讨论基于 DOM 的 Web 信息抽取,研究如何构造抽取规则,才能提高信息抽取的准确度、提高抽取规则的适应能力,并给出了抽取规则的生成过程.  相似文献   

19.
基于云计算的商业情报采集系统   总被引:1,自引:0,他引:1       下载免费PDF全文
商业情报采集系统不同于传统的搜索引擎系统,情报具有时效性、针对性等特点,传统搜索引擎中的数据分类和聚类技术不能完全满足商业情报采集过程中对时效性和针对性的特殊需求。提出一种商业情报采集解决方案,在云计算环境中采用贝叶斯分类算法和多种网页去重、提取等算法,实现对互联网数据的实时性抓取、分析、分类、聚类,形成对用户全方位立体化的情报本体,抓取的海量数据采用分布式文件系统存储,采集的情报用基于云的数据库CouchDB存储。  相似文献   

20.
提出了一种从模板网站中利用网络上的冗余内容提取结构化数据的方法。该算法从一些原始网站提取记录来填充种子数据库。然后,在每一个新的站点标识值,为了配合不同跨站点交涉的属性值,我们进行了相似性度量。同时为了过滤掉噪声,我们在那些基于模板的网站发现并应用了该属性的实际值。另外借助SOGOU和NICTCLAS中文分词等第三方接口来准确计算词频,使文字分析更适合人们常用的习惯。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号