首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 765 毫秒
1.
基于移动视频搜索等媒体应用对视频语义事件分析的迫切需求,提出一种新的足球视频精彩事件多模分析方法(简称多模事件分析法),即从体育网站新闻中抽取文本,利用音视频特征合成的情感激励曲线确定视频事件位置和精彩程度,基于自动提取的记分牌时间对齐文本事件和视频事件,实现了多模精彩事件的准确抽取和丰富语义标注。结果表明,多模事件分析法在进球、射门、犯规、角球、任意球等事件检测中不仅具有较高的准确率和查全率,而且标注结果更丰富,包含精彩程度、事件类型和文本描述等多模语义信息。  相似文献   

2.
框架网络工程是一个基于语料库的、经验性的、以框架为基础的计算机词典编撰项目。框架网络的基本单元是被称作框架的概念结构,它由三大部分组成,即框架库、词元库和例句库,而例句库又是其中的重要部分。针对构建例句库和词元库给出了一种基于汉语框架网络例句库的辅助标注系统的设计与实现的方法,介绍了配价模式的提取以及框架元素的句法实现模式的提取,并对框架元素、短语类型和句法功能分别进行了展示。  相似文献   

3.
基于语义标注的信息抽取   总被引:8,自引:2,他引:6       下载免费PDF全文
词性标注是引起语义缺失的根本原因,提出了以语义标注作为构建信息抽取规则的基础。基于语义标注的信息抽取可消除词性标注引起的3个负面影响,用统一的方法来指导信息抽取过程。这种方法避开语法分析,具有较细的处理粒度,对语义规则性强的领域有一定的普遍适用性。设计了基于语义标注的MIE(军用信息抽取)系统,并对标图文本试行信息抽取。抽取结果表明,基于语义标注的信息抽取方式有一定的可行性和适用性。  相似文献   

4.
针对汉语并列关系的标注方式, 提出一种基于条件随机场模型的并列关系自动识别方法。从语料库中自动抽取并列关系的角色信息, 进行角色标注, 在条件随机场模型的基础上实现并列关系的识别。与基于图的依存分析方法比较, 并列关系的召回率和正确率分别提高了9.1%和13.8%。  相似文献   

5.
新闻事件主题句识别任务是一项基于文本内容进行语义分析的自然语言处理技术。为准确计算新闻事件文本中与新闻主题语义最相关的句子,提出一种基于图的新闻事件主题句抽取方法。首先利用描述事件特征的触发词及命名实体构建候选新闻事件句子抽取模板,然后,计算候选事件句之间的关联关系构建事件关系无向图,最后基于TextRank算法思想将图中任意顶点的权值表征为与其有关联的顶点权值的加权和,并按权值进行排序实现事件主题句抽取。实验结果表明,提出的方法优于基于TFIDF和基于标题的事件主题句抽取方法,F值分别提升了6.26%和2%。  相似文献   

6.
基于语义依存线索的事件关系识别方法研究   总被引:1,自引:0,他引:1  
以事件为基本语义单元, 基于事件的篇章结构信息及语义特征, 通过分析事件的语义依存关系及其在演化过程中的语义依存规律, 提出基于语义依存线索的事件关系识别方法, 实现事件语义关系的浅层检测: 判定事件之间是否存在语义关系。实验结果显示, 相比于传统的基于语义相似度的识别方法, 新提出的基于事件语义依存线索的事件关系识别方法获得了5%的性能提升。  相似文献   

7.
提出了一种专项新闻语义框架以及借助该框架识别来自动检索、分类客户负面新闻的方法.与传统基于词的语义框架不同,负面新闻事件语义框架针对每个单一语境负面新闻事件子类来定义语义框架.通过构建框架知识库、领域词汇本体库及与框架关联的样本句子库,融合利用依存语法、词性标记技术和植入任务型代价的对数线性分类建模技术,实现了负面事件语义框架的自动识别.测试表明,该方法实用、高效,对知识库中已预定义的负面事件新闻类识别,在准确率、召回率和处理效率上都有很好的表现.  相似文献   

8.
利用新闻事件的话题、实体及其关联和发展趋势分析, 建立对新闻事件分析报告模型。该模型可以从多个角度描述新闻事件, 并依照新闻综述报告的写作特点, 制定出一种计算机自动分析报告生成的框架, 对新闻事件在话题和实体上的分析结果进行组合, 自动生成一篇观点分析透彻、图表信息生动准确的新闻事件分析报告。  相似文献   

9.
将现有W eb提升为语义W eb的有效方法之一就是标注W eb页。当前W eb上,动态生成页面的规模有静态页面的500倍之多,标注从数据库动态生成的页面是深度标注方法之一。针对数据库生成的W eb页面具有模板和结构化的特征,在对带模板的结构化HTM L文档和本体形式化表示之后,提出了两段式的深度标注框架,即第一阶段解析HTM L文档,抽取结构化信息,第二阶段指定实例与词汇间的映射,标注自动生成。与其他标注方法相比,该方法能明显降低标注过程的工作量。  相似文献   

10.
本文在藏语短语句法分析的基础上,融入功能语义信息线索,采用在藏语短语句法树库的基础上加入语义角色标注的方法,并融合事件触发词信息,对藏文信息进行抽取,并通过实验进行了对比分析。本文事件特征融合与已标注信息对藏文信息抽取有帮助,本文模型可以很好地应用于藏文信息抽取工作。  相似文献   

11.
中文新闻关键事件的主题句识别   总被引:2,自引:0,他引:2  
提出在单文档中通过提取主题句以获取关键事件信息的思想。根据新闻的体裁特点, 分析了新闻报道与事件的关系, 以及新闻标题在内容、形式和语言方面的特征。提出利用标题的提示性信息提取主题句来描述新闻关键事件的方法。该方法首先对新闻标题按信息含量进行分类, 然后结合新闻句子的词频、长度、位置、与标题的相似度等特征计算句子的重要性。实验表明, 该方法能够准确提取新闻主题句, 为进一步抽取事件信息打好了基础。  相似文献   

12.
基于新冠疫情时代海外侨情危机事件频发,提出一种基于自动化信息要素抽取的新闻事件类型识别方法,对后疫情时代侨情新闻事件进行智能危机类别划分.首先,利用爬虫技术获取特定时间段的相关侨情事件新闻,进而采用信息抽取模型对语料数据进行信息要素抽取;然后,根据要素集的取值判断每条新闻的危机事件类型;最后,对2020年1月-8月的侨情新闻数据进行实证研究.结果表明:该方法不但能提升侨情分析的效率,还能进行多维度的危机状况信息可视化,有助于制定危机事件应对策略.  相似文献   

13.
通过对新闻类文体的结构分析,将新闻文体按段落划分,采用一种基于情感词典和语义规则相结合的情感关键句抽取方法,对段落内的句子进行情感分析。综合考虑情感、转折、否定、程度和归总等词语信息构建情感词典,根据规则切割新闻文本,将新闻划分为意群、句子、段落以及篇章,通过制定的规则计算情感关键句倾向值,最终获得段落以及整个篇章的情感倾向值,从而得出新闻的情感倾向。与情感词典和SVM情感分类方法的实验结果对比表明,本文方法在对新闻文本进行倾向判别时效果较好,方法具可行性。  相似文献   

14.
在网络舆情分析中,人们迫切需要自动化的工具在海量信息中抽取所需要的信息,以供进一步分析利用.针对此问题,提出了基于自动生成模板的Web信息抽取方法,可以消除网页噪声,快速有效地抽取所需的网页信息.该方法通过解析器将Web文档解析成文档对象模型,根据用户需求建立抽取规则,采用自动生成模板机制,并依据模板的抽取规则对网页信息进行抽取.实验证明,该抽取方法具有较高的召回率和准确率.  相似文献   

15.
针对目前商用CAD软件中MBD功能三维标注缺乏正确性校验问题,基于OpenCASCADE几何造型内核研究了三维尺寸标注与标注有效性检查的问题.通过提取被标注对象的几何特征,结合信息标注规则,判断用户标注内容与标注对象间的匹配性,进而判断标注的正确性,增加了系统三维尺寸标注的智能性.设计了分层数据结构存储标注信息,并将标注信息与形体要素相关联,避免了三维标注中重复标注的现象,也为后续的产品虚拟装配、加工制造以及产品服役中产品语义信息的自动化提取提供可能.将标注信息以XML格式储存,便于信息的传输和访问,为进一步研究产品的数字孪生技术打下良好的基础.  相似文献   

16.
刘继明  孙成  袁野 《科学技术与工程》2021,21(18):7635-7641
为进一步提高客户语音问句实体信息抽取的准确性,增强智能问答系统知识图谱中信息抽取技术的整体效果,首先对语义标注进行优化,随后在BiLSTM-CRF(bidirectional long short-term memory conditional random filed)基础上加入BERT(bidi-rectional encoder representation from transformers)模型对句子进行实体抽取学习.在具体实验中,以语音问句事件文本为数据来源,对其进行语义标注和实体抽取实验.结果 表明,在语义标注优化的基础上同时加入BERT改进模型,信息抽取结果均高于BiLSTM-CRF方法,且改进模型的调和平均值达到91.53%,即可为增强事件实体信息抽取提供实践意义.  相似文献   

17.
自动文摘的目的是借由计算机技术自动从原始文献中提取文摘,针对这一问题,提出了一种新的基于潜在语义分析(Latent Semantic Analysis,LSA)的中文自动摘要方法,该方法利用奇异值分解(Singular Value Decomposition,SVD)来获得文章的语义结构,以句子和全文的相似度为依据抽取一组句子作为文章的摘要,提升了自动摘要的效率和精度,并重点介绍了该方法的基本思想、特点以及实现方法。实验结果表明,该方法在实践中取得了预期的效果。  相似文献   

18.
针对传统问答系统答案抽取方式对答案片段的分词和上下文语义理解准确性的依赖严重,抽取过程耗费大量的人力和时间的问题,提出采用分步抽取答案的方法,先从答案片段中抽取包含答案的句子,再从提取的答案句中进行最终答案的抽取方式。在答案句抽取过程中使用Bi-LSTM( Bi-directional Long Short-Term Memory)和Max Pooling 结合的方法构建答案句抽取模型。实验结果表明,在答案句的抽取中,该模型的MRR( Mean Average Precision) 指数接近0. 75。  相似文献   

19.
Corpus is a kind of important resource for knowledge acquisition in the natural language processing(NLP). However, up to now, in the biomedical domain comparatively fewer corpus focus on semantic association among all tokens in a sentence. We proposed an annotation scheme based on feature structure theory for enriching biomedical domain corpora with token semantic association(TSA). There are 227 documents of the Bio NLP GE ST training data annotated to form TSA corpus in which each annotated item shows a token semantic association that appears as a triple. The annotation of token semantic association has the potential to significantly advance biomedical text mining by providing rich token semantic information for NLP systems especially for the sophisticated IE systems, such as bio-event extraction.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号