首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 46 毫秒
1.
文本表示是自然语言研究的基础问题,也是帮助我们高效处理网络上文本信息的关键.针对当前基于词或短语的文本表示模型容易丢失语义信息的问题,采用图结构的思想构造一种面向事件的文本表示模型-事件语义网络,该模型用事件触发词代替事件作为节点,以事件之间的语义关系作为边,把文本表示为节点和边构成的图.基于该模型实现了自动摘要应用,...  相似文献   

2.
基于核心依存图(kernel dependency graph,KDG)的事件抽取主要通过语义结构进行匹配。在已构建的越-英-汉南海新闻框架网络基础上,主要对KDG语义分析模式、基于核心依存图的新闻事件抽取分析以及核心依存图生成和新闻事件信息抽取进行研究。研究重点包括典型KDG、零形式框架元素和框架元素融合等特殊KDG的分析模式,面向事件信息抽取的KDG的表示模式和标注例句自动生成KDG的过程。研究结果表明,基于KDG的事件信息抽取方法直观明了、语言学理据充分,具有一定的可行性,对新闻文本中的语义线索发现较为适合。目前已经可以从已完成框架语义标注的例句中自动生成KDG并抽取出相应的事件模型。  相似文献   

3.
基于循环结构的卷积神经网络文本分类方法   总被引:1,自引:0,他引:1  
现有卷积神经网络在文本分类性能上受到词向量窗口长度的影响,在研究卷积神经网络分类方法的基础上,提出一种基于循环结构的神经网络文本分类方法,该方法对文本进行单次正向及反向扫描,能够在学习单词表示时尽可能地捕获上下文信息,整体算法时间复杂度为O(n),是线性复杂度;该方法构建文本语义模型可以捕获长距离的依赖关系,使得词向量窗口长度对文本分类性能没有影响,对上下文更有效地建模。实验结果表明,该方法构建文本语义模型的准确率达到96.86%,召回率达到96.15%,F1值达到96.5%,性能优于传统文本分类算法和卷积神经网络方法。  相似文献   

4.
针对当前文本分类算法未能充分利用标签的语义表示导致文本表示学习与分类预测割裂的问题,提出一种融合文本内容编码和标签引导文本编码的文本分类方法.在文本内容编码部分,通过长短时记忆网络获得文本序列累计语义表示,通过自注意力机制捕获和强化文本长距离语义依赖.在标签引导文本编码部分,设计交互注意力机制,通过标签引导得到经由标签的语义表示过滤下文本的新表示.最后将两部分输出融合,得到同时具有本地内容语义信息和全局任务指导信息的文本表示,使得模型在文本表示阶段即对分类任务具有早期感知力.实验结果表明本研究方法在真实数据集上可有效提升文本分类任务性能.  相似文献   

5.
事件是比"概念"粒度更大的知识表示单元,更符合人类的认识过程.事件作为新闻文本的知识单元,结合新戴维森事件语义和6要素事件模型,给出了一个新的事件形式化表示方法;扩展不同的操作算子给出了修饰事件要素的模糊信息、对象、时态与环境的形式化表示方法;使用描述逻辑方法描述了事件对象要素中的概念,给出了新闻文本中事件关系形式化的表示方法.实例表明,该方法能够较好地表示新闻文本中的事件语义.  相似文献   

6.
基于事件的文本相似度计算   总被引:2,自引:0,他引:2  
大量研究成果已经表明,事件在很多文本中是客观存在的.从语义的角度理解,诸多文本是由事件组成的,事件是文本表示的最小语义单位.给出了基于事件的文本表示模型,在此模型的基础上,从文本类型相似度计算和文本内容相似度计算两个层面论述了文本相似度计算的方法.  相似文献   

7.
传统的基于空间向量的文本谱聚类方法容易忽略文本上下文之间的语义联系,通过图结构进行文本表示可以很好的解决这一问题,在此基础上,本文提出了基于最大公共子图的谱聚类算法——SC-MCS算法。该算法通过求解文本之间的最大公共子图来进行文本相似度的计算,最后进行文本聚类。实验结果表明,与传统的基于空间向量的文本谱聚类方法相比,该算法在准确率和召回率都取得了一定的提升。  相似文献   

8.
提出了一种基于图结构的文本聚类方法,采用基于图结构的文本表示方法来构建文本的图结构模型,将一个文本映射为相应的图结构,通过最大完全公共子图的求解计算文本间相似度,并进行聚类。实验结果验证了该方法的有效性。  相似文献   

9.
为了提高文本标记和分类的效率,提出了基于概念语义相关性和LDA的文本自动标记算法(Text Mark Label,TML),用以代替人工标记的文本分类标记. 该算法在概念语义相关性计算的基础上,使用LDA(Latent Dirichlet Allocation)提取文本的主题表示,通过计算文本主题从属于各分类目录的期望从而实现文本自动标记. 为验证TML算法的效果,在标准文本分类数据集上使用文本分类器进行有监督文本分类实验. 为对比数据集和分类器对分类效果的影响,在3个数据集(WebKB、Reuters-21578、20-NewsGroup)上分别使用3种不同的分类器(Rocchio、KNN、SVM)进行实验. 实验结果表明:TML算法有效地提高了文本分类效率及文本标记效率.  相似文献   

10.
针对短篇幅文本数据稀疏的特性,提出了一种利用外部语料库知识提高短篇幅文本分割准确率的方法.该方法分2个步骤完成:①利用Gibbs采样方法估计语料库对应的潜在狄利克雷分配(LDA)模型,并利用该模型推断目标文本的潜在语义结构信息;②通过定义语义段落内凝聚性和语义段落间发散性2个目标函数,将文本分割问题转化为多目标优化问题.采用一种针对文本分割的并行遗传算法,获得全局最优解.通过实验,在文本数据稀疏的情况下,该算法在准确率方面优于多元判别分析(MDA)方法和基于LDA的文本分割方法,对于提高文本分割的准确率是可行和有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号