首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 46 毫秒
1.
提出了基于条件随机场(conditional random fields,CRF)的网页动态关系抽取算法.给出了动态关系的定义,建立了动态关系的表示模型,并用一个六维结构来表达动态关系.与传统关系抽取中基于规则或者基于分类的解决方法不同,本文认为可以将动态关系识别问题转化为一个标注问题,并提出了基于CRF的句子层面的关系标注和抽取方法.在本算法中,首先将一个句子通过语义角色标注(semantic role labeling,SRL)系统进行成分识别,然后将语义角色标注结果以及词的POS类型、词组的命名实体类型等作为CRF的训练特征,对句子成分进行标注.最后测试了大量的真实新闻网页,实验结果表明了本文提出算法的实用性和有效性.  相似文献   

2.
为了提高检索结果的时间相关性,将文本特征抽取和多标签分类算法应用于文献检索的潜在时间意图分类研究之中.从检索潜在时间意图分类的角度出发,提出一种基于文本时间信息抽取和Labeled LDA(标签主题模型)的文献潜在时间意图自动分类算法.首先,在获取的文献时间信息基础上,将文献检索潜在时间意图映射至具体时间类别.其次,为了减少时间信息的稀疏性对分类特征学习过程的影响,利用交叉学科中时间短语分布特征优化Labeled LDA分类模型的标签选择过程.最后,将所提算法与其他多标签分类算法进行对比实验,分析和评估文献检索潜在时间意图自动分类的准确率.结果表明,所提算法的AUC的值达到79.6%,较同类基准算法ECC(整体分类链)提高约10.9%,且针对不同学科均取得了较好的分类效果,是一种有效的文献检索潜在时间意图学习方法.  相似文献   

3.
数据分类是数据挖掘的主要内容之一,通过分析训练数据样本,产生关于类别的精确描述.贝叶斯分类是数据挖掘领域中一种常用的有效分类方法.在关系学习中,贝叶斯分类算法有很多种,对这些算法进行总结、比较,指出其优点与不足,对提高分类效率有很大帮助.本文对已有的关系学习中贝叶斯分类算法作了详细的比较,并进行归纳总结.在单关系学习中重点介绍了几种基于粗糙集的贝叶斯分类器和加权贝叶斯分类算法,并分析了各种方法的模型、权值确定方法、优缺点及进一步工作方向.在多关系学习中主要比较了几种基于语义关系图的贝叶斯分类算法,重点介绍了MI-MRNBC模型.最后对本文工作进行了总结与展望,提出进一步工作方向是研究基于粗糙集的多关系贝叶斯分类算法.  相似文献   

4.
关系抽取是许多信息抽取系统中的一个关键步骤, 旨在从文本中挖掘结构化事实. 在应用传统的远程监督方法完成实体关系抽取任务时存在 2 个问题: ① 远程监督方法将语料库中的文本与已标注实体和实体间关系的知识库启发式地对齐, 并将对齐结果作为文本的标注数据, 这必然会导致错误标签问题; ② 目前基于统计学的方法过于依赖自然语言处理工具, 提取特征处理过程中生成的噪声积累严重影响抽取结果. 为了解决远程监督存在的弊端, 提出了一种基于注意力机制的端到端的分段循环卷积神经网络(convolutional neural network, CNN)模型. 为了检测更加细微的特征, 在网络输入层添加了注意力机制, 自动学习句子中与关系抽取相关的内容; 基于位置特征和词向量特征对句子进行编码, 并使用分段卷积神经网络(piecewise CNN, PCNN)抽取句子特征进行分类, 在网络中使用了效率较高的最大边界损失函数来衡量模型的性能. 该方法在 New York Times (NYT)数据集上的准确率比经典的 PCNN+MIL 模型提高了 2.0%, 比经典的 APCNN+D 模型提高了 1.0%, 与其他几种基线模型相比, 该模型准确率表现出色.  相似文献   

5.
针对现有基于内容的推荐方法中存在的知识利用不充分问题,提出了一种融合关系抽取的推荐系统,在用word2vec模型对物品知识进行编码的基础上,用补充模板特征的关系抽取模型对物品知识进行了更深层次的挖掘,构建了增强知识图谱,进而获得增强实体特征,与文本特征、基础实体特征融合后构建物品特征.实验证明,融合关系抽取的推荐系统推荐效果优于同类模型,并且各个部分的改进都是有效的.  相似文献   

6.
一种新的手写体字符识别算法   总被引:2,自引:0,他引:2  
研究模式识别的核心问题——特征抽取.基于偏最小二乘(Partial Least Squares,简称PLS)回归和特征融合的思想,提出了一种组合特征抽取的新方法并将之用于手写体字符识别中.在PLS建模阶段,为了提高PLS成分(特征)的抽取速度,提出了一种非迭代PLS算法.在特征融合阶段,用所抽取的PLS成分特征组成模式的相关特征矩阵,并依此相关特征矩阵进行分类.在Concordia University CENPARMI手写体阿拉伯数字数据库上的试验结果证实了该方法的有效性和鲁棒性,其分类结果优于基于单一特征的FSLDA方法的分类结果.另外,与已有的迭代PLS算法相比,所提出的非迭代PLS算法的复杂度和特征抽取的速度均占有优势.  相似文献   

7.
针对现有突发事件演化关系抽取方法仅利用了句子本身的信息而忽略了背景知识的问题,引入概念图谱进行特征拓展,以获得更多的语义信息来改善演化关系抽取效果。首先根据概念图谱构建突发事件语义网络,通过特征迭代选择算法获得演化因子的概念特征,然后联合概念特征与突发事件文本作为双向门控循环单元(BiGRU)模型的输入进行特征学习,并利用注意力(Attention)机制对输出的特征信息序列实施加权变换,最后将学习到的特征序列输入到分类器进行演化关系分类。实验结果表明,所提出的基于概念图谱与BiGRU-Att模型的方法相比于现有方法,在准确率、召回率和F_1值等评价指标上均有提升。  相似文献   

8.
对只能获得部分标记的训练文本,将主动学习方法应用到文本信息抽取中,提出了一种基于主动学习隐马尔可夫模型的文本信息抽取方法.在该方法中,通过主动学习,仅将对隐马尔可夫模型的训练最有价值的训练文本挑选出来进行标记.实验表明,通过选择模型信任值的最佳门槛值,该方法在保证文本信息抽取性能的前提下,大大减少了用户标记训练文本的工作量.  相似文献   

9.
通过结合2 738个领域词汇组成的词典对新疆旅游领域语料进行预处理操作,对文本信息进行实体关系抽取研究,提出基于旅游领域的词典信息,融合多级特征的Bi-LSTM、CNN和Attention机制的领域级关系抽取模型.该模型首先使用预训练模型生成含较强的语义表征能力的词向量;再使用Bi-LSTM获取更好的语义信息和词向量拼接以捕获长距离的语义特征;用CNN进行特征提取,加强局部特征的学习,并使用注意力池化层(Attentive-pooling)用以强化特征的表达;最后通过Softmax完成关系抽取任务.结果表明:该模型在SemEval-2010 Task 8公开数据集中F1值达到83.46%,证明了其有效性.且模型在新疆旅游领域语料的关系抽取任务中的F1值达到92.73%,优于目前的主流关系抽取模型.  相似文献   

10.
为了融合碎片化林业文本数据,解决目前林业网络知识散乱、无序和关联性不强的问题,将深度学习与知识图谱相结合,提出一种基于改进BERT和双向RNN的模型用于林业实体识别和实体关系抽取.通过基于实体Mask的BERT词向量处理,自动提取出序列中与研究领域相关的词级和语义特征,将词向量输入命名实体识别模型和实体关系提取模型训练...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号