首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
随着互联网的快速发展,信息也呈爆炸式增长,如何从海量的文本信息中获取所需的信息成为当今一门重要的课题.检索、分类、抽取等文本信息处理技术取得了长足发展,但面向人物属性的自动信息提取却没有引起人们的重视.基于规则的人物信息抽取算法,首先对需要抽取的信息进行规则描述,重点是时间、地点、籍贯等信息.在规则的基础上,研究开发人物信息抽取系统,最终实现了半结构化人物属性信息的自动提取.  相似文献   

2.
针对面向中文网络百科条目文章的属性和属性值抽取, 提出一种无监督方法。此方法将属性值看做命名实体, 利用频繁模式挖掘和关联分析, 从文本中抽取类别属性; 采用自扩展方法为属性建立触发词表; 基于属性触发词和属性值实体标注挖掘属性值抽取模式, 利用层次聚类算法获取高质量的模式。在互动百科中采集的数据集上进行实验, 结果表明所提方法行之有效。  相似文献   

3.
目的为解决SVM分类器的分类模式难以为人类专家所理解等问题而提出一种有关InterRBF算法的新思路。方法通过将RBF核函数将其展开成麦克劳林级数,并从展开式中挖掘对分类分析起重要作用的关联规则,从而在SVM的分类模式中学习出关联规则分类器。结果改进后的SVM分类器具有较好的分类准确度;改变了当前研究从SVM的分类模式中抽取规则的方法仅限于IF-TEHN规则或者学习出决策树的状况。结论从RBF核函数抽取关联分类规则,对于在难以理解的知识中提取可理解的表达规则是可行的方法。  相似文献   

4.
提出一种利用形态学属性剖面和单类随机森林分类的道路路域新增建筑物提取方法。用该方法计算路域范围内两时相高分辨率遥感影像的形态学属性剖面, 将得到的形态学属性剖面与光谱特征叠加, 采用改进的单类随机森林分类方法直接提取新增建筑物。以北京市稻香湖地区两时相高分辨率影像作为实验数据, 对比分析该方法与经典两时相直接分类及分类后比较方法的新增建筑物提取精度。结果表明, 综合利用形态学属性剖面和光谱特征提取得到的新增建筑物提取精度比仅使用光谱特征的提取精度显著提高, 其中Kappa系数提高15.11%。此外, 该方法提取结果的Kappa系数比两时相直接分类方法提高1.78%, 比分类后比较方法提高25.15%, 验证了所提方法的有效性。所采用的单类随机森林方法能够有效地处理高维数据, 并可以度量不同特征对分类结果的重要性。  相似文献   

5.
一种新型决策树属性选择标准   总被引:7,自引:0,他引:7  
讨论传统决策树算法中三种常用的基于熵的属性选择标准,提出一种基于属性重要性排序的建立决策树的新方法。该方法在决策树的每个内结点首先依据属性重要性将属性进行排序,然后选择最重要的属性作为分类属性生成决策树,并抽取出规则。与传统的决策树数据分类方法相比,此方法可有效地选择出对于分类最重要的分类属性,增强决策树的抗干扰能力,并提高规则的预测精度。  相似文献   

6.
为提高中文开源数据集间属性关系识别的准确率,提出一种数据驱动的细粒度对齐方法,综合利用属性的扩展、定义域等对属性间的同义、包含、相关等关系进行统一识别.方法首先利用统计理论确定属性的数据类型,并给出类型感知的属性相似度计算方法.在此基础上,将属性关系识别建模为多分类问题,抽取有效特征对不同关系进行描述并用于随机森林模型的构建.实验结果表明,该方法中属性数据类型判别的准确率达94.6%,最终对同义、包含、相关关系识别的F1值分别为71.3%,57.3%及59.9%.相比只关注同义属性的传统方法,细粒度属性对齐方法不仅提高了同义属性识别的准确性,而且可识别出相互包含和相关的属性,证明了其在中文开源数据集上的有效性.  相似文献   

7.
属性抽取的目标是从非结构化文本中抽取与文本实体相关的属性和属性值,然而在电商场景下基于序列标注的模型缺少应对大规模属性抽取任务的可扩展性和可泛化性能力。本文提出基于阅读理解的商品属性抽取模型,通过额外加入问句来强化模型对属性的理解,结合双仿射注意力机制捕获问句和文本之间的语义特征,进一步提高模型的抽取性能。本文在电商数据集上对不同类型问句和不同解码器进行了对比实验,结果表明本文提出的方法优于多个基线模型,相较于OpenTag和SUOpenTag模型,属性抽取的F1值分别提升7.70%和3.26%,未登录词识别的F1值分别提升15.51%和8.12%。  相似文献   

8.
基于关系触发词与单层门控循环单元模型进行关系抽取, 以降低关系抽取模型结构的复杂度, 并提高模型的训练效率. 通过计算单词的依存距离与序列距离得到关系触发词, 利用单层门控循环单元模型进行关系抽取, 并在SemEval 2010 Task 8数据集上进行实验. 实验结果表明, 该方法能有效提取出关系触发词, 并具有较高的关系抽取准确率.  相似文献   

9.
基于正交投影的BiLSTM-CNN的情感特征抽取方法旨在从文本中获取带权重的中性词向量,得到具有更高区分度的情感特征,为文本情感分类提供有力的技术支持.传统的深度学习模型会忽略关键局部上下文信息中的特殊意义词,导致获取的情感特征不够丰富.针对这一问题,本文提出一种基于正交投影的BiLSTM-CNN情感特征抽取方法.首先,将中性词向量投影到情感极性词的正交空间中,得到加权中性词向量,同时通过CNN深度学习模型抽取文本关键语义;然后,利用BiLSTM-Attention模型和带权重的中性词向量,从提取出的关键语义中学习可增强句子情感的语义特征,使文本在情感分类时更具判别性.实验结果表明本文所提出的情感特征抽取方法可以获取更完整的情感特征,从而显著提高文本情感分类的准确率.  相似文献   

10.
基于关系触发词与单层门控循环单元模型进行关系抽取, 以降低关系抽取模型结构的复杂度, 并提高模型的训练效率. 通过计算单词的依存距离与序列距离得到关系触发词, 利用单层门控循环单元模型进行关系抽取, 并在SemEval 2010 Task 8数据集上进行实验. 实验结果表明, 该方法能有效提取出关系触发词, 并具有较高的关系抽取准确率.  相似文献   

11.
通过基于柯尔莫诺夫-斯米尔诺夫检验的自适应特征提取法,提取出对大脑ERPs信号分类具有可辨识性的特征信息.应用具有良好模式分类性能的SVM在提取的特征属性基础上构造分类器,对ERPs信号分类.实验表明:自适应特征提取法不仅能有效地提取出分类特征属性,还极大地降低了数据空间维数;自适应特征提取与SVM相结合的分类准确率达...  相似文献   

12.
针对英文产品方面属性词抽取,提出了一种基于Bootstrapping的抽取方法。该方法利用少数几个种子模板,通过增量迭代的过程发现新的属性词,在每一轮迭代中通过统计技术,结合情感词典的情感词分析,利用属性词与模板的亲密度关系得到属性词被抽取出的概率得分,对候选属性词进行排序过滤。对于抽取后的特征词集利用Wordnet计算属性词间的相似度,根据得分进行聚类,得到产品不同方面的属性词类簇,同时过滤掉得分较低的类簇,进一步去掉噪声。此外还利用种子模板代替种子属性词以提高系统的可移植性。实验结果表明,利用该方法进行产品方面属性词抽取的准确率为0.799,召回率为0.779,调和平均值为0.789,具有较好的抽取性能。  相似文献   

13.
为了能够快速准确地提取出海量文本信息中的情感特征词,提出从情感词语集中通过人工筛选得到种子词并对其情感强度赋值,同时,以这些种子词为基准计算出情感词语集中其他词语的情感强度值,从而得到各特征词在词语级及句子级的倾向性贡献度值。然后,将特征词在词语级、句子级这2种不同粒度情况下计算出的情感倾向性贡献度值有机结合起来,构造出基于双粒度模型的中文情感特征词提取模型。该提取方法考虑了特征词在词语级和句子级2个方面的情感倾向,使最终提取出的情感词的准确率得到了提高。实验表明,只要有一个全面的情感词典系统和一组准确恰当的种子词,提出的方法可以获得良好的准确率和召回率。  相似文献   

14.
【目的】针对方面情感分类输入类别在不同领域之间差异较大,汽车用户评论文本语义信息不全,语义特征难以提取等问题,提出基于双通道输入的并行双向编码表征(bidirectional encoder representation from transformers, BERT)双向长短期记忆多头自注意力模型的方面情感分类方法。【方法】首先采用了方面情感和方面抽取的双重标签进行标注;其次通过并行的方面抽取和方面情感分类任务通道,分别使用BERT、双向长短期记忆网络(bidirectional long and short-term memory networks, Bi-LSTM)及多头注意力机制(multihead self-attention, MHSA)提取更深层次的语义信息及近距离和远距离特征信息;最后采用条件随机场(conditional random field, CRF)分类器和Softmax分类器进行分类。【结果】在相关的汽车用户评论文本数据集和多语言混合数据集上,本研究提出的模型相较于主流的方面情感分类方法,具有同步抽取方面词和判断情感极性的能力,且有效提高了方面词抽取和方面情...  相似文献   

15.
属性词提取和情感极性分类是细粒度情感分析的重要研究内容。为了提高属性词提取和情感极性分类的准确率,本文提出了一种改进的ReBERT模型。该模型基于深度学习的属性级情感分析,引入图像模态进行交互学习,选择了关系提取辅助的融合手段,在文本与图像双模态经BERT,ResNet预训练模型提取的特征向量基础上实现了属性词提取、情感极性分类两个基本任务。该模型在标记后的Twitter15/17数据集上表现良好,属性词预测F1值分别为81.9%与90.8%,属性级情感识别的精确率为76.5%与72.3%。本研究将该模型与同数据集下其他先进的基线方法进行了对比实验,与文本模态的消融实验相辅,证明了该模型在属性级情感分析任务上的优越表现。  相似文献   

16.
一种基于类别核心词的概念映射方法   总被引:1,自引:0,他引:1  
由于同义词和多义词的存在,使得基于特征词的文本分类方法分类精度不高.近几年,基于概念的文本分类方法得到人们的重视.在此提出一种基于类别核心词的概念映射方法,首先从文本中抽取类别核心词,借助<知网>将特征词映射到基于类别核心词的概念空间,然后在概念空间上完成文本分类工作.实验结果表明,基于类别核心词的概念映射方法及相应的基于概念的文本分类能够有效提高文本分类的精度.  相似文献   

17.
现有的中文事件触发词抽取方法大多数采用特征工程和触发词扩展方法, 无法利用同一文档中各个触发词实例之间的内在关系。为了解决上述问题, 基于马尔科夫逻辑网络(MLN), 利用核心词素, 训练语料中触发词实例填充真假事件的概率, 以及触发词实例间的关系等信息来推导测试集中缺乏有效上下文信息和低可信度的触发词实例。在ACE 2005 中文语料上的实验结果表明, 与基准系统相比, 该方法在触发词识别和事件类型分类阶段F1值分别提高3.65%和2.51%。  相似文献   

18.
事件检测是自然语言处理领域的重要任务之一,其结果可以有效支撑信息抽取、文本分类和事件推理等下游任务. 预训练语言模型BERT在事件检测任务上取得了显著的成绩,然而该类方法无法有效获取长距离和结构化的文本信息. 为了缓解该问题,本文提出基于反馈网络的图卷积神经网络模型进行文本结构信息捕获,同时这种新方法能够有效解决图卷积神经网络带来的语义信息衰减性问题. 本文首先使用BERT预训练模型获取文本的语义特征,然后使用融入反馈网络的图卷积神经网络提取文本的句法结构特征,最终使用多分类器实现对事件触发词的识别和分类.公开数据集ACE 2005上的实验结果表明,本文提出的事件检测方法在事件触发词识别和分类任务上的F1值分别达到了74.46%和79.49%,较现有工作平均提高了4.13%和4.79%.  相似文献   

19.
事件触发词识别是事件抽取技术中核心任务之一,在面向微博的突发事件触发词识别中,提出一种基于扩展触发词表和多值分类模型(P-Multi模型)相融合的触发词识别方法,进行事件触发词识别。以多值分类模型以扩展触发词为基础,结合基于模式规则匹配,对文本进行潜在语义分析,进一步挖掘触发词语义信息,将模式匹配和语义分析融合在微博突发事件触发词识别之中。实验结果在触发词识别准确率、召回率上均有所提升,证明了该方法的有效性。  相似文献   

20.
文章提出了一个新的新闻网页分类方法(WPCM),采用主成分(PCA)和熵值相结合的特征选取支持向量机(SVM)的分类方法.首先把网页用特征项权重予以表示,使用主成分方法抽取最相关的一些特征,然后从每一类中选择在该类具有代表性的词并计算这些词的熵,把两种方法提取的特征合并之后作为支持向量机分类器的输入,实验结果显示,该网页分类方法在体育类新闻中取得了良好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号