首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 218 毫秒
1.
针对2013年CCF自然语言处理与中文计算会议(NLP&CC2013)中文微博实体链接的任务, 使用CCF提供的新浪微博数据作为训练和测试数据, 利用西南交通大学耶宝智慧中文分词平台作为自然语言预处理工具, 提出一种实体链接的方法。该方法应用改进的拼音编辑距离算法和后缀词表匹配法, 提出实体聚类消歧与基于百度百科词频的同类实体消歧相结合的消歧方法。在2013年CCF 中文微博实体链接评测任务中正确结果的准确率为0.8838, 在10 个参赛队伍中名列第3位。表明该方法有效并可以适应文本中的噪声。  相似文献   

2.
近年来,网络媒体微博的迅速发展,为命名实体的识别研究提供了一种全新的载体.针对中文微博文本短、表达不清、网络化严重等特点,论文提出了一种规则与统计相结合的中文微博命名实体识别方法.该方法首先利用中文微博的主题标签对处理后的数据进行筛选,然后再选取合适的特征模板,并利用条件随机场模型(Conditional random fields, CRF)进行实体识别.为了满足实验要求,该文将传统网页爬虫方法与API接口采集方法相结合进行微博数据采集.实验结果表明,该方法能够有效提高中文微博命名实体的识别效果.  相似文献   

3.
未链接实体分类是实体链指(Entity Linking, EL)任务中的重要研究内容之一。现有方法存在上下文语义信息不充分、分类准确率低等问题,导致实体链指任务表现不佳。本研究提出一种融合生成式模型的知识增强实体链指方法。该方法将实体链指分为两个子模块,即候选实体排序模块和未链接实体分类模块。本研究基于高精度的候选实体排序模块,获得高质量的知识扩展信息,并对未链接实体分类任务进行知识增强;针对未链指实体提及的分类问题,提出一套生成式框架,该框架能够取得超过基线模型的性能。本研究方法在2020年全国知识图谱与语义计算大会(CCKS2020)评测任务二的中文短文本实体链指数据集上取得了目前最佳性能(整体F值为91.76%),证明知识增强和生成式框架的引入能提高模型的泛化能力,缓解未链接实体分类中的信息不充分问题。  相似文献   

4.
介绍实体链接的概念和步骤以及基于深度学习的命名实体链接相关问题和研究现状, 分析实体链接研究中存在的问题及相应的解决模型, 并介绍相关数据集和评测方法。总结国际评测会议中实体链接的现状, 展望未来的研究方向。  相似文献   

5.
多特征中文命名实体识别   总被引:1,自引:0,他引:1  
命名实体识别任务是对文本中的实体进行定位,并将其分类至预定义的类别中.目前主流的中文命名实体识别的模型是基于字符的命名实体识别模型.该模型在使用句法特征之前,需先进行分词,不能很好的引入句子的句法信息.另外,基于字符的模型没有利用词典中的先验词典信息,以及中文偏旁部首蕴含的象形信息.针对上述问题,论文提出了融合句法和多粒度语义信息的多特征中文命名实体识别模型.实验证明论文模型相对目前主流模型有了较大的提高,同时论文还通过实验分析了各种特征对模型识别效果的影响.  相似文献   

6.
在大规模文本语料库上预先训练的BERT等神经语言表示模型可以很好地从纯文本中捕获丰富的语义信息.但在进行中文命名实体识别任务时,由于中文命名实体存在结构复杂、形式多样、一词多义等问题,导致中文命名实体识别效果不佳.考虑到知识图谱可以提供丰富的结构化知识事实,从而更好地进行语言理解,提出了一种融合知识图谱信息的中文命名实体识别方法,通过知识图谱中的信息实体增强语言的外部知识表示能力.实验结果表明,与BILSTM-CRF、BERT等方法相比,所提出的方法有效提升了中文命名实体的识别效果,在MSRA与搜狐新闻网标注数据集上,F1值分别达到了95. 4%与93. 4%.  相似文献   

7.
命名实体识别是自然语言处理的重要基础,同时也是信息抽取,机器翻译等应用的关键技术.近年来,网络媒体微博的迅速发展,为命名实体识别研究提供了全新的载体.针对中文微博文本短、表达不清、网络化严重等特点,对目前命名实体识别两种应用比较广泛的方法,基于最大熵模型的识别方法和基于条件随机场模型的识别,进行对比研究.在真实的微博数据上进行对比实验.通过实验结果的对比得出这两种方法在中文微博命名实体识别上的优缺点.  相似文献   

8.
实体链接任务的目的是将文本中的实体指称链接到知识库中与之对应的无歧义实体。针对此任务, 提出一种基于主题敏感的重启随机游走的实体链接方法。该方法首先使用实体指称的背景文本信息将实体指称扩充为全称, 并在维基百科知识库中搜索候选实体, 得到候选实体集合; 根据上述中间结果构建图, 利用在图上的主题敏感重启随机游走得到的平稳分布对候选实体集合进行排序, 选出top 1 的候选实体作为目标实体。实验结果表明, 该方法在KBP2014 实体链接数据集上实验的F 值为0.623, 高于其他系统实验的F值, 能够有效提高实体链接系统的整体性能。  相似文献   

9.
面向微博短文本的细粒度情感特征抽取方法   总被引:1,自引:0,他引:1  
结合TF-IDF方法与方差统计方法, 提出一种实现多分类特征抽取的计算方法。采用先极性判断, 后细粒度情感判断的处理方法, 构建细粒度情感分析与判断流程, 并将其应用于微博短文本的细粒度情感判断。通过NLP&CC2013评测所提供的训练语料对该方法有效性进行验证, 结果表明该方法具有较好的抽取效果。  相似文献   

10.
随着微博等社交平台的兴起,如何针对微博数据进行产品命名实体识别成为了自然语言处理领域研究的热点之一,也是实现舆情监督和商业智能的基础.传统的命名实体识别技术没有考虑中文微博口语化、不规范等特点,且忽略了深层语义对命名实体识别的重要作用.因此,考虑中文微博的特殊性,提出一种融合全局上下文信息的词向量特征选择方法,分别采用主题模型和神经网络词向量聚类两种方法获取深层语义信息,并结合层叠条件随机场进行中文微博的命名实体识别.实验结果表明,基于词向量聚类的中文微博产品命名实体识别方法取得了较好的效果.  相似文献   

11.
中文命名实体识别在中文信息处理中扮演着重要的角色. 在中文信息文本中, 许多命名实体内部包含着嵌套实体. 然而, 已有研究大多聚焦在非嵌套实体识别, 无法充分捕获嵌套实体之间的边界信息. 采用分层标注方式进行嵌套命名实体识别(nested named entity recognition, NNER), 将每层的实体识别解析为一个单独的任务, 并通过Gate过滤机制来促进层级之间的信息交换. 利用公开的1998年《人民日报》NNER语料进行了多组实验, 验证了模型的有效性. 实验结果表明, 在不使用外部资源词典信息的情况下, 该方法在《人民日报》数据集上的F1值达到了91.41%, 有效提高了中文嵌套命名实体识别的效果.  相似文献   

12.
鉴于现有中文实体链接基准语料库的缺乏, 在ACE2005中文语料库和中文维基百科的基础上, 通过自动构造和人工标注的方法, 构建一个中文实体链接语料库及其相关的中文知识库。与传统的英文实体链接语料库不同, 构造的中文实体链接语料库是基于实体而非单个实体指称(Mention)。中文实体链接语料库的构建, 将为中文实体链接研究提供一个可用的基准平台。  相似文献   

13.
为了准确地从中文文本中识别出复杂体育赛事命名实体,提出了一种基于双层条件随机场模型的命名实体识别方法.该方法首先在低层条件随机场模型中识别出简单体育赛事命名实体,然后在高层条件随机场模型中识别出嵌套了简单体育赛事命名实体的复杂命名实体如赛事名、参赛球队名和比赛场馆名.在对大规模真实语料进行的开放测试中,赛事名、参赛球队名和比赛场馆名识别的F值分别达到97.09%,97.81%和98.03%.  相似文献   

14.
针对中文产品命名实体,提出了一种基于多种特征融合的识别方法。该方法以词为标注粒度,将多种特征融合到条件随机场模型中,采用递增式学习策略选取最优的特征模板,实现了从中文自由文本中识别产品命名实体。实验表明,该方法获得了令人满意的实验效果,准确率、召回率和F值分别达到94.87%、92.50%和93.67%。  相似文献   

15.
汉字是象形文字,其字形特征对于中文命名实体识别有着重要的作用。针对双向长短期记忆模型(bi-directional long short-term memory,BiLSTM)提取部首,命名实体识别准确率不高的问题,提出笔画组成编码器,用于获取汉字的字形特征,并将笔画字形特征向量和预训练的语言表征模型(bidirectional encoder representation from transformers,BERT)输出的字向量进行拼接,将拼接后的向量放入双向长短期记忆模型与条件随机场(conditional random field,CRF)相连的标注模型(BiLSTM-CRF)中进行命名实体识别。实验表明,所提的方法在Resume数据集上命名实体识别准确率有显著提升。相较于用卷积神经网络做编码器提取汉字字形特征,准确率高出0.4%。相较于使用BiLSTM提取的部首特征模型和加入词典的长短期记忆模型(Lattice LSTM)模型其准确率分别提升了4.2%、0.8%。  相似文献   

16.
为了快速处理航天情报,基于数据驱动的深度学习技术,提出融合多源异构知识标注中文航天情报数据集的方法流程,以及基于预训练(pre-training)模型的航天情报实体识别(AIER)方法;通过对航天情报进行命名实体识别,达到对航天情报进行信息抽取的目的.通过融合BERT(bidirectional encoder representation from transformers)预训练模型和条件随机场(CRF)模型构建AIER模型(BERT-CRF模型),将其与隐马尔可夫模型(HMM)、条件随机场(CRF)模型、双向长短期记忆网络加条件随机场(BiLSTM-CRF)模型进行实体识别对比实验.结果表明:基于预训练模型的AIER模型能够取得93.68%的准确率、97.56%的召回率和95.58%的F1值;相比于其他方法,基于预训练模型方法的性能得到提高.  相似文献   

17.
中文嵌套命名实体关系抽取研究   总被引:1,自引:0,他引:1  
为了解决嵌套命名实体关系抽取研究缺乏相关语料库这一问题, 在现有中文命名实体语料库的基础上, 将人工标注与机器学习相结合来抽取其语义关系。人工标注一个中文嵌套命名实体关系语料库, 然后分别采用支持向量机和卷积神经网络等方法, 进行中文嵌套实体关系抽取实验。实验结果表明, 在人工标注实体的中文嵌套命名实体语料上, 嵌套实体关系抽取的性能非常好, F1指数达到95%以上, 而在自动识别实体上的抽取性能尚不理想。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号