首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
针对传统文本特征选择算法没有考虑特征的语义及特征与类别之间关系的问题,提出了一种结合语义和分类贡献的特征选择算法.利用LDA主题模型获取文本和词的表示,通过计算词与文本之间的语义相似度,获取词对文本的重要性.再利用Word2vec词向量模型获取文本类别特征,通过计算文本中的词与文本类别特征之间的语义相似度,获取词对类别的重要性,最后结合词对文本的重要性和词对类别的重要性选择分类贡献度高的词作为最终的分类特征.实验表明,该算法能够有效地降低文本特征数量,减少分类计算开销,降低噪声对分类的影响,提升分类效果.  相似文献   

2.
以字为切分单位的BERT预训练模型在实体识别任务中表现优异,但其忽略粗粒度的领域词汇作为整体的语义表示信息,对于教育领域课程文本中存在大量嵌套实体的识别效果不佳。针对上述问题,提出动态融合字、词级别词向量的LEBERT-CRF教育领域课程文本实体识别方法,利用词典适配器将领域词典特征高效融入BERT模型中,以提升BERT模型对实体词边界的识别效果,更好地适应课程知识抽取任务。结果表明,LEBERT-CRF模型相较其他主流的实体识别模型表现更好,F1达到95.47%。  相似文献   

3.
中文文本实体识别,是自然语言处理的关键问题.传统的语言处理模型无法有效表示文本中的上下文语义信息,无法处理一词多义的不同语境,影响实体识别效果.提出了一种BERT-BiLSTM-CRF的实体识别模型,BERT预处理语言模型生成表征上下文语义信息的词向量,通过双向长短期记忆网络对生成的向量进行特征提取,自注意力机制能够有效获取文本语句中的长距离依赖,最后通过CRF进行解码生成实体标签序列.实验结果表明,该模型在微软亚洲研究院MSRA语料库和人民日报语料库上都取得了优异成绩,F1分别达到96.12%和95.88%.  相似文献   

4.
目前的神经网络一般只将词粒度层面的词向量作为输入,忽略了语义层面的全局语义特征.针对此问题,提出了一种基于局部特征和全局特征融合的情感分类方法,以解决评论特征稀疏和主题聚焦性差的问题.对于局部特征,选择基于情感词典和BiLSTM神经网络模型提取基于词向量的文本特征.对于文本集的全局主题特征,采用神经主题模型提取文本主题特征,并将其作为全局特征来表示短文本信息.最终将基于局部加权词向量的文本特征和基于神经主题模型的文本主题特征进行拼接,并通过Softmax层输出,完成文本情感分类.结果表明:融合全局主题语义和局部加权词向量可以更加丰富神经网络的特征,从而有效地提高情感分类的准确率.  相似文献   

5.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

6.
针对中文文本聚类受语义、 语法、 语境等因素的影响, 在使用传统向量空间模型向量化表征后, 文本向量之间相互独立, 语义关系被忽略, 影响聚类分析结果的问题, 提出一种基于语义簇的中文文本聚类算法. 该算法根据词共现的原理和语义相关性, 首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重, 利用特征词的搭配向量构建语义簇; 然后使用特征词及其搭配词的权重, 将特征词向语义簇中心进行空间变换, 求得嵌入语义信息的文档向量; 最后利用文档向量进行K-means聚类分析. 实验结果表明, 该向量化表示方法, 能有效提高文本向量对文本语义的逼近能力, 同时可提高文本聚类结果的准确率和召回率.  相似文献   

7.
在自然语言生成任务中,主题文本生成是一项富有挑战性的工作,其主要难点在于:源信息量远小于目标生成的信息量.为了解决该问题,本文提出一个基于外部知识筛选的主题文本生成模型Trans K,通过引入与主题词相关的外部知识来丰富源信息,进而提高生成文本的质量.本文为了解决引入外部知识的“一词多义”问题,提出一种基于线性变换的主题向量计算方法,用于筛选和主题词语义一致的外部知识;提出一种基于注意力机制的外部权重计算方法,为每个外部词设定一个主题权重,使其更贴合文本语义;为了解决主题词(含候选词)在生成文本中反复出现的问题,提出一种基于多头注意力机制的内部权重计算方法.在EASSY数据集上的实验表明,与基线相比,Trans K生成文本质量的各项指标更优.此外,人类评估表明,该模型可生成与主题更相关、语言更连贯、且符合语义逻辑的文本.  相似文献   

8.
电子病历实体识别是医疗领域人工智能和医疗信息服务中非常关键的基础任务.为了更充分地挖掘电子病历中的实体语义知识以提升中文医疗实体识别效果,提出融入外部语义特征的中文电子病历实体识别模型.该模型首先利用语言模型word2vec将大规模的未标记文本生成具有语义特征的字符级向量,接着通过医疗语义资源的整合以及实体边界特征分析构建了医疗实体及特征库,将其与字符级向量相拼接以更好地挖掘序列信息,最后采用改进的Voting算法将深度学习结果与条件随机场(Conditional Random Fields,CRF)的结果加以整合来纠正标签偏置.实验表明,融入外部语义特征的改进模型的F值达到94. 06%,较CRF高出1. 55%.此外,还给出了模型最佳效果的各项参数.  相似文献   

9.
为了解决分布式词表示方法因忽略词语情感信息导致情感分类准确率较低的问题,提出了一种融入情感信息加权词向量的情感分析改进方法。依据专属领域情感词典构建方法,结合词典和语义规则,将情感信息融入到TF-IDF算法中,利用Word2vec模型得到加权词向量表示方法,并运用此方法对采集到的河北省旅游景点的评论文本与对照组进行对比实验。结果表明,与基于分布式词向量表示的情感分析方法相比,采用融入情感信息加权词向量的改进方法进行情感分析,积极文本的准确率提高了6.1%,召回率提高了6.6%,F值达到了90.3%;消极评论文本的准确率提高了6.0%,召回率提高了7.2%,F值达到了89.6%。因此,融入情感信息加权词向量的情感分析改进方法可以有效提高评论文本情感分析的准确率,为用户获得更为准确的评论观点提供参考。  相似文献   

10.
现有的藏文文本聚类算法均采用向量空间模型来进行文本建模.该模型存在向量维度过高和无法表示语义信息的问题.该文根据藏文的语法特性并借鉴主题模型的思想,提出了一种基于词向量的藏文文本建模方法.该方法首先采用最大熵模型进行藏文文本词性标注,选择名词和动词作为文本的特征,然后利用word2vec工具训练得到词语类别并计算其在各文本的概率分布,最终以词类别概率矩阵表示文本,从而实现文本建模.与基于VSM和基于LDA的文本建模方法相比,该方法文本聚类结果的F值分别提高了10.5%和2.4%,聚类效果提升明显.  相似文献   

11.
知识图谱的表示学习方法将实体和关系嵌入到低维连续空间中,从而挖掘出实体间的隐含联系.传统的表示学习方法多基于知识图谱的结构化信息,没有充分利用实体的描述文本信息.目前基于文本的表示学习方法多将文本向量化,忽略了文本中实体间的语义关联.针对上述缺点提出一种利用实体描述文本进行增强学习的方法,基于文本挖掘出关联性实体并对关联性进行分级,将关联性作为辅助约束融合到知识图谱的表示学习中.实验结果表明,该辅助约束能明显提升推理效果,优于传统的结构化学习模型以及基于深度学习的文本和结构的联合表示模型.   相似文献   

12.
针对当前大多数知识图谱嵌入方法对实体和关系的表示能力低、难以处理复杂关系的问题,提出一种基于四元数图神经网络的知识图谱嵌入方法,用于解决知识图谱的链路预测问题。该方法为了包含更丰富的关系信息,将四元数引入到知识图谱嵌入中对实体和关系建模,并考虑两者之间的共现关系。模型利用勒维图变换将知识图谱中的实体和关系转换为图网络中的节点,采用两者的共现关系构建图中的边;将四元数图神经网络(quaternion graph neural networks, QGNN)作为编码器模块,学习图节点的四元数嵌入;利用四元数空间内的哈密顿乘积构造评分函数对生成三元组进行排序。实验结果表明,所提模型能够很好地捕捉到实体与关系之间潜在的相互依赖关系,在知识图谱嵌入方面优于现有的嵌入模型。  相似文献   

13.
知识图谱技术对汽车高效的故障诊断具有重要的意义,现有汽车故障知识图谱构建存在着实体识别模型效果不佳、无法解决嵌套实体等问题。针对上述问题,通过采用全词掩码的预训练语义模型、加入对抗训练和改进嵌套实体识别模型的方式提高实体识别模型效果,提出了一种改进的嵌套实体识别模型。实验结果表明,所提模型在F1指标、P指标、R指标上相比基线模型分别提高了3.56%、4.08%、3.05%,相比其他模型也有不同程度的提高,验证了所提模型对汽车维修领域实体识别具有显著效果。同时,基于构建的汽车故障知识图谱,实现了汽车故障知识智能问答原型系统,展示了知识图谱技术在汽车故障诊断与维护领域的应用前景。  相似文献   

14.
针对中文司法领域信息抽取数据集中实体专业性较强、现有机器阅读理解(MRC)模型无法通过构建问句提供充足的标签语义且在噪声样本上表现不佳等问题,本研究提出了一种联合优化策略。首先,通过聚合在司法语料中多次出现的实体构建司法领域词典,将专业性较强的实体知识注入RoBERTa-wwm预训练语言模型进行预训练。然后,通过基于自注意力机制来区分每个字对不同标签词的重要性,从而将实体标签语义融合到句子表示中。最后,在微调阶段采用对抗训练算法对模型进行优化,增强模型的鲁棒性和泛化能力。在2021年中国法律智能评测(CAIL2021)司法信息抽取数据集上的实验结果表明:相较于基线模型,本研究方法F1值提高了2.79%,并且模型在CAIL2021司法信息抽取赛道中获得了全国三等奖的成绩,验证了联合优化策略的有效性。  相似文献   

15.
与现有的根据知识图谱的结构信息或实体属性特征进行相似度匹配的实体对齐的方法不同,提出了一种基于表示学习的知识图谱实体对齐方法.首先,在低维向量空间下,通过机器学习方法学得实体和关系的语义表示,这种表示形式蕴含了知识图谱的内在结构信息及实体属性特征;其次,将人工标注的实体对作为先验知识,学习知识图谱间实体对的映射关系.经实验验证表明:与基于特征匹配的方法SiGMa相比,本文方法能够有效提高知识图谱实体对齐的精确率,同时保持较高的F1值.  相似文献   

16.
为解决数控(computer numerical control, CNC)机床设计知识图谱构建过程中关键实体的抽取问题,制定了数控机床领域知识分类标准和标注策略,构建了领域数据集,并提出了一种基于RoBERTa(robustly optimized BERT pretraining approach)的数控机床设计知识实体识别方法。首先,利用数控机床领域数据集对RoBERTa模型进行微调,再利用RoBERTa对文本编码,生成向量表示;其次,采用双向长短期记忆(bidirectional long short-term memory, BiLSTM)网络提取向量特征;最后,利用条件随机场(conditional random field, CRF)推理出最优结果,进而为实体打上标签。实验结果表明:模型在数据集上的F1值为86.139%;对多数关键实体的F1值大于85%;相比其他模型提升2%~18%。可见该方法在数控机床设计知识实体识别中具有明显优势,能够识别机床设计知识文本包含的关键实体,为数控机床设计知识图谱构建提供了数据基础。  相似文献   

17.
将知识库增量引文推荐(cumulative citation recommendation, CCR)任务分解为3个基本的关键问题:针对知识库某一实体名的查询扩展;针对文档和实体的特征提取;基于线性和非线性相结合的分类模型。提出了基于语义词典(DBpedia)与词向量(word embedding)相结合的方法进行查询扩展,以及利用LDA和ESA两种算法对文档进行特征提取,最终通过线性逻辑回归与非线性随机森林相融合的分类算法实现CCR算法。与基线系统相比,该方法在TREC KBA2014评测数据上的试验结果的F1平均提升了14.7%,表明本文设计的方法能够较好地解决引文推荐问题。  相似文献   

18.
基于大型预训练语言模型的有监督学习方法在可控文本生成任务上取得了优秀的成果,但这些研究都着重于控制生成文本的高级属性(比如情感与主题),而忽略了泛化性问题.现有的基于自监督学习的研究方法则通过句子级别的训练来使模型获得补全整句的能力,使模型做到单词和短语级别的控制生成,但生成与特定属性强相关句子的能力依旧待提升.所以本文提出了一种单词级别(细粒度)与句子(粗粒度)级别相结合的多粒度训练方式:单词级别的主题模型让模型学习主题层面的语义以获得主题到文本的生成能力,句子级别的自监督训练让模型学习整句的表征以获得补全句子的能力.通过主题模型与自监督学习的结合,使模型在单词与短语级别的可控生成阶段取得了更好的效果.实验表明,本文提出的模型在主题契合度以及常规文本生成指标方面优于现有的基线模型.  相似文献   

19.
为了对知识库(KBs)进行补全,提出一种新的基于路径的推理方法,使用注意力机制,将实体与其类型相结合,共同对路径中的实体进行表示,并使用注意力机制对每条路径预测的关系向量与给定关系的表示向量之差的绝对值进行汇总来计算模型的置信度.在基准数据集WN18RR和FB15k-237上的实验结果表明,与现有的基于路径的关系推理方...  相似文献   

20.
在新闻推荐场景下,传统的基于文本特征的新闻推荐模型只考虑了词的共现关系,无法捕获词语的隐含词义和关联知识;而基于深度学习的推荐模型在融合知识图谱信息中仅仅考虑实体的信息,忽略了远距离实体之间的联系,造成实体之间的关联信息和深层次语义联系的缺失.针对该问题提出了一种基于知识增强的深度新闻推荐网络(deep knowledge-enhanced network,DKEN),利用长短期记忆网络提取知识图谱中的实体路径特征,补充到注意力网络中,然后针对不同的候选新闻动态地构建用户的特征.实验表明该实体路径信息能提高模型的效果,在F1指标上提升大约1%.   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号