首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对微博谣言带标签数据不足,且当下的谣言检测模型无法持续学习应对不断变化的微博网络语言等问题,本文提出BERT-BiLSTM-LML微博谣言持续检测模型.首先,使用BERT(Bidirectional Encoder Representations from Transformers)预训练模型提取两个任务输入文本数据的词向量;其次,使用双向长短时记忆(Bi-directional Long Short-Term Memory, BiLSTM)网络充分提取文本的上下文特征;最后,基于BiLSTM深层特征使用终身监督学习算法ELLA(Efficient Lifelong Learning Algorithm)对两个任务的特征数据进行建模,以实现对微博谣言的持续检测.实验结果表明:BERT词向量有效优化了模型性能,比基于Word2vec词向量的Word2vec-BiLSTM-LML模型在准确率和F1值都提升了5.5%.相较于独立学习,在持续学习争议检测任务后,模型的谣言检测准确率提升了1.7%,F1值提升了1.8%.同时,在持续学习过程中,随着知识的积累,谣言检测准确率持续提升.最终在公开...  相似文献   

2.
对微博文本的向量化表达及摘要效果的评测问题进行了研究.引入Word2vec模型实现微博文本词语的向量化表达,进而对词向量聚类生成主题词类.计算微博文本到主题词类的隶属度,结合主题词类的权重,生成微博文本的加权主题分布表达.在此基础上划分类簇实现摘要句的提取.基于类簇H指数选出高频词作为标准摘要词集,考察了生成摘要与标准摘要词集中共现词的词频分布,实现对自动摘要效果的评测.实验结果表明,本文提出的方法有助于提升微博短文本集的摘要生成效果.  相似文献   

3.
针对微博短文本存在的特征提取困难及微博谣言传播浪费网络资源的问题,提出了基于主题和预防模型的微博谣言检测.对微博进行主题提取,按主题分类后提取基于用户、传播结构、内容三方面的统计特征.将样本与官方谣言子集中的微博进行相似度计算,将其值与传统特征进行特征融合之后作为统计特征进入有监督的机器学习.实验结果表明,相对于传统的有监督机器学习,该方法将微博谣言检测的性能提升了3%左右,同时实现了谣言预防.   相似文献   

4.
针对当前主要的CTM模型只能分析公共话题的缺陷,提出一种PCCMix混合模型来实现跨文本集的话题分析.该模型把多个文本集中的话题划分为公共话题和文本集特有话题,首先根据文本数据建立这两类话题在所有词上的概率分布,再使用期望最大化算法进行模型的参数估计.实验结果表明,该模型不仅能够发现公共话题在不同文本集中的差异,而且能分析各文本集特有的话题.模型能更精确地对文本建模,具有良好的性能.  相似文献   

5.
对微博文本的多元情感分类问题进行了研究.针对现有的多元情感词典不能很好地覆盖微博文本中情感词的不足,结合特定的情感符号和基于卡方统计量的度量方法,实现对现有的多元情感词典的扩充;针对情感词典无法有效考察文本的上下文语境信息的问题,引入word2vec模型实现情感词和其所在微博语句的向量化表达.在此基础上,利用KNN分类器实现微博句子级的多元情感分类.实验结果表明,扩充情感词典及引入word2vec模型均有助于提升微博文本多元情感分类的效果.  相似文献   

6.
情感表达抽取工作是细粒度情感挖掘的重要任务之一.中文微博中包含大量网络新词和不规范词,现有的方法在进行微博情感表达抽取任务时不能很好地处理上述情况.通过研究发现,微博中新词大量分布在文本的情感表达部分,于是提出了基于CRF的联合抽取模型,即将新词发现融入到情感表达抽取任务中,从而改进原有工作的不足.实验结果表明,新词探测对微博文本情感表达抽取有很好的指示作用,在电影领域和开放领域的微博数据集上分别进行实验,F1值均提高了2%以上.  相似文献   

7.
谣言检测是对社交网络上传播的信息内容进行真实性鉴别的任务.一些研究表明融合多模态信息有助于谣言检测,而现有多模谣言检测方法具有以下问题:(1)只是将处于不同表示空间的单模态特征简单拼接形成多模态表示,没有考虑多模态之间的关系,难以提高模型的预测性能和泛化能力.(2)缺乏对社交网络数据组成结构的细致考虑,只能处理由文本-图像对的社交网络数据,无法处理由多幅图像组成的数据,且当其中一种模态(图像或文本)缺失时模型无法进行预测.针对上述问题,本文提出了一种多任务多模态谣言检测框架(MMRDF),该框架由3个子网络组成:文本子网络、视觉子网络和融合子网络,通过从单模态数据中提取浅层至深层的单模特征表示,在不同的子空间中产生特征图,丰富模态内特征,并通过复合卷积结构融合生成联合多模态表示,以获得更好的预测性能.同时该框架可以灵活地处理所有类型的推文(纯文本、纯图像、文本-图像对和多图像文本),并且没有引入造成额外时间延迟的传播结构、响应内容等数据作为输入,可以在推文发布后立即应用于谣言检测,减少辟谣的时间延迟.在两个真实数据集上的实验结果表明,所提框架明显优于目前最先进的方法,准确率上的提升分别...  相似文献   

8.
针对单一领域数据进行建模求解时,在数据较为匮乏的新兴领域中论辩挖掘任务难以开展的问题,提出一种面向低资源场景的多任务学习的论辩挖掘方法.该方法首先通过卷积神经网络和高速神经网络对原文本的字符信息进行编码,获得多个数据集在词级的共享信息表示;然后由有序神经元-长短时记忆循环神经网络进一步处理词级信息和任务相关特征的联合表示,挖掘文本中潜藏的层级结构信息;最后使用条件随机场进行求解.采用德国UKP实验室的六个数据集进行相关的对比实验.实验结果表明,所提出的方法在宏观F1值上较基准模型有1%~2%的提升,有效地提升模型的整体性能.  相似文献   

9.
网络舆情中的谣言对社会危害极大,因此有效地检测网络舆情中的谣言已是当务之急.目前,一些单一机器学习算法被相继应用到谣言检测中.针对这些单一机器学习算法在分类上的局限性,将一种融合逻辑回归与决策树的逻辑模型树方法用于谣言检测上.根据舆情分析报告上采集的数据集,实验结果表明:组合模型逻辑模型树的分类预测准确率比已应用到谣言检测的单一机器学习算法明显要高,逻辑模型树是一种有效的谣言检测方法.  相似文献   

10.
文本情绪多标签分类是一种细粒度的文本情感分析,通过挖掘文本中蕴含的多种情绪信息,为文本分配多种所属的情绪标签。文章提出一种基于标签特征的卷积神经网络(CNN)情绪多标签分类方法,首先利用word2vec模型对文本进行词向量表示,然后利用标签特征来强化文本情绪和标签之间的联系,将其融合于CNN模型中,用于对文本情绪进行深层次的表示和多标签分类。为了验证方法的有效性,选取了CLR和LPLO两个多标签分类方法作为基准方法,在NLPCC2014的中文微博情绪分析数据集进行比较实验。结果表明,使用标签特征的CNN模型,可以提升微博情绪的分类性能。  相似文献   

11.
事件检测是自然语言处理领域的重要任务之一,其结果可以有效支撑信息抽取、文本分类和事件推理等下游任务. 预训练语言模型BERT在事件检测任务上取得了显著的成绩,然而该类方法无法有效获取长距离和结构化的文本信息. 为了缓解该问题,本文提出基于反馈网络的图卷积神经网络模型进行文本结构信息捕获,同时这种新方法能够有效解决图卷积神经网络带来的语义信息衰减性问题. 本文首先使用BERT预训练模型获取文本的语义特征,然后使用融入反馈网络的图卷积神经网络提取文本的句法结构特征,最终使用多分类器实现对事件触发词的识别和分类.公开数据集ACE 2005上的实验结果表明,本文提出的事件检测方法在事件触发词识别和分类任务上的F1值分别达到了74.46%和79.49%,较现有工作平均提高了4.13%和4.79%.  相似文献   

12.
传统的分词器在微博文本上不能达到好的性能,主要归结于:(1)缺少标注语料;(2)存在大量的非规范化词.针对这两类问题,文中提出一个分词和文本规范化的联合模型,该模型在迁移分词基础上,通过扩充迁移行为来实现文本规范化,进而对规范的文本进行分词.在实验中,采用大量的规范标注文本及少量的微博标注文本进行训练,实验结果显示,该模型具有较好的域适应性,其分词错误率比传统的方法减少了10.35%.  相似文献   

13.
在少数民族语言信息处理领域,由于文本分类标注数据的稀缺,相关研究工作进展缓慢.为了充分利用有限的标注数据,更有效地挖掘出文本之间的关系,本文对藏文提出一种基于预训练模型和图卷积神经网络的长文本分类方法CINO-GCN.首先利用在实验数据集上经过微调的少数民族多语言预训练模型(Chinese Minority Pretrained Language Model, CINO)得到藏文长文本的初始文档向量和藏文音节向量.然后根据整个数据集范围的音节共现关系与音节和文档间的TF-IDF值来对藏文文本图进行建模.最后将文本图和结点特征一同输入至图卷积神经网络(graph convolutional networks, GCN)层,得到的文档表示经过Softmax得到分类结果.将该方法在公开的TNCC藏文新闻文本分类数据集上与当前几种主流的深度学习模型进行了多组对比实验,分类准确率达到73.51%,远优于其他基线模型;同时设计了消融实验验证模型各部分对分类结果的增益.实验结果表明,该文提出的模型能够结合预训练词向量和图神经网络的优势,显著提高藏文文本分类的准确率.  相似文献   

14.
现有的文本蕴含模型通常计算一次词级别注意力得到两段文本在不同层面的交互特征,但对于文本不同层面的理解,不同重要词的注意力应该是不同的,并且一次词级注意力推理仅能捕捉到文本对局部特征.针对这个问题,提出一种多层次动态门控推理网络,该网络结合了词级别信息的细粒度推理和句子级别门控机制来动态捕捉文本对的语义信息,并采用不同注意力计算方式提取文本对不同层面的语义特征,共同推理文本对的蕴含关系.本文在两个文本蕴含数据集上均做了实验,相较于基准模型和现有主流模型,准确率提升了0.4%~1.7%,通过消融分析,进一步验证了本文模型各部分结构的有效性.  相似文献   

15.
研究结合社交媒体特点,充分考虑标签文本和内容文本信息,融合了传统的LDA话题模型对社交文本信息进行话题聚类,从而实现了对社交数据的话题发现,与此同时,文章提出了基于关键词图模型构建话题特征,并结合支持向量机模型进行文本情感极性判别。研究在开放微博数据集和COAE2014公开评测数据上进行了相关实验,实验证明了有效的关键词图模型能进一步克服中文语义的模糊性和歧义性。  相似文献   

16.
文本观点检索旨在检索出与查询主题相关并且表达用户对主题观点的文档。由于用户查询时输入通常很短,难以准确表示查询的信息需求。知识图谱是结构化的语义知识库,通过知识图谱中的知识有助于理解用户的信息需求。因此,提出了一种基于知识图谱的文本观点检索方法。首先由知识图谱获取候选查询扩展词,并计算每个候选词扩展词分布、共现频率、邻近关系、文档集频率,然后利用4类特征通过SVM分类得到扩展词,最后利用扩展词对产生式观点检索模型进行扩展,实现对查询的观点检索。实验表明,在微博和推特两个数据集上,与基准工作对比,所提出的方法在MAP、NDCG等评价指标上均有显著的提升。  相似文献   

17.
命名实体在文本中是承载信息的重要单元,而微博作为一种分享简短实时信息的社交网络平台,其文本长度短、不规范,而且常有新词出现,这就需要对其命名实体进行准确的理解,以提高对文本信息的正确分析。提出了基于多源知识的中文微博命名实体链接,把同义词词典、百科资源等知识与词袋模型相结合实现命名实体的链接。在NLP&CC2013中文微博实体链接评测数据集进行了实验,获得微平均准确率为92.97%,与NLP&CC2013中文实体链接评测最好的评测结果相比,提高了两个百分点。  相似文献   

18.
微博搜索主要是计算文档与查询词之间的相关性,通过统计方法确定词量的权重,再用向量空间模型计算相关度.然而使用词量搜索方法,搜索精度并不高,检测到某条微博的信息含量有限,难以保证用户查询的关注度.针对这一问题,提出基于动态步长的微博搜索排序算法.该算法的主要实现过程:首先对微博已有的特征进行分析,然后用信息熵的方法计算微博信息含量,不使用词量为计算单位,而以词性为单位计算微博的相关度.最后把动态步长加入到List Net排序算法中,并用Armijo-Goldstein准则对步长进行优化.通过仿真实验表明,本算法排序效果更优.  相似文献   

19.
数据聚类是常用的无监督学习方法,通过词嵌入聚类能够挖掘文本主题,但现有研究大多数采用常规聚类算法挖掘词嵌入的簇类,缺少基于词嵌入特性设计实现词嵌入聚类的主题挖掘算法.该文从语言模型通过建模词间相关信息来使相关及语义相似词的嵌入表示聚集在一起的特点出发,设计词嵌入聚类算法.该算法首先计算中心词的簇类号,然后使该簇中心嵌入和相邻词嵌入的相似性增强,同时使其与负样本词嵌入远离,学习文本集词嵌入的簇类结构,并将其应用于文本主题挖掘.在3种公开数据集上的实验表明:该算法在一些模型的词嵌入结果上能够挖掘出一致性和多样性更好的主题结果.  相似文献   

20.
中文微博命名体识别   总被引:1,自引:0,他引:1  
近年来微博的快速发展为命名体识别提供了新的载体,同时微博的特点也为命名体识别研究带来了挑战.针对微博特点,本文提出了基于拼音相似距离以及文本相似距离聚类算法对微博文本进行规范化,消除了微博的语言表达不规范造成的干扰.同时,本文还提出了篇章级、句子级以及词汇级三级粒度的特征提取,使用条件随机场模型进行训练数据,并识别命名体,采用由微博文本相似聚类获得的实体关系类对命名体类型进行修正.由于缺少大量的微博训练数据,本文采用半监督学习框架训练模型.通过对新浪微博数据的实验结果表明,本方法能够有效地提高微博中命名体识别的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号