首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
本文提出一种基于突发词聚类的跨媒体突发事件检测方法。根据事件分析,发现微博具有文本丰富、用户活跃度高、在突发事件检测中具有速度快且高效的特点,但是由于微博文本长度较短,内容过于随意,使得事件发现的结果不够精确。新闻作为官方媒体,其真实性和权威性较高,内容比较规范,事件发现较为准确,但因为新闻数量较少,对于突发事件检测任务来说,时效性较低。现有的方法只针对一种媒体的数据进行挖掘,无法规避掉该媒体的数据所固有的缺点。本文提出一种方法,将微博和新闻2种媒体的数据进行融合,在满足突发事件检测的时效性的同时,提升了突发事件检测的准确率。  相似文献   

2.
考虑到微博数据存在时序性特征以及包含用户的社交网络行为特征,提出一种动量信号增强模型算法来有效地检测微博突发话题.由于传统模型未考虑微博数据变化以及用户社交行为的影响,为此首次提出影响力因子以及热度因子,用以修正动量模型.为获取影响力因子,将计算出当前时点前给定周期内的数据对当前数据的变化差值的指数累计影响作为影响力的衡量标准,以体现词频在该区间段的重要性.影响力因子将用于修正词频序列,以获取MACD值指标.由于用户的社交行为对话题产生影响巨大,进而提出热度因子用以修正MACD值指标.当模型满足指标阈值时,特征词则列为突发特征词.最后,通过K-means聚类算法将特征词进行归类合并,以获取突发话题.实验结果表明,模型精度能达到81.82%,表现良好.  相似文献   

3.
针对自然语言处理的文本情感分类问题,提出一种基于集成学习的文本情感分类方法;基于微博数据的特殊性,首先对微博数据进行分词等预处理,结合词频-逆文档频率(TF-IDF)和奇异值分解(SVD)方法进行特征提取和降维,再通过堆叠泛化(stacking)集成学习的方式进行分类模型融合。结果表明,模型融合对文本情感分析的准确率达到93%,可以有效地判别微博文本的情感极性。  相似文献   

4.
在虚假信息识别任务中,面对图文结合的虚假内容,基于单模态的模型难以进行准确识别.社交媒体中的虚假信息为吸引关注和迅速传播的目的,会使用夸张的词汇煽动读者的情绪.如何将情感特征引入多模态虚假信息检测模型进行多特征融合,并准确地识别虚假信息是一个挑战.为此,本文提出了基于注意力机制多特征融合的虚假信息检测方法(att-MFNN).该模型中先将文本特征和情感特征基于注意力机制融合,再与视觉特征组成多模态特征送入虚假信息识别器和事件分类器中.通过引入事件分类器学习不同事件中的共同特征,提高新事件的识别性能.att-MFNN在微博和推特(Twitter)数据集的准确率达到了89.22%和87.51%,并且F1、准确率、召回率指标均优于现有的模型.  相似文献   

5.
基于多视角特征融合的中文垃圾微博过滤   总被引:1,自引:0,他引:1  
微博中隐含着舆论热点等与特定话题相关的有价值的信息。因此,针对微博数据分析(如话题发现等)的工作成了当前的研究热点。由于微博内容和形式的高度自由,使得相关的研究工作面临着垃圾数据噪声大、有用数据提取难的问题。然而,目前针对非公共话题的中文垃圾微博过滤尚无有效方法。提出一种基于多视角特征融合的垃圾微博过滤方法。该方法首先从微博的结构和内容两个视角建立规则,再与微博文本分词结果进行融合构造复合特征,并以此对垃圾微博进行过滤。通过在真实数据集上的实验表明多视角融合的特征使得过滤效果有明显提升。  相似文献   

6.
微博中热点话题,尤其负面情感热点话题对舆情的发现起到了重要作用,本文从情感的角度出发,提出了一个面向微博负向情感的热点事件发现模型。首先,在数据预处理阶段除了对微博文本中含有"@""#"的博文进行过滤,并引入户信息对休眠用户及僵尸用户进行了剔除;其次构造情感分类器,对博文进行情感分类,筛选出负向情感博文;然后根据词频和词语增长速度对主题词进行评价;接着根据词意相似度以及共现度对话题进行聚类;最后通过计算话题负向情感值对负向情感热点话题进行细粒度划分。  相似文献   

7.
针对现有文本情感分析方法的不足,设计了一种针对中文微博的基于词典的规则情感分类方法和用于机器学习方法的基本特征模板。提出一种机器学习与规则相融合的微博情感分类方法,将用规则方法得到的多样化情感信息进行转化,扩展并嵌入基本特征模板,形成更有效的融合特征模板。通过3种分类模型集成,提高微博情感分类的性能。  相似文献   

8.
针对微博短文本存在口语化、简洁化等社交网络特征,充分利用句法依存关系以及条件随机场(conditional random fields,CRFs),抽取候选评价对象,并在基于机器学习的微博情感分类方法的基础上结合情感分析词典,引入情感值、微博标签、主题等特征,优化分类性能。在COAE(Chinese opinion analysis evaluation)微博评测数据集上,以准确率、召回率、F1值为评价指标对所提方法进行验证,证实了基于句法依存分析与CRFs相结合的评价对象抽取方法的有效性,分析了各类特征对情感分类性能的影响,最终在COAE微博观点句识别任务中准确率达91.4%。  相似文献   

9.
基于句法与主题扩展的中文微博情感倾向性分析模型   总被引:1,自引:0,他引:1  
微博数据具有微博文本长度不一,文本内容主题发散性,夹杂微博专用符号等特性,需要一种融合句法分析、领域知识、表情符号等多因素的综合建模方法对社会、娱乐、安全等多领域微博进行情感分析. 文章提出了一种面向主题的中文微博情感建模方法,该模型涵盖了数据预处理、句法分析、主题扩展、领域知识、情感词上下文极性调整、表情符号等内容,最后以新浪微博采集数据,选取3个领域主题进行了实验,在特定的实验环境下,得到了较高的分析准确率.   相似文献   

10.
大数据时代下,微博作为一个开放性的信息传播平台吸引了众多的网民参与其中,与之相关的研究也得到了广泛的开展。本文将微博情感分析任务分为3步:微博语料的获取与预处理、情感特征的标注与选择、主观文本的情感分类。在主观文本分类中,将情感分类分为基于规则的方法和基于机器学习的方法。最后对当前中文微博的情感分析现状做了总结,并阐述了当前微博情感分类还需亟待解决的一些问题。  相似文献   

11.
对在线商业评论文本的情感进行挖掘,融合评论文本不同特征为分类器提供更多的信息量,提出了一种新的在线电商情感分类算法。首先,针对传统词嵌入模型无法很好地融合词语情感信息特征的不足,考虑了词嵌入特征和词性特征的多特征融合方法;其次,在两种特征融合方法的基础上采用了双通道和单通道的对比来比较分类的准确性,提出了并行的CNN和BiLSTM-Attention双通道神经网络模型;最后,使用真实的京东电商评论数据集对所提模型进行了评估,并且在实验中与不同分类算法进行对比。实验结果表明,新的混合方法具有更好的分类准确率、召回率和F1指标。  相似文献   

12.
对在线商业评论文本的情感进行挖掘,融合评论文本不同特征为分类器提供更多的信息量,提出了一种新的在线电商情感分类算法。首先,针对传统词嵌入模型无法很好地融合词语情感信息特征的不足,考虑了词嵌入特征和词性特征的多特征融合方法;其次,在两种特征融合方法的基础上采用了双通道和单通道的对比来比较分类的准确性,提出了并行的CNN和BiLSTM-Attention双通道神经网络模型;最后,使用真实的京东电商评论数据集对所提模型进行了评估,并且在实验中与不同分类算法进行对比。实验结果表明,新的混合方法具有更好的分类准确率、召回率和F1指标。  相似文献   

13.
中文新闻事件检测的主要任务是从大量新闻中自动检测出潜在的新事件。人工构建事件特征词进行检测费时费力。单纯依靠密度聚类或谱聚类方法进行事件检测,存在不同事件的触发词相关性高时,容易误判为同一事件。为此,提出基于卷积神经网络和K-means结合的中文新闻事件检测与主题提取,将新闻中的文本向量化,通过深度学习抽取文本深层特征。实验结果表明:所提方法构建的模型准确率、召回率优于单一聚类方法,可对中文新闻事件准确识别,快速检测新事件,提取新事件主题。  相似文献   

14.
当前中文微博情感分析的主流做法是将情感极性分类结果的好坏作为评判的标准。从提高微博情感判别准确度的目的出发,尽量多考虑影响微博情感的元素。在统计微博中情感词的基础上,加入了微博表情这一重要元素,采用与文本情感值加权的方式参与微博情感计算,使得对含有表情的微博情感判定结果有了一定程度的提高;在语义规则部分,基本涵盖了汉语中最常用的几种句型规则和句间关系规则,使得对复杂语句的情感分析更加准确。同时,还对每条微博的情感给出了具体的数值,并在正确率、召回率、F 值的基础上,提出合格率这一指标,对微博情感判别方法得到的数值准确性进行评价。通过搭建 Hadoop 平台对测试集的1万条数据进行测试,验证了融合算法的有效性。  相似文献   

15.
为了能够快速准确地提取出海量文本信息中的情感特征词,提出从情感词语集中通过人工筛选得到种子词并对其情感强度赋值,同时,以这些种子词为基准计算出情感词语集中其他词语的情感强度值,从而得到各特征词在词语级及句子级的倾向性贡献度值。然后,将特征词在词语级、句子级这2种不同粒度情况下计算出的情感倾向性贡献度值有机结合起来,构造出基于双粒度模型的中文情感特征词提取模型。该提取方法考虑了特征词在词语级和句子级2个方面的情感倾向,使最终提取出的情感词的准确率得到了提高。实验表明,只要有一个全面的情感词典系统和一组准确恰当的种子词,提出的方法可以获得良好的准确率和召回率。  相似文献   

16.
针对传统文本分类方法忽略词语间的语义特征的问题,并为了改善输入文本的表示质量,提出一种基于短语结构和词语词性相结合的情感分类方法.该方法首先通过短语结构优化分词,可以更好地提取文本特征;其次利用Word2vec工具训练词语和词性相结合的文本语料库得到词向量模型,解决了Word2vec无法识别一词多义的问题;最后通过SVM算法对文本进行情感分类.实验结果表明,该算法能够提高文本情感分类的正确性.该方法对舆情监控、股票市场行情预测和了解消费者对产品的偏好等具有较高的实用性.  相似文献   

17.
构建基于文本情感特征的心理评估模型. 首先, 根据词语的情感极性和词性设计词语特征, 将文本中的每个词语映射成情感词向量, 进而将其作为卷积神经网络的输入, 并加入注意力机制对输出结果进行优化, 得到包含情感特征的文本向量表示. 其次, 使用Bayes正则化算法优化权值, 控制并平衡神经网络拟合程度, 改进BP神经网络算法的网络泛化能力. 最后, 将文本向量作为Bayes正则化神经网络的输入, 预测学生的心理状态, 与心理评估结果的对比实验结果表明, 模型效果较理想.   相似文献   

18.
 中文微博具有更新快、时效性强等特点,产生的热点话题均具有一定的突发性,与此同时文本中有代表性的特征词也会随之激增。利用这一特性,在传统的TF-IDF(term frequency-inverse document frequency)基础上提出一种改进的特征权重算法,称之为TF-IDF-KE(term frequency-inverse document frequency-kinetic energy),用以解决突发性热点话题在聚类时特征不明显的问题。该算法结合物体的动能原理,将特征项的突发值用动能的概念进行描述,加入权值计算,提高突发性特征项的权重,最后使用CURE(clustering using representatives)算法,实现微博的话题检测。该方法描述了文本和特征项所具有的动态属性,实验结果表明,该方法能够有效地提高话题检测的效果。  相似文献   

19.
藏语孤立词语音识别系统研究   总被引:3,自引:0,他引:3  
藏语语音研究相当滞后,文章结合语音识别知识和藏语特点,尝试性地研究了藏语孤立词语音识别研究.首先提取MFCC参数作为语音特征参数,形成语音模板库,采用DTW模型实现了语音识别系统,并且针对藏语孤立词多音节的特点,改进了传统的基于短时能量和短时过零率双门限检测法,即加入了音节间静音段时长门限,提高了孤立词语音信号检测的准确性和识别率.  相似文献   

20.
构建基于文本情感特征的心理评估模型. 首先, 根据词语的情感极性和词性设计词语特征, 将文本中的每个词语映射成情感词向量, 进而将其作为卷积神经网络的输入, 并加入注意力机制对输出结果进行优化, 得到包含情感特征的文本向量表示. 其次, 使用Bayes正则化算法优化权值, 控制并平衡神经网络拟合程度, 改进BP神经网络算法的网络泛化能力. 最后, 将文本向量作为Bayes正则化神经网络的输入, 预测学生的心理状态, 与心理评估结果的对比实验结果表明, 模型效果较理想.   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号