首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 578 毫秒
1.
虚假评论识别在电子商务、社交媒体等领域具有重要的应用价值。尽管现有虚假评论识别模型融合了文本的情感信息,但在预训练过程中忽视了对情感信息的提取,导致准确率不高。针对此问题,本文提出一种基于情感信息预处理和双向门控循环单元(Bidirectional Gated Recurrent Unit, Bi-GRU)的虚假评论识别模型(FR-SG),用于提高虚假评论识别的准确率。首先,通过Albert模型获取文本的语义向量;然后,使用词频-逆文本频率(Term Frequency-Inverse Document Frequency, TF-IDF)和K-均值(K-means++)聚类的方法从评论中挖掘情感种子词,基于种子词对文本中的属性词和情感词进行掩码(mask);接着,使用面向情感的目标优化函数,将情感信息嵌入到语义表示中,生成情感向量;最后,将这两组向量的拼接结果输入虚假评论识别网络中,得到文本的分类结果。实验结果表明,相较于Bi-GRU+Attention模型,FR-SG提高了虚假评论识别的准确率。  相似文献   

2.
在社交媒体高速发展方便信息交流的同时,虚假新闻也在网络上大量传播,对社会稳定造成了很大的影响.针对当前虚假新闻检测工作大多充分考虑虚假新闻中新闻文本内容而忽略图像内容的问题,提出了一种基于注意力的BiLSTM-CNN多模态虚假新闻检测模型.该模型首先使用双向长短期记忆神经记忆网络(BiLSTM)提取文本内容特征,使用卷积神经网络(CNN)提取图像语义特征,利用注意力机制(Attention)层对提取的内容特征信息分配相应的权重,再将两种特征融合以形成重新参数化的多模态特征作为输入进行虚假新闻检测.实验表明,该方法达到了98.3%的正确率.  相似文献   

3.
通过主题模型与语义网络对旅游电商中的评论文本进行挖掘,从而引导消费者与商家对评论信息作出重要决策;提出一种基于LDA(Latent Dirichlet Allocation,LDA)主题聚类与语义网络模型(LDA topic clustering and semantic network model,LTC-SNM)的方法对酒店在线评论文本进行研究;获取在线评论文本进行数据预处理,使用Word2vec生成词向量,利用机器学习算法对评论文本进行情感分类;通过LDA主题模型对分类后的文本进行聚类,生成酒店的特征主题词;通过ROSTCM将特征主题词与所修饰的情感词生成语义网络,缓解了挖掘文本信息的复杂性;实验结果表明:提出的LTC-SNM文本挖掘方法使得在线用户评价的主题更具表达性。  相似文献   

4.
基于逻辑回归的中文在线评论有效性检测模型   总被引:1,自引:0,他引:1  
为了实现电子商务和社交网络中文在线评论有效性的自动化检测,提出了一种单一主题环境下基于逻辑回归的垃圾评论检测模型.中文在线评论有效性的检测可以归结为分类问题,结合中文在线评论的特点提取了9个特征以构建分类模型;为获取核心特征主题的相关度,采用基于关联规则的评论名词模式优化了ICTCLAS中文分词系统的主题识别,进而利用交叉语言模型获取在线评论主题相关度.实验中采取了人为标定的1 000条评论作为样本,把支持向量机分类模型作为对比进行试验,利用数据挖掘工具Weka进行计算.结果表明,采用优化评论名词模式下基于逻辑回归的垃圾评论检测模型结果的准确率达到83.54%,比支持向量机分类模型计算得到的准确率高2.10%.  相似文献   

5.
针对文本情感分类中情感语义特征利用不足、特征降维效果欠佳等影响分类效果的问题,提出了一种通过扩展语义相似的情感词以及引入词语间统计特征的高精度网络评论情感分类方法.该方法利用神经网络Skip-gram模型生成词嵌入,通过词嵌入相似性度量将语义相似的词语扩展为情感特征;再利用词语间的统计特征进行特征降维;通过多个弱分器加权构建Adaboost分类模型实现网络评论情感分类.基于酒店评论和手机评论公开测试集进行实验,结果表明其情感分类的正确率分别达到90.96%和93.67%.方法扩展语义相似情感词有利于丰富文本情感语义特征,引入词语间的统计特征有更好的特征降维效果,可以进一步提升文本情感分类的效果.   相似文献   

6.
在虚假信息识别任务中,面对图文结合的虚假内容,基于单模态的模型难以进行准确识别.社交媒体中的虚假信息为吸引关注和迅速传播的目的,会使用夸张的词汇煽动读者的情绪.如何将情感特征引入多模态虚假信息检测模型进行多特征融合,并准确地识别虚假信息是一个挑战.为此,本文提出了基于注意力机制多特征融合的虚假信息检测方法(att-MFNN).该模型中先将文本特征和情感特征基于注意力机制融合,再与视觉特征组成多模态特征送入虚假信息识别器和事件分类器中.通过引入事件分类器学习不同事件中的共同特征,提高新事件的识别性能.att-MFNN在微博和推特(Twitter)数据集的准确率达到了89.22%和87.51%,并且F1、准确率、召回率指标均优于现有的模型.  相似文献   

7.
目前基于新闻内容的假新闻检测方法没有考虑到不同模态更高层的语义关联,缺少可以依据的信息对新闻进行判断,从而缺乏对有重要辨别特征的新闻的社交网络信息进行有效使用.针对这个问题,提出了基于新闻内容的假新闻检测方法,通过提取文本、图像和视频等多模态新闻的高层语义特征,分析不同模态高层语义信息,设计跨模态主题一致性和跨模态情感一致性计算方法 .在此基础上,设计了一种跨模态内容语义一致性的假新闻检测模型MMCSC(multi-modal feature content semantic consistency).实验证明,相比于传统方法,所提出的MMCSC有较好的检测效果.  相似文献   

8.
目前的神经网络一般只将词粒度层面的词向量作为输入,忽略了语义层面的全局语义特征.针对此问题,提出了一种基于局部特征和全局特征融合的情感分类方法,以解决评论特征稀疏和主题聚焦性差的问题.对于局部特征,选择基于情感词典和BiLSTM神经网络模型提取基于词向量的文本特征.对于文本集的全局主题特征,采用神经主题模型提取文本主题特征,并将其作为全局特征来表示短文本信息.最终将基于局部加权词向量的文本特征和基于神经主题模型的文本主题特征进行拼接,并通过Softmax层输出,完成文本情感分类.结果表明:融合全局主题语义和局部加权词向量可以更加丰富神经网络的特征,从而有效地提高情感分类的准确率.  相似文献   

9.
对利用主题模型挖掘医疗服务主题进行了深入研究,针对LDA主题模型用于医疗评论主题挖掘中存在的语义稀疏、共现信息不足等问题,提出一种基于词共现分析与LDA主题模型结合的CO-LDA模型.首先使用词共现分析方法对评论语料库进行分析,得到词共现矩阵.其次利用LDA主题模型对语料评论进行建模表示,挖掘出患者对医疗服务的关注点.基于平均最小JS距离、平均肯德尔等级相关系数τb及平均TF-IDF 3个指标对比CO-LDA模型与传统LDA模型在医疗评论主题挖掘中的应用效果,实验最终表明CO-LDA模型识别主题的一致性和主题质量优于LDA模型.将实验结果与中国《医院评价标准》进行对比,一致性较高,说明基于CO-LDA的在线医疗评论主题挖掘方法的有效性.   相似文献   

10.
从语义分析角度出发,对产品评论文本进行情感倾向分析研究。首先在现有的情感词典的基础上整理并构建一个面向产品评论的情感词典;然后以句子为单位对评论文本进行语句分割,根据词频统计提取产品的主要特征词,并构建特征关联词词库,针对不同的特征分别进行情感倾向分析;最后对所有评论文本作加权计算获得其总体情感倾向。实验结果表明,基于语义分析的产品评论挖掘方法具有较好的情感分析效果。  相似文献   

11.
Web已经成为人们获取信息的重要来源,但Web上的信息并不都是真实可信的. 因此,如何帮助用户快速判断Web上大量信息的可信性成为一个亟待解决的问题. 文中提出一种基于内容信任的方法用以验证Web信息的可信程度. 采用条件随机场模型进行Web信息的主题提取,利用提取的主题在Web上搜集候选证据,并利用时效性、主题相关度等特征验证候选证据的可靠性,最后进行可信度计算. 实验结果表明提出的方法对评价Web信息的内容可信度是有效可行的.   相似文献   

12.
针对互联网虚假评论大肆横行,在虚假评论研究领域却没有完全公开的中文数据集可供中文虚假评论检测研究的问题,提出了一种基于生成对抗网络的中文虚假评论数据生成模型.首先,对生成器生成的文字序列通过蒙特卡洛搜索获取一批样本;然后,采用强化学习方法将判别器、分类器和重构器的反馈化为奖励分数;最后,传回生成器,对生成器进行参数优化,以生成贴近真实世界的具有相应类标签属性及特征的虚假评论数据.以BLEU值为评估指标,实验结果表明,所提出的模型在本文数据集上取得了更好的BLEU值,具有较好的生成效果.  相似文献   

13.
从评论利益相关者内容与行为特征相结合的角度,提出一种基于个人–群体–商户的主体关系模型(IGMRM)。选择93家店铺中9558个不同IP的97804条评论作为样本数据进行实验,结果表明,IGMRM在识别虚假评论者、存在信用操纵的商铺以及虚假评论者群体的F1值分别达到82.62%、59.26%和95.12%。使用基于评论内容的逻辑回归模型和K最邻近模型作为基线分类方法,识别虚假评论者的F1值分别为52.63%和76.75%,表明IGMRM在识别虚假评论者方面优于传统方法。  相似文献   

14.
提出了一种基于商品评论的群体用户情感趋势预测方法.首先,提出了基于Boson NLP的情感特征词识别算法,对时间维度下的商品评论信息进行特征选取;其次,使用群体用户多维特征向量构造多层感知器(MLP)模型进行情感分析;最后,融合评论时间和用户情感倾向值构建群体用户时序情感倾向序列,并通过长短时记忆网络(LSTM)模型进行时序情感趋势预测.在大规模真实数据集上的实验结果表明,MLP模型具有较好的分类效果;相比于现有的自回归(AR)模型,LSTM模型的平均均方差降低了79. 06%,能够取得更加精准的预测结果.  相似文献   

15.
根据经典的特征选择方法在中文情感评论文本中应用的缺陷和不足,提出了一种改进的中文情感特征选择方法.目前,现有的情感特征选择方法普遍只利用了特征项在褒贬类中的统计信息,忽略了情感极性值对特征选择的影响;同时情感文本中否定词会带来特征项情感极性反转的情况,为特征选择带来较大的负面影响.针对这些问题,首先对情感文本中的否定词进行了检测和判定,对否定词界定范围内的情感特征词进行反义变换处理,有效的解决了情感文本中极性反转的问题.同时还将特征项的情感极性值和其在类中的频率特点两个因素融入到卡方特征选择模型(CHI)中,从而提升了卡方模型在文本情感特征选择的效果.实验结果表明,本文算法较其他算法在多个领域数据集上的情感分类准确率提高了1.5%左右.  相似文献   

16.
曾桢  王擎宇 《科学技术与工程》2023,23(12):5161-5169
现有的基于BERT(bidirectional encoder representations from transformers)的方面级情感分析模型仅使用BERT最后一层隐藏层的输出,忽略BERT中间隐藏层的语义信息,存在信息利用不充分的问题,提出一种融合BERT中间隐藏层的方面级情感分析模型。首先,将评论和方面信息拼接为句子对输入BERT模型,通过BERT的自注意力机制建立评论与方面信息的联系;其次,构建门控卷积网络(gated convolutional neural network, GCNN)对BERT所有隐藏层输出的词向量矩阵进行特征提取,并将提取的特征进行最大池化、拼接得到特征序列;然后,使用双向门控循环单元(bidirectional gated recurrent unit, BiGRU)网络对特征序列进行融合,编码BERT不同隐藏层的信息;最后,引入注意力机制,根据特征与方面信息的相关程度赋予权值。在公开的SemEval2014 Task4评论数据集上的实验结果表明:所提模型在准确率和F1值两种评价指标上均优于BERT、CapsBERT(ca...  相似文献   

17.
对于水军评论检测问题,已有方法在提取用户行为关系以及通过神经网络提取特征时复杂度过大,同时由于网络评论属于短文本类,其书写的不规范会导致训练过程中文本特征提取困难;另外,已有方法对数据集不平衡分布情况考虑不足。为此,提出了一种基于双层堆叠分类模型的水军评论检测方法。首先通过三元组形式构造矩阵表示用户间关系,并通过主成分分析得到低维用户关系表示,以此刻画用户在评论数据中的行为差异并且降低计算的复杂度;然后,通过评论的段落向量表示以及计算离散型特征(包括文本相似度、信息熵等)解决文本特征难以提取的问题;最后将三者相联结作为融合文本与行为特征的整体特征表示。利用集成学习的方法构造双层堆叠分类模型对评论分类,以提升模型在非平衡数据集下的检测性能。实验采用Yelp2013评论数据集,结果表明,与目前最好的基准方法对比, F1值提高了1.7%~5.2%,在非平衡数据集中提升尤为明显。  相似文献   

18.
特征提取是进行文本情感分析的关键步骤之一,是影响其结果好坏的主要因素。针对网络评论语句中表达形式多变的特点,结合语义相似度计算得到近义词TF-IDF(term frequency—inverse document frequency)权重向量;根据评论语句长短不一的特点,基于OPSM(order-preserving submatrix)双聚类算法挖掘出权重向量中的局部模式;使用改进的Prefix Span算法挖掘分类频繁短语特征,这类特征能有效利用词语的顺序信息,同时也通过词语间隔等限制来提升频繁短语区分情感倾向的能力。最后将该方法用于处理商品评论语料,并进行情感分析任务实验,结果表明所提取的文本特征效果有较大的提升。  相似文献   

19.
立场检测任务的目的是通过分析用户对特定话题发表的评论以判断其对该话题是支持还是反对的,该任务的关键是捕捉文本信息与其对应话题的相关特征。针对目前已有的微博立场检测模型存在仅考虑文本特征,而未结合话题特征,以及忽略了情感信息对微博立场检测的影响而导致分类效果差的问题,文章提出基于卷积注意力的情感增强微博立场检测模型。该模型通过卷积注意力对文本信息和其对应的话题信息提取特征,同时捕捉其相关特征,然后通过情感增强中词语级情感增强获得带有情感信息的词向量表示,将其与相关特征点相乘得到针对话题的情感增强句向量,其次通过拼接句子级情感增强特征以丰富最终的语义表示,最后对该语义表示进行分类。该模型在NLPCC-2016数据集中取得了较好的结果,相对于目前最优模型在五个话题上分别提高了7.9%、5.8%、5.3%、1.3%和5.2%。  相似文献   

20.
对在线商业评论文本的情感进行挖掘,融合评论文本不同特征为分类器提供更多的信息量,提出了一种新的在线电商情感分类算法。首先,针对传统词嵌入模型无法很好地融合词语情感信息特征的不足,考虑了词嵌入特征和词性特征的多特征融合方法;其次,在两种特征融合方法的基础上采用了双通道和单通道的对比来比较分类的准确性,提出了并行的CNN和BiLSTM-Attention双通道神经网络模型;最后,使用真实的京东电商评论数据集对所提模型进行了评估,并且在实验中与不同分类算法进行对比。实验结果表明,新的混合方法具有更好的分类准确率、召回率和F1指标。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号