首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 635 毫秒
1.
虚假评论识别在电子商务、社交媒体等领域具有重要的应用价值。尽管现有虚假评论识别模型融合了文本的情感信息,但在预训练过程中忽视了对情感信息的提取,导致准确率不高。针对此问题,本文提出一种基于情感信息预处理和双向门控循环单元(Bidirectional Gated Recurrent Unit, Bi-GRU)的虚假评论识别模型(FR-SG),用于提高虚假评论识别的准确率。首先,通过Albert模型获取文本的语义向量;然后,使用词频-逆文本频率(Term Frequency-Inverse Document Frequency, TF-IDF)和K-均值(K-means++)聚类的方法从评论中挖掘情感种子词,基于种子词对文本中的属性词和情感词进行掩码(mask);接着,使用面向情感的目标优化函数,将情感信息嵌入到语义表示中,生成情感向量;最后,将这两组向量的拼接结果输入虚假评论识别网络中,得到文本的分类结果。实验结果表明,相较于Bi-GRU+Attention模型,FR-SG提高了虚假评论识别的准确率。  相似文献   

2.
针对当前垃圾邮件账户撰写虚假在线评论,降低评论网站可信度的问题,提出一种基于自然语言处理和机器学习的短文本作者识别算法,该算法将自然语言处理技术(Natural Language Processing, NLP)与不同的机器分类器相结合,根据多个不同的语言特征解决了简短嘈杂的评论文本的作者识别问题.实验结果表明,相对于基线模型而言,本文算法在引入NLP技术后,仅采用一元语法和一元与二元语法相结合的两个N-gram模型的分类精度均有明显提高,充分说明本文算法的有效性.  相似文献   

3.
针对文本情感分类中情感语义特征利用不足、特征降维效果欠佳等影响分类效果的问题,提出了一种通过扩展语义相似的情感词以及引入词语间统计特征的高精度网络评论情感分类方法.该方法利用神经网络Skip-gram模型生成词嵌入,通过词嵌入相似性度量将语义相似的词语扩展为情感特征;再利用词语间的统计特征进行特征降维;通过多个弱分器加权构建Adaboost分类模型实现网络评论情感分类.基于酒店评论和手机评论公开测试集进行实验,结果表明其情感分类的正确率分别达到90.96%和93.67%.方法扩展语义相似情感词有利于丰富文本情感语义特征,引入词语间的统计特征有更好的特征降维效果,可以进一步提升文本情感分类的效果.   相似文献   

4.
新闻评论表达了人们对新闻事件的看法与态度, 因此对新闻评论进行分析具有潜在的应用价值. 传统的情感分析方法仅对评论文本进行分析, 忽略了新闻文章主题及语义信息对评论的影响. 针对这个问题, 提出了一种基于支持向量机和 $K$ 均值聚类的情感分析方法, 将新闻文章信息对评论情感的影响因素引入到新闻评论的情感分类中. 实验结果证明了该方法在新闻评论情感分析任务中的有效性.  相似文献   

5.
语义相似性度量能够提高信息检索的准确性和效率,已成为文本处理中的一个核心任务.为解决一词多义等词汇歧义问题,提出一种基于低维向量组合的语义向量模型.该模型引入了知识库与语料库的多语义特征的融合,主要的语义融合对象包括连续的分布式词向量和从WordNet结构中的语义特征信息.首先利用深度学习技术中的神经网络语言模型,预先从文本语料中学习得到连续的低维词向量;然后从知识库WordNet中抽取多种语义信息和关系信息;再将多语义信息融入词向量进行知识扩展和强化,生成语义向量,从而实现基于向量空间的语义相似性度量方法.在基准测试集上的实验结果表明,该方法优于基于单一信息源(知识库WordNet或文本语料)的语义相似性度量方法,其皮尔森相关系数比基于原始词嵌套向量的方法提高了7.5%,说明在向量特征层面上的多语义信息的融合有助于度量词汇间的语义相似性.  相似文献   

6.
针对现有的中文文本情感分析方法不能从句法结构、上下文信息和局部语义特征等方面综合考量文本语义信息的问题,提出一种基于特征融合的中文文本情感分析方法.首先,采用Jieba分词工具对评论文本进行分词和词性标注,并采用词向量训练工具GloVe获取融入词性的预训练词向量;然后,将词向量分别作为引入Self-Attention的BiGRU和TextCNN的输入,使用引入Self-Attention的BiGRU从文本的句法结构和文本的上下文信息两个方面综合提取全局特征,使用TextCNN提取文本的局部语义特征;最后,将全局特征和局部语义特征进行融合,并使用Softmax进行文本情感分类.实验结果表明,本文方法可以有效提高文本情感分析的准确率.  相似文献   

7.
基于文本内容分析的过滤技术研究   总被引:7,自引:1,他引:7  
提出一种基于特征词和局部语义分析的文本分类与过滤方法,在基于特征词统计特性分析的基础上,将特征词的知识属性和局部语法匹配引入信息过滤模型,实验结果表明,这种方法对于某些领域的文本信息可以有效地进行识别和过滤.  相似文献   

8.
针对在线医疗评论文本长度短、语义稀疏的特点,提出一种基于词共现分析的在线医疗评论主题挖掘模型。应用于短文本的BTM主题模型在词对的选择过程中缺少对词语语义相关性的考虑,通过引入词共现分析计算语义相关性,设定阈值筛选参与训练的词对,进行医疗评论主题挖掘,基于主题一致性TC值和JS散度对比改进的COA-BTM主题模型与传统的BTM主题模型和LDA主题模型在医疗评论主题挖掘中的效果。实验结果表明改进的COA-BTM模型在主题一致性和主题质量上均具有更好的效果,证明了其在在线医疗评论挖掘领域的有效性。基于改进算法在医疗评论主题挖掘中的应用和SERVQUAL模型,更全面地识别了医疗服务质量影响因素。   相似文献   

9.
基于指纹和语义特征的文档复制检测方法   总被引:1,自引:0,他引:1  
文档复制检测是保护知识产权、提高信息检索效率的有效手段.提出一种基于指纹和语义特征的文档复制检测方法.介绍了指纹提取算法以及相关的重叠度度量,并且以知网的概念描述为基础对文本进行语义分析,利用词类信息和语义规则进行歧义消解,并采用基于框架的层级表示方法描述句子的语义特征.在3种测试集上把该方法与现存的方法在检测准确率上进行比较,实验结果表明该方法能够有效地检测出各种方式的复制文本.  相似文献   

10.
为了提高文本语义相似性度量的准确性,该文从深度学习的角度出发提出了一种新的文本语义相似性度量框架,充分利用深度神经网络实现词级别、句子级别、文本级别的表示学习,使得学习到的表示向量能提供融合上下文信息的丰富语义信息,在此基础上,设计了相似性度量层,采用简单的三层网络实现任意两个文本向量的相似性值计算.在两个基准数据集上...  相似文献   

11.
在虚假信息识别任务中,面对图文结合的虚假内容,基于单模态的模型难以进行准确识别.社交媒体中的虚假信息为吸引关注和迅速传播的目的,会使用夸张的词汇煽动读者的情绪.如何将情感特征引入多模态虚假信息检测模型进行多特征融合,并准确地识别虚假信息是一个挑战.为此,本文提出了基于注意力机制多特征融合的虚假信息检测方法(att-MFNN).该模型中先将文本特征和情感特征基于注意力机制融合,再与视觉特征组成多模态特征送入虚假信息识别器和事件分类器中.通过引入事件分类器学习不同事件中的共同特征,提高新事件的识别性能.att-MFNN在微博和推特(Twitter)数据集的准确率达到了89.22%和87.51%,并且F1、准确率、召回率指标均优于现有的模型.  相似文献   

12.
在清洗算法不能有效地纠正不一致数据的情况下,“知情”用户给出的关于其正确取值的评论,对数据库的其他用户意义重大,可以帮助他们甄别错误数据,并在不丢失信息的前提下,尽可能地从不一致数据库中获取有用信息,但只有正确可信的评论才能有如此意义.因此,评论的可信度估算是这类应用中的一个关键问题.和互联网评论不同,数据库一般向系统内用户开放,用户的特征更易于提取,其语义确定.由于数据是对现实世界的描述,能对同一评论对象,发出类似评论的用户往往具有相同的背景或语义特征.文章提出了一种基于用户的特征分析的评论可信度计算算法,有针对性地解决了上述问题.算法首先根据语义特征,对历史评论者进行用户社区挖掘,得到在某准确度下评论过某对象的用户公共特征,形成用户模板;其次,对于任意给定新评论,通过其评论者和用户公共特征模板的匹配程度,并综合该评论者可信度、评论者和评论对象的语义相关性等关键因素,计算出该评论的可信度.实验证明,该算法在时间和准确率两方面都是有效的.  相似文献   

13.
在社交媒体高速发展方便信息交流的同时,虚假新闻也在网络上大量传播,对社会稳定造成了很大的影响.针对当前虚假新闻检测工作大多充分考虑虚假新闻中新闻文本内容而忽略图像内容的问题,提出了一种基于注意力的BiLSTM-CNN多模态虚假新闻检测模型.该模型首先使用双向长短期记忆神经记忆网络(BiLSTM)提取文本内容特征,使用卷积神经网络(CNN)提取图像语义特征,利用注意力机制(Attention)层对提取的内容特征信息分配相应的权重,再将两种特征融合以形成重新参数化的多模态特征作为输入进行虚假新闻检测.实验表明,该方法达到了98.3%的正确率.  相似文献   

14.
目前的神经网络一般只将词粒度层面的词向量作为输入,忽略了语义层面的全局语义特征.针对此问题,提出了一种基于局部特征和全局特征融合的情感分类方法,以解决评论特征稀疏和主题聚焦性差的问题.对于局部特征,选择基于情感词典和BiLSTM神经网络模型提取基于词向量的文本特征.对于文本集的全局主题特征,采用神经主题模型提取文本主题特征,并将其作为全局特征来表示短文本信息.最终将基于局部加权词向量的文本特征和基于神经主题模型的文本主题特征进行拼接,并通过Softmax层输出,完成文本情感分类.结果表明:融合全局主题语义和局部加权词向量可以更加丰富神经网络的特征,从而有效地提高情感分类的准确率.  相似文献   

15.
针对语义情感知识的文本情感分析的局限性,本文提出情感项区分极性可信度的文本情感分类方法.首先,基于核心谓词结构提取修饰主题的情感项.接着,利用改进的互信息方法计算情感项可信度,选取其中可信度前N的情感项.然后,利用改进的词频-逆向文件频率(TF-IDF)算法标记前N个情感项的正或负倾向符号.最后,基于基因表达式编程分类技术和谭松波博士提供的语料集,利用训练集训练分类模型,并使用测试集检验分类精度,实验结果表明本文提出的方法具有良好的效果.  相似文献   

16.
为提高短文本语义相似性度量准确性,设计一种基于混合机器学习模型的短文本语义相似性度量算法.先对短文本实施预处理,基于混合机器学习模型构建短文本的字词向量模型,对短文本进行特征扩展;然后组合短文本的多样度量特征,对多样度量特征进行维度规约;最后通过构建一个集成学习模型,计算语义相似性结果,实现语义相似性的度量.使用“Quora Question Pairs”比赛数据集测试该方法的性能,测试结果表明,该方法的准确性较高,对数损失和度量均方差均较低,说明该方法的相似性度量准确性较高.  相似文献   

17.
通过主题模型与语义网络对旅游电商中的评论文本进行挖掘,从而引导消费者与商家对评论信息作出重要决策;提出一种基于LDA(Latent Dirichlet Allocation,LDA)主题聚类与语义网络模型(LDA topic clustering and semantic network model,LTC-SNM)的方法对酒店在线评论文本进行研究;获取在线评论文本进行数据预处理,使用Word2vec生成词向量,利用机器学习算法对评论文本进行情感分类;通过LDA主题模型对分类后的文本进行聚类,生成酒店的特征主题词;通过ROSTCM将特征主题词与所修饰的情感词生成语义网络,缓解了挖掘文本信息的复杂性;实验结果表明:提出的LTC-SNM文本挖掘方法使得在线用户评价的主题更具表达性。  相似文献   

18.
基于Web挖掘的领域本体自动学习   总被引:21,自引:0,他引:21  
为获取领域本体并量化概念关系的可信度,提出了一种基于Web挖掘的学习模型.通过可扩展的模式集和分布语义模型获取本体主干,使用关联规则发现概念间的一般关系,对候选本体进行修剪和合并.模式可信度、概念语义距离与关联特征决定了概念间关系的可信度.通过"文本分析-本体获取-文本扩充"的迭代过程,优化模型参数和阈值.该模型解决了现有本体学习方法对词典或核心本体的依赖性、以及不能对关系进行可信度量化的问题.实验证明了所提出模型的有效性.  相似文献   

19.
针对电子病历中疾病诊断文本同义词识别和命名标准化问题,提出了一种自适应的文本聚类方法.首先提出了一种新的基于集合的文本相似性度量算法;然后采用基于相似度分布的文本聚类算法实现同义文本识别,该算法能够自动确定类簇个数;最后采用基于序列模式的中心概念提取算法实现了疾病命名的标准化,同时对聚类簇进行合并和优化,进一步提升了聚类的准确性.测试结果表明,所述方法具有较高的准确率和聚类效率,在病历文本的预处理、分类和分析中具有广泛意义.  相似文献   

20.
本文结合网络虚拟社会中舆情检索的实际需求,提出了一种面向博客群的主题倾向性分析模型.针对博客主题评论篇幅长短不一的结构特点,模型采用不同的文本倾向性处理方法:对于较长篇幅评论文本,分别统计目标评论中赞同、反对字符的倾向字符权重及其分布密度;对于拥有少量文字的主题评论,通过计算评论中字符倾向权重之和,实现评论倾向性评估.实验中通过构建面向“网络文化”的博客主题测试集,对模型的主题评论倾向性计算方法以及语义检索能力进行验证评估.实验结果表明模型具有较好的文本倾向性识别能力.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号