首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
虚假评论识别在电子商务、社交媒体等领域具有重要的应用价值。尽管现有虚假评论识别模型融合了文本的情感信息,但在预训练过程中忽视了对情感信息的提取,导致准确率不高。针对此问题,本文提出一种基于情感信息预处理和双向门控循环单元(Bidirectional Gated Recurrent Unit, Bi-GRU)的虚假评论识别模型(FR-SG),用于提高虚假评论识别的准确率。首先,通过Albert模型获取文本的语义向量;然后,使用词频-逆文本频率(Term Frequency-Inverse Document Frequency, TF-IDF)和K-均值(K-means++)聚类的方法从评论中挖掘情感种子词,基于种子词对文本中的属性词和情感词进行掩码(mask);接着,使用面向情感的目标优化函数,将情感信息嵌入到语义表示中,生成情感向量;最后,将这两组向量的拼接结果输入虚假评论识别网络中,得到文本的分类结果。实验结果表明,相较于Bi-GRU+Attention模型,FR-SG提高了虚假评论识别的准确率。  相似文献   

2.
分别通过搜索引擎和本地的双语语料库挖掘OOV译文。首先,提出一种利用词汇重叠特征、词对齐特征和位置特征建立最大熵分类器的方法,借以自动从网页信息中抽取和构建双语平行语料库。其次,提出一种结合互信息的频率变化方法生成多词单元,并采用频度.距离模型和音译模型进行正确译文的选择。对这两种挖掘方法的性能进行对比,实验表明基于网络的Top10的包含率达到94.6%,而基于平行语料库的Top10的包含率为37.5%。  相似文献   

3.
情感词典作为情感分析任务中的一项基础资源,是观点发现及情感极性判断的重要依据。随着网络新词的大量出现,情感新词的抽取成为一个亟待解决的问题。针对这一问题提出基于边界特征的情感新词的提取方法。该方法利用skip-gram模型挖掘情感词的边界特征、构建边界特征集,利用边界特征集提取情感新词候选集,通过bigram搭配、序列模式等方法对情感新词候选集进行过滤,根据候选串的频次、与其搭配的边界特征在语料中的分布情况对候选串进行评分。在微博语料上的实验结果显示,该方法对情感新词识别的准确率与候选串得分正相关,当候选串得分为11时准确率为83.33%。实验证明,基于边界特征的情感新词的提取方法能够有效地识别大规模语料中的情感新词。  相似文献   

4.
针对互联网中的产品评论信息,提出一种三层过滤的评价对象抽取方法.该方法采用一个自举式的抽取算法在评论文本中得到候选的评价对象和情感词;利用评价对象与情感词之间的关联度对候选词进行关联置信度计算,提取关联置信度高的评价对象以提高识别的准确率;引入一个不相关的平行领域对剩余的候选词进行领域置信度计算,挖掘低频的评价对象.3个公开数据集中的实验结果表明该方法能够显著地提高评价对象的识别效果.   相似文献   

5.
事件触发词识别是事件抽取技术中核心任务之一,在面向微博的突发事件触发词识别中,提出一种基于扩展触发词表和多值分类模型(P-Multi模型)相融合的触发词识别方法,进行事件触发词识别。以多值分类模型以扩展触发词为基础,结合基于模式规则匹配,对文本进行潜在语义分析,进一步挖掘触发词语义信息,将模式匹配和语义分析融合在微博突发事件触发词识别之中。实验结果在触发词识别准确率、召回率上均有所提升,证明了该方法的有效性。  相似文献   

6.
传统的词向量嵌入模型,如Word2Vec、GloVe等模型无法实现一词多义表达;传统的文本分类模型也未能很好地利用标签词的语义信息。基于此,提出一种基于XLNet+BiGRU+Att(Label)的文本分类模型。首先用XLNet生成文本序列与标签序列的动态词向量表达;然后将文本向量输入到双向门控循环单元(BiGRU)中提取文本特征信息;最后将标签词与注意力机制结合,选出文本的倾向标签词,计算倾向标签词与文本向量的注意力得分,根据注意力得分更新文本向量。通过对比实验,本文模型比传统模型在文本分类任务中的准确率更高。使用XLNet作为词嵌入模型,在注意力计算时结合标签词能够提升模型的分类性能。  相似文献   

7.
多词表达(multiword expressions, MWEs)是自然语言中一类固定或半固定搭配的语言单元,特别在网络文本中,多词表达频繁出现,给分词和后续文本理解带来了巨大挑战,因此,面向网络文本提出了一种双层抽取策略来实现多词表达的识别。第一层次,利用基于左右熵联合增强互信息的算法来实现多词表达的初步抽取;第二层次,在第一层次获得的多词表达候选列表的基础上,利用SVM分类器,构建上下文和词向量特征,进行多词表达与非多词表达的分类,实现多词表达候选列表的进一步过滤。经过实验测试,在5 000条微博语料上,第一层次获得的多词表达的F值为84.92%,第二层次多词表达识别的F值为89.58%,相比于基线系统,性能有很大的提升。实验结果表明,双层抽取策略能够实现网络多词表达的有效抽取,并能有效改善分词结果。  相似文献   

8.
为解决在上行多用户大规模多输入多输出(MIMO)系统中,迫零(ZF)检测算法可取得近似最优性能,但ZF检测算法涉及复杂度高达O(K3)的矩阵求逆运算(其中K为用户数)的问题,基于Lanczos算法提出一种软输出信号检测方法,避免了高阶矩阵求逆运算,使复杂度由O(K3)降为O(K2).该方法为了计算软输出信息——对数似然比(LLR),通过对基于Lanczos算法的迭代计算解向量的过程进行分析,给出了一种低复杂度的LLR近似计算方法.仿真结果表明:提出的软输出信号检测方法的误比特率(BER)性能与计算复杂度均优于基于Neumann级数近似的信号检测算法,同时,最多仅需5次迭代就可取得逼近于ZF检测算法的性能.  相似文献   

9.
为了解决迁移学习的欠适配问题,将粒模型作为候选模型的集合,通过模型选择的方式引入目标域的辅助模型中包含的标注规则,提出粒模型推断中基于似然比的模型选择方法(likelihood ratio model selection,LRMS),实现了辅助模型与粒模型的融合。LRMS保持基于Viterbi算法的标注模型对整条序列进行计算的模式,避免了候选标注器对上下文关系的破坏。通过大量词性标注实验表明LRMS在每个迁移学习任务中都有准确率的提高,从而证明似然比模型选择是一种有效的解决欠适配问题的方法。  相似文献   

10.
提出一种基于后验概率对数似然比(LLR)均值的逆向识别低密度奇偶校验码(LDPC)校验矩阵的方法。通过估计接收码字的信道增益以及信道噪声方差值, 得到后验概率对数似然比, 并依据后验概率对数似然比均值最大化原则, 成功实现对 LDPC 码校验矩阵的逆向识别。仿真结果表明, 在加性高斯白噪声信道条件下, 利用所提出的LDPC 码逆向识别技术, 接收方可准确无误地找到发送方使用的LDPC 码校验矩阵。  相似文献   

11.
提出了一种基于对数似然比的解扩方法. 该方法基于解调输出的软信息(即对数似然比)解扩且输出也为软信息,理论分析表明该方法的误码率能达到最佳误码率性能. 在不同调制方式下对该解扩方法的误码率进行了仿真,结果显示该方法的误码率曲线与最佳误码率理论曲线重合,且比传统基于硬信息的解扩方法的性能优化2 dB左右. 利用该方法可以方便地与软信息输入输出的Turbo信道编译码技术相结合.   相似文献   

12.
在跨语言文本分析任务中,多词短语比单个词汇歧义小,语义表达更加准确,有助于提高文本理解的准确性。现有方法主要关注单个词的跨语言对齐。将多词短语抽取和跨语言对齐相融合,提出了一种基于多策略过滤的汉日多词短语抽取和对齐的方法。首先从一个语种出发,通过重复串、左右邻接熵、内部关联度、多词嵌套、停用词等方法提取并过滤得到具备完整语义的多词短语,然后利用平行语料库计算汉日多词短语的相似度,实现跨语言对齐。在整个过程中可结合日语语言规则与特点,根据语料规模、相关领域对过滤阈值进行动态调整,提高了多词短语的领域适用性。实验结果表明,该方法可有效抽取汉日多词短语并进行准确对齐,以多词短语为对齐单元,语义表达更完整,实用价值更大。  相似文献   

13.
基于特定领域的语料库,利用统计和语言学规则相结合的方法提取多字词表达(Multiword expressions)。首先利用领域高频词作为种子词提取候选串,进一步利用各种统计量、多字词表达边界过滤规则对候选串进行噪声剔除,得到多字词表达。实验结果表明,该方法对于处理大规模真实文本效率很高,可以有效提高多字词表达的获取,可以更有针对性地在特定领域提取多字词表达。  相似文献   

14.
针对汽车故障问答文本特征稀疏、语义信息不全、深层次语义特征较难提取等问题,提出基于问题-答案语义共现的多层次注意力卷积长短时记忆网络模型(co-occurrence word attention convolution LSTM neural network,CACL)的问题分类方法。通过向量空间模型计算问题与答案文本中语义相似的共现词,使用注意力机制聚焦问题文本中的共现词特征,输入卷积神经网络(convolutional neural network,CNN)提取问题局部特征,通过长短时记忆网络(long short-term memory network,LSTM)及词级别注意力机制提取长距离依赖特征及其更高层次的文本特征,采用Softmax进行问题分类。结果表明,相比较于主流的问题分类方法,该方法有效提高了问题分类的精度,最高提升了10.04%的准确率。同时,试验发现当选用11个有效共现词且共现词来自问题文本时,模型的处理精度最佳。合理利用问题-答案文本语义相似的共现词,能有效提升汽车故障问题的分类性能,且共现词的个数、来源对问题的分类精度有一定的影响。  相似文献   

15.
传统的情感分析方法不能获取全局特征,以及否定词、转折词和程度副词的出现影响句子极性判断.在深度学习方法基础上提出了基于卷积神经网络和双向门控循环单元网络注意力机制的短文本情感分析方法.将情感积分引入卷积神经网络,利用情感词自身信息,通过双向门控循环网络模型获取全局特征,对影响句子极性的否定词、转折词和程度副词引入注意力机制实现对这类词的重点关注,提取影响句子极性的重要信息.实验结果表明,该模型与现有相关模型相比,有效提高情感分类的准确率.  相似文献   

16.
基于动态API序列挖掘的恶意代码检测方法未考虑不同类别恶意代码之间的行为差别,导致代表恶意行为的恶意序列挖掘效果不佳,其恶意代码检测效率较低.本文引入面向目标的关联挖掘技术,提出一种最长频繁序列挖掘算法,挖掘最长频繁序列作为特征用于恶意代码检测.首先,该方法提取样本文件的动态API序列并进行预处理;然后,使用最长频繁序列挖掘算法挖掘多个类别的最长频繁序列集合;最后,使用挖掘的最长频繁序列集合构造词袋模型,根据该词袋模型将样本文件的动态API序列转化为向量,使用随机森林算法构造分类器检测恶意代码.本文采用阿里云提供的数据集进行实验,恶意代码检测的准确率和AUC(Area Under Curve)值分别达到了95.6%和0.99,结果表明,本文所提出的方法能有效地检测恶意代码.  相似文献   

17.
针对序列模式挖掘(GSP)算法在中文产品评论特征提取中准确率不够高的问题,提出了一种二次剪枝算法,即利用GSP算法产生候选特征集,然后采用词对共现度作为阈值对其进行进一步筛选,从而达到提高准确率的目的.利用定制化的爬虫工具从京东网站上抓取摄像头产品的中文评论,选取其中1 000条作为试验数据,采用分词工具ICTCLAS对评论进行分词和数据预处理,并将所提算法与GSP算法、交叉语言模型(CLM)和似然比检验(LRT)进行对比试验.结果表明,利用所提算法获得的中文产品评论特征提取准确率达到76.37%,较GSP算法、CLM和LRT的准确率分别提高2.94%,5.77%和7.57%.  相似文献   

18.
为了进一步提高低信噪比下语音激活检测(VAD)的准确率,针对基于统计模型的似然比检验方法容易造成非语音信号误检的问题,提出了一种基于子带保留似然比的VAD算法.在似然比综合判决准则中引入保留因子,根据人耳对语音感知敏感度在频率上的差异,采用全局非均匀、局部均匀的方式划分子带,对似然比大于阈值的频率分量所对应的子带信号提取语音特征并根据特征强度设置保留因子,只使用保留的频分量似然比进行综合判决.实验结果表明:该算法在不同的低信噪比环境下检测性能均优于LRT(似然比检验)、MO-LRT(多观测似然比检验)等算法,其漏检率更低,同时有效减少了非语音信号似然比虚高而导致的误检,VAD判决准确率平均提高了2%~14%.  相似文献   

19.
为了提升计算机辅助发音训练(CAPT)系统中发音偏误趋势(PET)的检测效果,确保反馈信息的准确性与有效性,提出一种基于对数似然比的发音特征方法。该方法将多个基于深度神经网络的发音特征提取器用于生成帧级别的对数似然比,然后将对数似然比组成的发音特征用于PET的检测,为学习者提供发音位置和发音方法的正音信息。实验结果表明,发音特征对PET的检测效果优于常用声学特征(MFCC,PLP和f Bank),当发音特征与MFCC特征相结合时,可以进一步提升性能,达到错误接受率为5.0%,错误拒绝率为30.8%,诊断正确率为89.8%的检测效果。  相似文献   

20.
目前的神经网络一般只将词粒度层面的词向量作为输入,忽略了语义层面的全局语义特征.针对此问题,提出了一种基于局部特征和全局特征融合的情感分类方法,以解决评论特征稀疏和主题聚焦性差的问题.对于局部特征,选择基于情感词典和BiLSTM神经网络模型提取基于词向量的文本特征.对于文本集的全局主题特征,采用神经主题模型提取文本主题特征,并将其作为全局特征来表示短文本信息.最终将基于局部加权词向量的文本特征和基于神经主题模型的文本主题特征进行拼接,并通过Softmax层输出,完成文本情感分类.结果表明:融合全局主题语义和局部加权词向量可以更加丰富神经网络的特征,从而有效地提高情感分类的准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号