首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 170 毫秒
1.
传统的年龄回归方法不能学习深层次信息,因此利用能充分挖掘上下文关系信息的深度学习方法来识别用户的年龄。具体而言,提出了一种基于LSTM的年龄回归方法,其能够学习长期依赖关系即建立输入值之间的长相关联系。采用了两种不同的特征,即文本特征和社交特征。为了有效地区分这两种特征,充分利用这两种特征之间的信息,进一步提出了基于双通道LSTM的年龄回归方法,具体实现是在神经网络中加入Merge层,将LSTM分别产生的文本特征表示和社交特征表示结合进行集成学习以充分学习文本特征和社交特征间的联系。实验结果表明,基于双通道LSTM的年龄回归方法能够有效地区分文本特征和社交特征,并且较单个LSTM方法能够取得更好的年龄回归性能。  相似文献   

2.
针对传统文本分类方法忽略词语间的语义特征的问题,并为了改善输入文本的表示质量,提出一种基于短语结构和词语词性相结合的情感分类方法.该方法首先通过短语结构优化分词,可以更好地提取文本特征;其次利用Word2vec工具训练词语和词性相结合的文本语料库得到词向量模型,解决了Word2vec无法识别一词多义的问题;最后通过SVM算法对文本进行情感分类.实验结果表明,该算法能够提高文本情感分类的正确性.该方法对舆情监控、股票市场行情预测和了解消费者对产品的偏好等具有较高的实用性.  相似文献   

3.
学术报告讲座的标题属于典型的超短文本,其固有的特征稀疏问题使得在利用传统的文本分类方法对其分类时效果不佳。为解决上述问题,文章基于词向量嵌入技术,对学术报告标题进行特征词扩展。通过控制特征扩展幅度和设置词间相似度阈值,使扩展的特征词与标题特征词的内容相关,并从词性角度进一步考虑词语相似性,过滤无关特征词。实验结果表明,该方法能够有效地提高对学术报告标题短文本的分类效果。  相似文献   

4.
针对目前各种基于长短期记忆网络LSTM的句子情感分类方法没有考虑词的词性信息这一问题,将词性与自注意力机制相结合,提出一种面向句子情感分类的神经网络模型PALSTM(Pos and Attention-based LSTM).首先,结合预训练词向量和词性标注工具分别给出句子中词的语义词向量和词性词向量表示,并作为LSTM的输入用于学习词在内容和词性方面的长期依赖关系,有效地弥补了一般LSTM单纯依赖预训练词向量中词的共现信息的不足;接着,利用自注意力机制学习句子中词的位置信息和权重向量,并构造句子的最终语义表示;最后由多层感知器进行分类和输出.实验结果表明,PALSTM在公开语料库Movie Reviews、Internet Movie Database和Stanford Sentiment Treebank二元分类及五元情感上的准确率均比一般的LSTM和注意力LSTM模型有一定的提升.  相似文献   

5.
主观文本观点识别是文本信息处理的一个重要研究方面,在产品推荐、智能信息检索、辅助决策等方面均具有重要的潜在应用价值.与连续的n元词的文本表示方法不同,间隔n元核能够提取主观文本中不规范不连续的特征.此外,间隔n元核的表示方法不需要进行词语依存关系分析和词语极性强度分级.在文本观点分类数据集和短评论数据集上的实验结果表明:与已有的观点分类方法相比,基于间隔n元核的方法有更高识别准确率;在不同特征数目下,增加间隔n元核特征均能够提高分类精度;间隔n元核是一种合适的主观文本特征表示方法.  相似文献   

6.
为了研究中文情感文本中评价对象省略现象的识别方法, 将评价对象省略识别建模为一个二元分类问题, 利用机器学习算法进行自动学习。探讨当前句位置无关特征、当前句位置相关特征和上下文相关特征对评价对象省略识别的作用。3个不同领域的实验结果表明, 新提出的基于机器学习的评价对象省略识别方法能够获得较好的识别效果。  相似文献   

7.
多特征中文命名实体识别   总被引:1,自引:0,他引:1  
命名实体识别任务是对文本中的实体进行定位,并将其分类至预定义的类别中.目前主流的中文命名实体识别的模型是基于字符的命名实体识别模型.该模型在使用句法特征之前,需先进行分词,不能很好的引入句子的句法信息.另外,基于字符的模型没有利用词典中的先验词典信息,以及中文偏旁部首蕴含的象形信息.针对上述问题,论文提出了融合句法和多粒度语义信息的多特征中文命名实体识别模型.实验证明论文模型相对目前主流模型有了较大的提高,同时论文还通过实验分析了各种特征对模型识别效果的影响.  相似文献   

8.
从人工分类的角度看,标题、摘要及关键词中的词条对于文本分类具有更重要的作用,在特征选取中低DF值的词条可能更能代表文本的类别信息。针对以上两个问题,本文提出了基于类别核心词的特征选取方法。首先,从标题、摘要及关键词中提取类别核心词;然后。通过加权方式,强化它们在特征选取中的作用;最后在朴素贝叶斯分类方法上进行实验。实验结果表明,提出的方法能够有效提高中文文本的分类准确率。  相似文献   

9.
为进一步提高文本情感倾向性分类效果,提出基于文本特征和语言知识融合的卷积神经网络模型MI-CNN.使用Word2Vec表示词语信息,将词性和情感词语等语言知识嵌入词向量中,将文本特征和语言知识融合到情感倾向性分类模型,经过参数优化提升文本情感倾向性分类模型的准确率.在数据集上进行实验,结果表明所提出的模型准确率达到93...  相似文献   

10.
用文本分类的方法找出中文评教信息的情感倾向,使学生主观评价里蕴含的信息得到有效利用,是对现有评教系统的必要补充.采用基于潜在语义分析的方法对文本向量降维,并用支持向量机的分类方法对目标文本进行分类,得到每一条主观评价的情感倾向.分析了特征选择、特征抽取方法、降维维数、词性、训练集合与测试集合样本的比例等几方面对分类的影响,找到了较好的中文评教文本分类模型.  相似文献   

11.
相似词分析是自然语言处理领域的研究热点之一,在文本分类、机器翻译和信息推荐等领域中具有重要的研究价值和应用意义。针对新浪微博短文本的特点,给出一种带词性的连续词袋模型(POS-CBOW)。该模型在连续词袋模型的基础上加入过滤层和词性标注层,对空间词向量进行优化和词性标注,通过空间词向量的余弦相似度和词性相似度来判别词向量的相似性,并利用统计分析模型筛选出最优相似词集合。实验表明,基于POS-CBOW语言模型的相似词分析算法优于传统CBOW语言模型。  相似文献   

12.
针对中文网页文本分类中特征降维方法和传统信息增益方法的缺陷和不足做出优化改进,旨在有效提高文本分类效率和精度.首先,采取词性过滤和同义词归并处理对特征项进行初次特征降维,然后提出改进的信息增益方法对特征项进行特征加权运算,最后采用支持向量机(SVM)分类算法对中文网页进行文本分类.理论分析和实验结果都表明本方法比传统方法具有更好的性能和分类效果.  相似文献   

13.
运用语料库语言学统计方法对中文文本自动查错的有关问题进行探讨 ,使用词性间关系进行查错 ,主要依据词性二元同现概率、互信息、词性 2阶Markov模型  相似文献   

14.
中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求.基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component analysis,PCA)的混合特征降维方法(CHI-...  相似文献   

15.
基于概率潜在语义分析的中文文本分类研究   总被引:1,自引:0,他引:1  
概率潜在语义模型使用统计的方法描述"文档—潜在语义—词"之间的概率分布关系,其实质是模拟了潜在的概率语义空间,并将文档和词映射到同一个语义空间.该文将概率潜在语义分析模型用于中文文本分类,一方面较好地处理了自然语言中的同义、多义问题;另一方面通过计算概率潜在语义空间中向量的距离来获得文档间的类别信息从而达到文本分类的目的.实验结果表明,该分类器具有良好的分类性能.  相似文献   

16.
对在线商业评论文本的情感进行挖掘,融合评论文本不同特征为分类器提供更多的信息量,提出了一种新的在线电商情感分类算法。首先,针对传统词嵌入模型无法很好地融合词语情感信息特征的不足,考虑了词嵌入特征和词性特征的多特征融合方法;其次,在两种特征融合方法的基础上采用了双通道和单通道的对比来比较分类的准确性,提出了并行的CNN和BiLSTM-Attention双通道神经网络模型;最后,使用真实的京东电商评论数据集对所提模型进行了评估,并且在实验中与不同分类算法进行对比。实验结果表明,新的混合方法具有更好的分类准确率、召回率和F1指标。  相似文献   

17.
对在线商业评论文本的情感进行挖掘,融合评论文本不同特征为分类器提供更多的信息量,提出了一种新的在线电商情感分类算法。首先,针对传统词嵌入模型无法很好地融合词语情感信息特征的不足,考虑了词嵌入特征和词性特征的多特征融合方法;其次,在两种特征融合方法的基础上采用了双通道和单通道的对比来比较分类的准确性,提出了并行的CNN和BiLSTM-Attention双通道神经网络模型;最后,使用真实的京东电商评论数据集对所提模型进行了评估,并且在实验中与不同分类算法进行对比。实验结果表明,新的混合方法具有更好的分类准确率、召回率和F1指标。  相似文献   

18.
提出一种基于句子相关度的文本自动分类模型(TCSC).该模型利用训练样本增量式地自动更新类别语料库,根据句子的位置权值和语料权值计算句子类别相关度,获得用于文本分类的句子相关度矩阵,通过该矩阵实现文档分类.该模型避免了分类阶段待分类文本特别是中文文本的分词,模糊了词的多义问题,且在文本分类的实验中能够达到86%以上的查全率和查准率;随着语料库的不断训练和调整,分类性能还可以进一步提高,具有简单实现的特点.  相似文献   

19.
由于word2vec、Glove等静态词向量表示方法存在无法完整表示文本语义等问题,且当前主流神经网络模型在做文本分类问题时,其预测效果往往依赖于具体问题,场景适应性差,泛化能力弱.针对上述问题,提出一种多基模型框架(Stacking-Bert)的中文短文本分类方法.模型采用BERT预训练语言模型进行文本字向量表示,输...  相似文献   

20.
传统分布式语义文本分类方法难以高效地在云计算环境下实现文本快速准确分类,为此,提出一种新的云计算环境下分布式语义文本自适应分类方法。通过期望交叉熵对分布式语义文本特征进行选择,针对任意类别中的词,按照权重值从大到小的顺序对其进行排列,将排在前面的若干词看作特征词,针对分布式语义文本集中的所有类别进行同样的操作,将获取的所有类别特征词结合在一起,建立特征词典。针对主题引入加权策略,通过权重值对不同主题针对不同类别的判断能力进行描述,以获取最佳主题,给出新文本特征产生过程。依据提取的分布式语义文本特征,通过朴素贝叶斯分类器实现分布式语义文本的自适应分类。实验结果表明,所提方法分类精度和效率高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号