首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 484 毫秒
1.
通过主题模型与语义网络对旅游电商中的评论文本进行挖掘,从而引导消费者与商家对评论信息作出重要决策;提出一种基于LDA(Latent Dirichlet Allocation,LDA)主题聚类与语义网络模型(LDA topic clustering and semantic network model,LTC-SNM)的方法对酒店在线评论文本进行研究;获取在线评论文本进行数据预处理,使用Word2vec生成词向量,利用机器学习算法对评论文本进行情感分类;通过LDA主题模型对分类后的文本进行聚类,生成酒店的特征主题词;通过ROSTCM将特征主题词与所修饰的情感词生成语义网络,缓解了挖掘文本信息的复杂性;实验结果表明:提出的LTC-SNM文本挖掘方法使得在线用户评价的主题更具表达性。  相似文献   

2.
提出了基于LDA(Latent Dirichlet Allocation)主题模型的Web文本分类方法,利用MCMC方法中的Gibbs抽样获得模型参数从而获取词汇的概率分布,使隐藏于WEB文本内的不同主题与WEB文本字词建立关系。将LDA算法应用于WEB文本分类识别领域,在实验中与k均值聚类和贝叶斯网络方法进行了对比,其结果表明LDA与其他同类算法相比具有一定的优势。  相似文献   

3.
针对传统多标签文本分类模型未考虑标签之间以及标签与文本各个部分之间的相关性、低频标签预测效果不佳的问题,使用图嵌入和区域注意力技术来挖掘标签之间以及标签和文本之间的关系,提出了编码器图嵌入和区域注意力机制解码器模型来处理多标签分类任务.采用Bi-LSTM作为编码器,使用图嵌入技术生成标签嵌入矩阵;利用区域注意力机制结合...  相似文献   

4.
陈可嘉  刘惠 《科学技术与工程》2021,21(29):12631-12637
针对文本分类中文本数据表示存在稀疏性、维度灾难、语义丢失的问题,提出一种基于单词表示的全局向量(global vectors for word representation, GloVe)模型和隐含狄利克雷分布(latent Dirichlet allocation, LDA)主题模型的文本表示改进方法。利用GloVe模型结合局部信息和全局词语共现的统计信息训练得到文本的稠密词向量,基于LDA主题模型生成文本隐含主题和相应的概率分布,构建文本向量以及基于概率信息的主题向量,并计算两者之间的相似性作为分类器的输入。实验结果表明,相比其他几种文本表示方法,改进方法在精确率、召回率和F_1值上均有所提高,基于GloVe和LDA的文本表示改进方法能有效提升文本分类器的性能。  相似文献   

5.
针对多标签文本分类任务中如何有效地提取文本特征和获取标签之间潜在的相关性问题,提出一种CNN(convolutional neural networks)结合Bi-LSTM (bi-directional long short-term memory)的模型.首先,通过CNN网络和最大池化提取文本的特征;然后,利用训练的Labeled-LDA(labeled latent dirichlet allocation)模型获取所有词与标签之间的词-标签概率信息;接着,使用Bi-LSTM网络和CNN网络提取当前预测文本中每个词的词-标签信息特征;最后,结合提取的文本特征,预测与当前文本相关联的标签集.实验结果表明,使用词-标签概率获取文本中词与标签之间的相关性信息,能够有效提升模型的F1值.  相似文献   

6.
针对大规模网络视频数据的学习需要考虑无标签数据和异构信息的问题,提出了一种基于视觉和文本异构信息的网络视频在线半监督学习方法.该方法将文本和视觉看作2个视图,采用图作为基分类器对每个视图进行建模,并利用线性邻域的传播算法来预测样本类别.在不同视图之间采用多图上的协同训练,利用未标记样本增量地更新基分类器,并根据类别相关的融合方法确定最终结果,从而提高了分类准确率.实验结果表明,该方法的结果优于支持向量机方法约8.3%,在线增量更新后,学习器的性能提高了约3%,因此比较适合于大规模视频数据的在线半监督学习.  相似文献   

7.
电子政务平台每天都会产生大量短文本数据,挖掘短文本数据对政府掌握民意有十分重要的作用.针对短文本信息量少,单一短文本向量表示模型产生的特征信息丢失问题,提出一种融合权重及主题特征的混合向量表示模型.该模型利用Word2vec和TF-IDF算法挖掘短文本的局部特征,利用BTM主题模型挖掘短文本全局特征,然后将两种特征向量进行连接构成短文本向量.针对短文本数据增量变化特征,通过增加限定阈值改进传统Single-Pass聚类算法,实现短文本的增量聚类.实验结果表明,该模型能够有效的提高短文本聚类效果.  相似文献   

8.
文本情绪多标签分类是一种细粒度的文本情感分析,通过挖掘文本中蕴含的多种情绪信息,为文本分配多种所属的情绪标签。文章提出一种基于标签特征的卷积神经网络(CNN)情绪多标签分类方法,首先利用word2vec模型对文本进行词向量表示,然后利用标签特征来强化文本情绪和标签之间的联系,将其融合于CNN模型中,用于对文本情绪进行深层次的表示和多标签分类。为了验证方法的有效性,选取了CLR和LPLO两个多标签分类方法作为基准方法,在NLPCC2014的中文微博情绪分析数据集进行比较实验。结果表明,使用标签特征的CNN模型,可以提升微博情绪的分类性能。  相似文献   

9.
为了提高检索结果的时间相关性,将文本特征抽取和多标签分类算法应用于文献检索的潜在时间意图分类研究之中.从检索潜在时间意图分类的角度出发,提出一种基于文本时间信息抽取和Labeled LDA(标签主题模型)的文献潜在时间意图自动分类算法.首先,在获取的文献时间信息基础上,将文献检索潜在时间意图映射至具体时间类别.其次,为了减少时间信息的稀疏性对分类特征学习过程的影响,利用交叉学科中时间短语分布特征优化Labeled LDA分类模型的标签选择过程.最后,将所提算法与其他多标签分类算法进行对比实验,分析和评估文献检索潜在时间意图自动分类的准确率.结果表明,所提算法的AUC的值达到79.6%,较同类基准算法ECC(整体分类链)提高约10.9%,且针对不同学科均取得了较好的分类效果,是一种有效的文献检索潜在时间意图学习方法.  相似文献   

10.
针对基本话题模型只能抽取粗粒度上下文信息的问题,通过对潜在狄里克雷分配(LDA)模型进行扩展,建立了一种利用词序信息的多粒度话题情感联合模型(MTSU-Col)。MTSU-Col模型客观表达了词汇、全局/局部话题、情感标签和词序信息之间的关联关系,使模型中话题和情感的建模更加符合文本的语义表达,有效解决了现有话题、情感分析方法存在的领域依赖问题,从而实现了文本多粒度话题信息和情感倾向信息的同步非监督获取。实验表明:利用MTSU-Col模型对文本进行情感倾向性分类,可使综合评价指标F1值达到84%,整体性能与监督分类方法支持向量机(SVM)类似,均优于未采用词序信息的分析方法。由于挖掘话题集合具有层次化、语义相关的特点,因此MTSU-Col模型对观点挖掘是可行、有效的。  相似文献   

11.
针对ML-GCN中标签共现嵌入维度过高影响模型分类性能和ML-GCN中没有充分发掘标签之间不对称关系的问题,提出一种基于图注意力网络的多标签图像分类模型ML-GAT;ML-GAT模型首先对高维标签语义嵌入矩阵进行降维;然后通过降维后的低维标签语义嵌入表示和标签类别共现图得到标签共现嵌入;与此同时ML-GAT将多标签原始...  相似文献   

12.
基于大型预训练语言模型的有监督学习方法在可控文本生成任务上取得了优秀的成果,但这些研究都着重于控制生成文本的高级属性(比如情感与主题),而忽略了泛化性问题.现有的基于自监督学习的研究方法则通过句子级别的训练来使模型获得补全整句的能力,使模型做到单词和短语级别的控制生成,但生成与特定属性强相关句子的能力依旧待提升.所以本文提出了一种单词级别(细粒度)与句子(粗粒度)级别相结合的多粒度训练方式:单词级别的主题模型让模型学习主题层面的语义以获得主题到文本的生成能力,句子级别的自监督训练让模型学习整句的表征以获得补全句子的能力.通过主题模型与自监督学习的结合,使模型在单词与短语级别的可控生成阶段取得了更好的效果.实验表明,本文提出的模型在主题契合度以及常规文本生成指标方面优于现有的基线模型.  相似文献   

13.
针对面向实际应用场景中数据标签易残缺导致有监督多标签分类方法可用训练数据量减少,未能利用大量标签缺失数据中蕴含的样本特征空间关联知识以最大化判别间隔,限制多标签分类效果等问题,本文提出一种融合样本相似性的弱监督多标签分类方法.该方法利用标签相关性和样本相似性恢复标签以提高数据利用率,并将标签恢复嵌入到训练过程中以便挖掘标签相关性,通过近端加速梯度法进行参数优化,建立弱监督学习场景的多标签分类模型.在真实数据集上的实验结果表明,该方法能够利用样本相似性有效提升模型在标签残缺时的分类能力,实用价值大.   相似文献   

14.
基于主题情感混合模型的无监督文本情感分析   总被引:4,自引:0,他引:4  
针对有监督、半监督的文本情感分析存在标注样本不容易获取的问题, 通过在LDA模型中融入情感模型, 提出一种无监督的主题情感混合模型(UTSU模型)。UTSU模型对每个句子采样情感标签, 对每个词采样主题标签, 无须对样本进行标注, 就可以得到各个主题的主题情感词, 从而对文档集进行情感分类。情感分类实验对比表明, UTSU模型的分类性能比有监督情感分类方法稍差, 但在无监督的情感分类方法中效果最好, 情感分类综合指标比ASUM模型提高了约2%, 比JST模型提高了约16%。  相似文献   

15.
近年来,随着机器学习的发展,分类系统的性能有了很大的飞跃。模型需要大量带标签数据才能使训练结果达到要求,而获取高质量的标注数据费时费力。为了降低成本,出现了众包、自动化系统等方法标注训练数据。但是,这些标注方法往往会产生大量错误标注,即标签噪声。另外,信息不足、专家错误和编码错误等因素,也可能使标签受到污染。训练过程中对标签噪声的处理不当,可能会使预测精度和准确性降低,或者使模型复杂度增加。因此,研究标签噪声对推广机器学习在各领域的应用和降低机器 学习算法的部署成本等方面具有重要意义。通过综述产生标签噪声的原因、影响以及近几年来应对标签噪声的一些技术方法,对标签噪声的研究现状和发展前景进行分析。  相似文献   

16.
很多学者用“全球恐怖主义研究数据库”GTD数据集,采用博弈论、K近邻法和支持向量机等分析恐怖事件的聚集性,已经取得一些成果.但在前期研究中未有很好考虑数据的稀疏性以及高维度多冗余等会导致聚集分类准确率不高的问题.本文提出一种基于最小冗余最大相关与因子分解机结合的TFM分类模型,使用增量搜索方法寻找近似最优的特征解决高维度多冗余问题和FM方法解决数据稀疏问题,并对预处理后的恐怖袭击事件数据用TFM模型做量化分类.文中使用朴素贝叶斯NB、支持向量机SVM、逻辑回归LR与TFM等4个模型的“马修斯相关系数”MCC进行比较,结果显示TFM的MCC相对于其他三个模型NB、SVM、LR分别提高了49.9%,2.5%,2.3%,可见TFM模型有一定可行性.  相似文献   

17.
利用K均值聚类和增量学习算法扩大训练样本规模,提出一种改进的mRMR SBC.一方面,利用K均值聚类预测测试样本的类标签,将已标记的测试样本添加到训练集中,并在属性选择过程中引入一个调节因子以降低K均值聚类误标记带来的风险.另一方面,从测试样本集中选择有助于提高当前分类器精度的实例,把它加入到训练集中,来增量地修正贝叶斯分类器的参数.实验结果表明,与mRMR SBC相比,所提方法具有较好的分类效果,适于解决高维且含有较少类标签的数据集分类问题.  相似文献   

18.
周期分类和Single-Pass聚类相结合的话题识别与跟踪方法   总被引:1,自引:0,他引:1  
针对增量式聚类初始时话题模型不够充分和准确,随处理报道数量增加,误检与漏检的累积效应被放大的问题,提出了周期分类和Single-Pass聚类相结合的话题识别与跟踪方法.首先采用增量式聚类算法进行话题识别与跟踪,当新闻文本每积累到一定程度之后,对已经聚类的报道进行周期分类,使话题簇精度提高,从而提高后续话题识别与跟踪精度.实验表明这种方法是有效的,能够降低漏检率与错检率,减少归一化错误识别代价.  相似文献   

19.
旅游消费及其效用研究   总被引:6,自引:1,他引:5  
分析了旅游高消费及旅游者效用对旅游业发展的影响。利用经济学的基本原理,结合数学模型从单一旅游效用和多元旅游效用两个角度对我国旅游需求进行定量分析,以非线性特征函数建立了单旅游效和多旅游效用模型,为旅游决策的最优化实施和管理提供了理论依据。  相似文献   

20.
针对焦炉集气管压力具有多变量、耦合、时变性等特点,设计焦炉集气管压力增量式在线子空间多变量预测控制策略.在增量式子空间预测控制的基础上,引入滚动窗口子空间辨识方法,设计子空间预估器模型的更新策略,实现了在线子空间自适应预测控制.应用在线子空间辨识方法对焦炉集气系统现场数据进行辨识,取得了较好的预测精度;利用子空间预估器模型进一步建立焦炉集气系统的状态空间模型,在考虑输入约束、模型时变和干扰的情况下,该模型表现出了很好的控制精度和性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号