首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
通过主题模型与语义网络对旅游电商中的评论文本进行挖掘,从而引导消费者与商家对评论信息作出重要决策;提出一种基于LDA(Latent Dirichlet Allocation,LDA)主题聚类与语义网络模型(LDA topic clustering and semantic network model,LTC-SNM)的方法对酒店在线评论文本进行研究;获取在线评论文本进行数据预处理,使用Word2vec生成词向量,利用机器学习算法对评论文本进行情感分类;通过LDA主题模型对分类后的文本进行聚类,生成酒店的特征主题词;通过ROSTCM将特征主题词与所修饰的情感词生成语义网络,缓解了挖掘文本信息的复杂性;实验结果表明:提出的LTC-SNM文本挖掘方法使得在线用户评价的主题更具表达性。  相似文献   

2.
针对传统的潜在狄利克雷分析(LDA)模型在提取评论主题时存在着计算时间长、计算效率低的问题,提出基于MapReduce架构的并行LAD模型建立方法.在文本预处理的基础上,得到文档-主题分布和主题-特征词分布,分别计算主题相似度和特征词权重,结合k-均值聚类算法,实现评论主题提取的并行化.通过Hadoop并行计算平台进行实验,结果表明,该方法在处理大规模文本时能获得接近线性的加速比,对主题模型的建立效果也有提高.  相似文献   

3.
陈可嘉  刘惠 《科学技术与工程》2021,21(29):12631-12637
针对文本分类中文本数据表示存在稀疏性、维度灾难、语义丢失的问题,提出一种基于单词表示的全局向量(global vectors for word representation, GloVe)模型和隐含狄利克雷分布(latent Dirichlet allocation, LDA)主题模型的文本表示改进方法。利用GloVe模型结合局部信息和全局词语共现的统计信息训练得到文本的稠密词向量,基于LDA主题模型生成文本隐含主题和相应的概率分布,构建文本向量以及基于概率信息的主题向量,并计算两者之间的相似性作为分类器的输入。实验结果表明,相比其他几种文本表示方法,改进方法在精确率、召回率和F_1值上均有所提高,基于GloVe和LDA的文本表示改进方法能有效提升文本分类器的性能。  相似文献   

4.
一种改进的LDA主题模型   总被引:2,自引:0,他引:2  
由于文档中的词符合幂律分布,使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量的高频词淹没使得主题表达能力降低.通过一种高斯函数对特征词加权,改进LDA主题模型的主题分布.实验显示加权LDA模型获得的主题间的相关性以及复杂度(Perplexity)值都降低,说明改进模型在主题表达和预测性能方面都有所提高.  相似文献   

5.
随着智能终端的普及,文本的主题挖掘需求也越来越广泛,主题建模是文本主题挖掘的核心,LDA生成模型是基于贝叶斯框架的概率模型,它以语义关联为基础,很好地解决了文本潜在主题的提取问题。对文本聚类过程的核心技术LDA生成模型、数据采样、模型评价等作了较为深入的阐述和解析,结合网络教育平台的2 794篇学习刊物进行了主题发现和聚类实验,建立了包含3 800个词项的词库,通过kmeans算法和合并向量算法(UVM)分两步解决了主题聚类问题。提出了文本挖掘实验的一般方法,并对层次聚类中文本距离的算法提出了改进。实验结果表明,该平台刊物的主题整体相似度比较好,但主题过于集中使得许多刊物的内容不具有辨识度,影响用户对主题的定位。  相似文献   

6.
LDA主题模型是一种有效的文本语义信息提取工具,利用在文档层中实现词项的共现,将词项矩阵转化为主题矩阵,得到主题特征;然而在生成文档过程中会蕴含冗余主题。针对LDA主题模型提取主题特征时存在冗余的不足,提出一种基于邻域粗糙集的LDA主题模型约简算法NRS-LDA。利用邻域粗糙集构造主题决策系统,通过预先设定主题个数,计算出每个主题的重要度;根据重要度进行排序,将排序后重要度低的主题删除。将提出的NRS-LDA算法应用于K-means文本聚类问题上并与传统的文本特征提取算法及改进的算法进行比较,结果表明NRS-LDA方法可以得到更高的聚类精度。  相似文献   

7.
针对论坛缺乏热点话题提取方法的现状,提出一种将LDA(潜在狄利克雷分配)模型引入高校论坛场景主题的提取方式.在主题建模过程中,以回帖数量作为帖子热门程度的判定参数,根据帖子热门程度在语料中设置不同权重,随后使用Gibbs采样法提取主题.在此基础上设计并实现了包含数据抓取、文本预处理、主题提取三个模块的完整系统.将LDA模型引入系统并进行提取效果分析,实验结果表明LDA模型可以准确地提取出论坛文本中讨论的实时热点话题.  相似文献   

8.
【目的】针对词主题信息与词相似性信息对关键词提取的影响进行了研究,提出一种改进的TextRank关键词提取方法。【方法】首先,使用隐含狄利克雷分布(Latent Dirichlet allocation,LDA)主题模型对文档建模计算词主题信息;其次,使用FastText生成词向量,并计算词相似性矩阵;最后,融合词主题信息与词相似性信息的综合权重来优化TextRank词汇节点的初始权重,并进行词图模型的迭代运算与关键词提取。【结果】实验表明,改进方法的提取结果优于传统方法。【结论】证明了考虑词主题信息的全局性与词相似性信息的局部性能有效提高TextRank算法提取关键词的性能。  相似文献   

9.
提出了基于LDA(Latent Dirichlet Allocation)主题模型的Web文本分类方法,利用MCMC方法中的Gibbs抽样获得模型参数从而获取词汇的概率分布,使隐藏于WEB文本内的不同主题与WEB文本字词建立关系。将LDA算法应用于WEB文本分类识别领域,在实验中与k均值聚类和贝叶斯网络方法进行了对比,其结果表明LDA与其他同类算法相比具有一定的优势。  相似文献   

10.
随着技术预见定量分析方法以及文本挖掘技术的发展,通过主题模型挖掘专利文献的潜在语义来获取技术发展趋势逐渐成为研究热点之一。尽管LDA(Latent Dirichlet Allocation)模型依然是文本主题建模领域应用最广泛的方法,但传统LDA建模存在主题可解释性差以及未能充分利用专利文本上下文的语义关联等问题,导致部分有价值的技术情报未能完全呈现。为了进一步拓展传统LDA方法在专利文本挖掘和技术预见领域的应用,综合集成LDA模型的文本聚类功能与KeyBERT算法的关键词生成与语义分析能力,构建了一种面向技术预见量化分析的集成框架,并通过对工业互联网领域的技术预见分析验证了所提出模型的有效性,从而进一步丰富了当前基于文本建模和语义计算的技术预见方法体系。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号