首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
针对在线医疗评论文本长度短、语义稀疏的特点,提出一种基于词共现分析的在线医疗评论主题挖掘模型。应用于短文本的BTM主题模型在词对的选择过程中缺少对词语语义相关性的考虑,通过引入词共现分析计算语义相关性,设定阈值筛选参与训练的词对,进行医疗评论主题挖掘,基于主题一致性TC值和JS散度对比改进的COA-BTM主题模型与传统的BTM主题模型和LDA主题模型在医疗评论主题挖掘中的效果。实验结果表明改进的COA-BTM模型在主题一致性和主题质量上均具有更好的效果,证明了其在在线医疗评论挖掘领域的有效性。基于改进算法在医疗评论主题挖掘中的应用和SERVQUAL模型,更全面地识别了医疗服务质量影响因素。  相似文献   

2.
通过主题模型与语义网络对旅游电商中的评论文本进行挖掘,从而引导消费者与商家对评论信息作出重要决策;提出一种基于LDA(Latent Dirichlet Allocation,LDA)主题聚类与语义网络模型(LDA topic clustering and semantic network model,LTC-SNM)的方法对酒店在线评论文本进行研究;获取在线评论文本进行数据预处理,使用Word2vec生成词向量,利用机器学习算法对评论文本进行情感分类;通过LDA主题模型对分类后的文本进行聚类,生成酒店的特征主题词;通过ROSTCM将特征主题词与所修饰的情感词生成语义网络,缓解了挖掘文本信息的复杂性;实验结果表明:提出的LTC-SNM文本挖掘方法使得在线用户评价的主题更具表达性。  相似文献   

3.
在对标准潜在狄利克雷分布(LDA)模型进行改进的基础上,提出了一个主题情感混合最大熵LDA模型对在线评论进行细粒度观点挖掘.首先,在传统LDA模型中加入最大熵组件来区分背景词、特征词和观点词,并对特征词和观点词进行局部和全局的划分;然后,在主题层和单词层之间加入情感层,将传统的LDA三层模型扩展成四层;最后,进行情感极性分析,同时获取整篇评论和每个主题的情感极性,生成细粒度的主题情感摘要.实验验证了所提模型和理论的有效性.  相似文献   

4.
针对在线医疗评论文本具有行业专业性强、差异性大、不够规范等特点,提出一种基于特征加权词向量的在线医疗评论情感分析方法.利用Word2vec方法构建词向量模型,抽取情感词集合完善医疗服务领域情感词典,根据句法关系识别主题词与情感词的依存关系,引入期望交叉熵因子,建立特征加权词向量模型,分析在线医疗评论的情感倾向.实验结果表明扩充的医疗服务情感词典在分析性能上的准确率、召回率以及F1值均高于基础情感词典,引入期望交叉熵因子后,基于特征加权词向量的情感分析方法在SVM分类上表现出更好的效果,体现了其在在线医疗评论挖掘领域的良好效用.   相似文献   

5.
基于潜在狄利克雷分配(latent Dirichlet allocation,LDA)模型,引入高频词分析、共现网络分析、情感分析等方法,对抖音电商平台上助农产品在线评论的主题进行挖掘和扩展分析表明,消费者对助农产品的关注点主要包括产品质量和价格、商家服务和物流服务、消费者感知价值、助农活动和县长支持等。通过共现网络分析和情感分析均发现消费者对抖音平台助农产品总体是满意的,但仍有改善空间。建议抖音电商平台通过挖掘消费者需求、保证助农产品性价比、把握“电商助农”宣传方向、加强主播培训等方式来提升消费者的购物体验和满意度。  相似文献   

6.
针对网络商品评论数据不能有效引导买方做出合理选择的问题,提出一种融合LDA主题模型和支持向量机的商品个性化推荐方法.首先爬取不同类型商品的用户评论数据并对其进行预处理;其次建立基于LDA的主题模型并对其特点进行量化;最后利用支持向量机实现商品个性化推荐.以智能手机商品为例进行实验分析,结果表明,所提方法能获得98%以上...  相似文献   

7.
用户发布的微博内容能够体现用户兴趣,微博中用户的转发、评论、回复、他人评论等微博行为对用户兴趣具有很强的指导作用。为了有效利用用户微博行为,提出了一种基于有指导LDA(latent dirichlet allocation)的微博内容用户兴趣建模方法。首先通过分析对微博的转发、评论、回复、他人评论这4个因素对用户微博兴趣主题的影响,定义了4种约束关系;然后基于用户微博内容,将4种约束关系融合到LDA 模型中构建有指导的LDA微博主题生成模型,最后得到用户的微博主题分布,从而获得用户兴趣模型。实验结果表明,相比LDA模型,该方法的准确率有很大提高,引入4种信息对微博用户兴趣发现有非常重要的指导作用。  相似文献   

8.
LDA主题模型是一种有效的文本语义信息提取工具,利用在文档层中实现词项的共现,将词项矩阵转化为主题矩阵,得到主题特征;然而在生成文档过程中会蕴含冗余主题。针对LDA主题模型提取主题特征时存在冗余的不足,提出一种基于邻域粗糙集的LDA主题模型约简算法NRS-LDA。利用邻域粗糙集构造主题决策系统,通过预先设定主题个数,计算出每个主题的重要度;根据重要度进行排序,将排序后重要度低的主题删除。将提出的NRS-LDA算法应用于K-means文本聚类问题上并与传统的文本特征提取算法及改进的算法进行比较,结果表明NRS-LDA方法可以得到更高的聚类精度。  相似文献   

9.
分析酒店评论数据可以挖掘游客的关注点、意见、建议、情感倾向等有价值的信息.结合对酒店评论数据进行主题挖掘和情感分析的交叉研究,提出一个包含数据采集、数据预处理、主题挖掘、情感倾向研究及可视化分析的集成框架.以Tripadvisor网站上北京地区50家五星级酒店的5万余条中文评论数据为研究对象,进行LDA主题挖掘,同时基于酒店领域扩充情感词典,判定评论文本三元情感极性,并在此基础上实现主题和情感的交叉分析.研究结果可降低潜在游客购买决策的风险,也为酒店管理者制定针对性的管理和营销策略提供重要参考依据.研究方法同样适用于景区及餐饮领域的在线评论数据分析,拓展评论大数据与自然语言处理技术在旅游业的应用范畴.  相似文献   

10.
对于终身主题模型而言,先验知识的正确性对后续的建模任务起到了至关重要的作用.因此,提出了一种基于语义相似度改进的少样本终身主题模型SS-AMC(Semantic Similarity-AMC),利用BERT获取共现词对的词向量,计算其语义相似度,通过设置相似度阈值进而优化知识库中的先验知识,以提升少样本终身主题模型的性能.在中英文数据集上的实验结果表明,SS-AMC模型的主题一致性较基线模型有了明显的提升.  相似文献   

11.
陈可嘉  刘惠 《科学技术与工程》2021,21(29):12631-12637
针对文本分类中文本数据表示存在稀疏性、维度灾难、语义丢失的问题,提出一种基于单词表示的全局向量(global vectors for word representation, GloVe)模型和隐含狄利克雷分布(latent Dirichlet allocation, LDA)主题模型的文本表示改进方法。利用GloVe模型结合局部信息和全局词语共现的统计信息训练得到文本的稠密词向量,基于LDA主题模型生成文本隐含主题和相应的概率分布,构建文本向量以及基于概率信息的主题向量,并计算两者之间的相似性作为分类器的输入。实验结果表明,相比其他几种文本表示方法,改进方法在精确率、召回率和F_1值上均有所提高,基于GloVe和LDA的文本表示改进方法能有效提升文本分类器的性能。  相似文献   

12.
提出一种结合LDA及语义相似度的商品评论情感分类方法。该方法首先使用LDA对商品语料库建模,获取文档-主题矩阵;人工选择k对褒义词、贬义词,基于HowNet语义相似度计算主题(评价对象+观点内容)与各个褒义词和贬义词的相似度,达到对观点词极性判断,计算文本观点词情感极性的加权和作为文本的情感极性。实验表明,与基于向量空间的SVM分类方法相比,该情感分类方法在分类指标上表现更好。  相似文献   

13.
为揭示并对比统计学领域CSSCI期刊创办至今的刊文发展趋势与热门主题,该研究收集从1985-2020年CNKI数据库收录的统计学CSSCI期刊41 495篇文献作为研究对象,运用LDA主题模型及共现网络模型对热门主题及主流研究方法等指标进行热门主题与知识图谱分析,并绘制相关知识图谱.研究表明,近5年来在研究方法上大量采用结构方程模型和分位数回归法,而大数据则成为近年来新增的高频词.LDA模型能够较为精确地挖掘统计学领域的热门主题和研究方法,为科研人员和决策者开展前沿科学活动提供重要支持.  相似文献   

14.
针对基于语料库统计的词语相似度计算方法存在的一些缺陷,如:计算量大、向量的特征维度高、特征稀疏、忽略了词语的语义信息等,提出了一种基于latent Dirichlet allocation(LDA)的词语相似度计算方法,通过将词语的特征向量映射为词语的主题分布来计算词语间的相似度;通过与基于《知网》的词语相似度计算方法的对比,证明了该方法能有效降低特征维度,并具有较好的词语相似度计算效果。  相似文献   

15.
针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行实验的结果表明,该方法在处理大规模文本时,能获得接近线性的加速比,对主题模型的建立效果也有提高.   相似文献   

16.
为能在搜索引擎返回的结果集上构建贴近用户意图的主题层,并在文档词与主题间建立映射,将社会化标注引入经典的LDA模型,构建一种基于主题-标签-文档词之间关系的三层主题模型,并将其用于伪相关反馈查询扩展词的选取.实验结果表明,该模型提取的查询扩展词能描述标签的语义,模型用于伪相关反馈后,提取的扩展词能覆盖查询条件,在多数情况下结果列表的NDCG值高于基本伪相关反馈和结果集聚类方法.  相似文献   

17.
融合Sentence-BERT和LDA的评论文本主题识别(SBERT-LDA)方法,将LDA的主题数作为K-means算法中的k值,导致算法可解释性较差、主题一致性较低。为了解决上述问题,提出基于密度Canopy的SBERT-LDA优化方法(SBERT-LDA-DC),利用密度Canopy改进K-means算法。实验结果表明,提出的方法在一致性指标上要优于使用K-means以及K-means++对特征向量聚类的同类方法;与SBERT-LDA方法相比,在1 852条戏剧评论数据集上,一致性指标值提高了22.9%。因此,所提出的SBERT-LDA-DC方法是有效的,对产品或服务提供者更好地了解用户意见、完善自身产品或提升服务水平提供了新方法,具有较强的实际应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号