基于密度Canopy的评论文本主题识别方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于密度Canopy的评论文本主题识别方法

作者姓名：	刘滨詹世源刘宇雷晓雨杨雨宽陈伯轩

作者单位：	河北科技大学经济管理学院;河北科技大学大数据与社会计算研究中心;河北政法职业学院图书馆;电子科技大学格拉斯哥学院;南京警察学院信息技术学院

摘要：	融合Sentence-BERT和LDA的评论文本主题识别（SBERT-LDA）方法,将LDA的主题数作为K-means算法中的k值,导致算法可解释性较差、主题一致性较低。为了解决上述问题,提出基于密度Canopy的SBERT-LDA优化方法（SBERT-LDA-DC）,利用密度Canopy改进K-means算法。实验结果表明,提出的方法在一致性指标上要优于使用K-means以及K-means++对特征向量聚类的同类方法;与SBERT-LDA方法相比,在1 852条戏剧评论数据集上,一致性指标值提高了22.9%。因此,所提出的SBERT-LDA-DC方法是有效的,对产品或服务提供者更好地了解用户意见、完善自身产品或提升服务水平提供了新方法,具有较强的实际应用价值。
关键词：	自然语言处理主题识别评论文本 Sentence-BERT LDA
收稿时间：	2023-09-04
修稿时间：	2023-10-08

	点击此处可从《河北科技大学学报》浏览原始摘要信息
	点击此处可从《河北科技大学学报》下载免费的PDF全文