首页 | 本学科首页   官方微博 | 高级检索  
     

基于密度Canopy的评论文本主题识别方法
作者姓名:刘滨  詹世源  刘宇  雷晓雨  杨雨宽  陈伯轩
作者单位:河北科技大学经济管理学院;河北科技大学大数据与社会计算研究中心;河北政法职业学院图书馆;电子科技大学格拉斯哥学院;南京警察学院信息技术学院
摘    要:融合Sentence-BERT和LDA的评论文本主题识别(SBERT-LDA)方法,将LDA的主题数作为K-means算法中的k值,导致算法可解释性较差、主题一致性较低。为了解决上述问题,提出基于密度Canopy的SBERT-LDA优化方法(SBERT-LDA-DC),利用密度Canopy改进K-means算法。实验结果表明,提出的方法在一致性指标上要优于使用K-means以及K-means++对特征向量聚类的同类方法;与SBERT-LDA方法相比,在1 852条戏剧评论数据集上,一致性指标值提高了22.9%。因此,所提出的SBERT-LDA-DC方法是有效的,对产品或服务提供者更好地了解用户意见、完善自身产品或提升服务水平提供了新方法,具有较强的实际应用价值。

关 键 词:自然语言处理  主题识别  评论文本  Sentence-BERT  LDA
收稿时间:2023-09-04
修稿时间:2023-10-08
点击此处可从《河北科技大学学报》浏览原始摘要信息
点击此处可从《河北科技大学学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号