首页 | 本学科首页   官方微博 | 高级检索  
     检索      

二次剪枝算法在评论特征提取中的应用
摘    要:针对序列模式挖掘(GSP)算法在中文产品评论特征提取中准确率不够高的问题,提出了一种二次剪枝算法,即利用GSP算法产生候选特征集,然后采用词对共现度作为阈值对其进行进一步筛选,从而达到提高准确率的目的.利用定制化的爬虫工具从京东网站上抓取摄像头产品的中文评论,选取其中1 000条作为试验数据,采用分词工具ICTCLAS对评论进行分词和数据预处理,并将所提算法与GSP算法、交叉语言模型(CLM)和似然比检验(LRT)进行对比试验.结果表明,利用所提算法获得的中文产品评论特征提取准确率达到76.37%,较GSP算法、CLM和LRT的准确率分别提高2.94%,5.77%和7.57%.

本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号