首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于最小风险贝叶斯的垃圾博客识别算法研究
引用本文:何苑,郝梦岩,谭红叶.基于最小风险贝叶斯的垃圾博客识别算法研究[J].山西大学学报(自然科学版),2014(1).
作者姓名:何苑  郝梦岩  谭红叶
作者单位:长治学院计算机系;山西大学计算机与信息技术学院;
基金项目:国家自然科学基金(61100138);山西省自然科学基金(2011011016-2);山西省自然科学基金(2011011014-2);山西省高校科技开发项目(20121117);山西省科技基础条件平台建设项目(2012091003-0105)
摘    要:针对当前垃圾博客识别研究中,正常博客误识别为垃圾博客损失高的问题,提出了一种基于最小风险贝叶斯的垃圾博客识别算法。该算法提取多结构特征,在朴素贝叶斯分类方法中引入风险因子,通过最小化风险进行垃圾博客和正常博客的分类。实验结果表明:该算法能在对召回率影响很小的情况下,进一步降低误判率,提高识别准确率。与朴素贝叶斯方法相比,准确率提高近5个百分点,与支持向量机方法性能接近。

关 键 词:中文信息处理  垃圾博客  贝叶斯  最小风险  多结构特征
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号