基于最小风险贝叶斯的垃圾博客识别算法研究 |
| |
作者姓名: | 何苑 郝梦岩 谭红叶 |
| |
作者单位: | 长治学院计算机系;山西大学计算机与信息技术学院; |
| |
基金项目: | 国家自然科学基金(61100138);山西省自然科学基金(2011011016-2);山西省自然科学基金(2011011014-2);山西省高校科技开发项目(20121117);山西省科技基础条件平台建设项目(2012091003-0105) |
| |
摘 要: | 针对当前垃圾博客识别研究中,正常博客误识别为垃圾博客损失高的问题,提出了一种基于最小风险贝叶斯的垃圾博客识别算法。该算法提取多结构特征,在朴素贝叶斯分类方法中引入风险因子,通过最小化风险进行垃圾博客和正常博客的分类。实验结果表明:该算法能在对召回率影响很小的情况下,进一步降低误判率,提高识别准确率。与朴素贝叶斯方法相比,准确率提高近5个百分点,与支持向量机方法性能接近。
|
关 键 词: | 中文信息处理 垃圾博客 贝叶斯 最小风险 多结构特征 |
本文献已被 CNKI 等数据库收录! |
|