首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对中文网页文本分类中特征降维方法和传统信息增益方法的缺陷和不足做出优化改进,旨在有效提高文本分类效率和精度.首先,采取词性过滤和同义词归并处理对特征项进行初次特征降维,然后提出改进的信息增益方法对特征项进行特征加权运算,最后采用支持向量机(SVM)分类算法对中文网页进行文本分类.理论分析和实验结果都表明本方法比传统方法具有更好的性能和分类效果.  相似文献   

2.
在信息资讯发达的今天,短信已成为日常生活中每天都要接触的东西,但同时垃圾短信也常常困扰着人们,为此,进行垃圾短信过滤成为了一个必要的问题.与普通的分类问题不同,垃圾短信的表现形式为文本数据,且不同的垃圾短信的文本特征各不相同,提高了分类识别的难度.其次,垃圾短信总体来说在所有短信中的占比并不高,因此,常常伴随着类别不平衡,由此样本不平衡带来的信息不充分也提高了识别的难度.针对这些问题,文章首先采取TF-IDF方法进行特征提取,把文本数据转化成向量的形式,然后在经过转换的数据应用欠采样技术获得若干个类别平衡的训练样本,每个样本分别采取朴素贝叶斯、决策树和支持向量机等分类模型进行训练,得到相应基分类器,最后再利用集成学习的思想把基分类器进行模型融合,得到一个分类性能较高的垃圾短信识别模型.  相似文献   

3.
针对KNN文本分类算法在高维数据集上分类计算开销大、效率低的缺点,采用一种基于矩阵奇异值分解的文本特征向量降维方法实现向量降维的同时保留更多的分类信息.同时,采用信息增益的方式对原始文本特征词进行了初步筛选,过滤掉对分类系统几乎没有贡献的特征词,以克服文本特征维数增长所带来的奇异值分解计算开销过大的缺点.实验表明此方法能在保持分类精度的同时极大地降低分类计算开销.  相似文献   

4.
垃圾短信已日益成为影响人们日常生活的严重问题,由于短信属于短文本,长度较短,特征稀疏,尤其是垃圾短信为逃避过滤机制,其结构和内容常常不规范,所以传统的文本特征提取方法并不能完全适用于短信分类。从短信的结构及语义两个角度提取特征项,并建立语义特征词表,采用基于多特征融合的方法来向量化表示短信文本。针对短信数据集中存在的噪声及数据不平衡问题,分别比较了NB、SVM、DT、LR、MLP、RF分类器的性能差别。实验表明,采用RF分类算法,能有效减弱噪声干扰及数据不平衡性所带来的影响。通过在CCF 2015中国好创意竞赛题目“垃圾短信基于文本内容识别”所提供的数据集上进行验证,取得了很好的效果。  相似文献   

5.
针对垃圾短信分类问题,提出了一种通过挖掘垃圾短信关联规则来构造垃圾短信分类器,从而实现垃圾短信过滤的模型.该方法采用改进的FP-grow算法挖掘垃圾短信关联规则集,以关联规则集为基础构建垃圾短信分类器模型,在分类过程中考虑垃圾短信特征词权重和垃圾短信的变异行为进行分类.实验结果表明,该方法的分类精确率和非垃圾短信错分率优于其他常用垃圾短信分类方法.  相似文献   

6.
在基于LDA的短文本分类基础上进行改进,提出信息增益结合LDA的短文本分类方法.该方法采用信息增益计算词汇对于文本分类的贡献度,提高"作用词"的权重,过滤掉"非作用词",最后对过滤后的短文本进行LDA主题建模,并采用中心向量法建立文本类别模型.实验证明,该方法随着作用词比例的减少,分类性能有较大的提高.  相似文献   

7.
在基于LDA的短文本分类基础上进行改进,提出信息增益结合LDA的短文本分类方法.该方法采用信息增益计算词汇对于文本分类的贡献度,提高"作用词"的权重,过滤掉"非作用词",最后对过滤后的短文本进行LDA主题建模,并采用中心向量法建立文本类别模型.实验证明,该方法随着作用词比例的减少,分类性能有较大的提高.  相似文献   

8.
本文主要介绍几种文本分类算法以及它们的优缺点,然后通过实验数据证明集成算法在垃圾短信过滤中的优势。  相似文献   

9.
在手机短信的使用中,垃圾短信的数量、特征及内容均在不断地变化.传统的基于固定模式的检测方法,比如:黑白名单和基于内容检测的方法都会出现因信息更新不及时而导致的性能降低的情况.因此提出一种基于改进的朴素贝叶斯的方法以提高垃圾短信分类的性能.首先利用频繁出现的单词创建数据特征,然后找出垃圾短信和非垃圾短信的差异特征词来构建分类关键词,最后应用改进的朴素贝叶斯算法进行分类.实验结果表明,新算法可以有效地提高分类精度.  相似文献   

10.
采用信息增益进行特征选择,以改进的朴素贝叶斯分类算法进行邮件分类.利用文本特征估算文本属于两种类型的偏测度,以此构造二维文本空间.将文本映射为二维空间中的一个点,将分类算法看作是在二维空间中寻求一条分割直线,根据文本点到分割直线的距离来判断该邮件为何类邮件.  相似文献   

11.
基于Na(i)ve Bayes模型的垃圾邮件过滤方法   总被引:2,自引:1,他引:1  
采用信息增益进行特征选择,以改进的朴素贝叶斯分类算法进行邮件分类.利用文本特征估算文本属于两种类型的偏测度,以此构造二维文本空间.将文本映射为二维空间中的一个点,将分类算法看作是在二维空间中寻求一条分割直线,根据文本点到分割直线的距离来判断该邮件为何类邮件.  相似文献   

12.
针对垃圾短信过滤问题,提出了一种亚文档集成学习方法.该方法采用亚文档集成学习框架将短文本在线二值分类问题转化成若干个子分类问题,并通过线性组合多个子问题的分类结果得出最终的分类预测.利用基于串频索引的文本分类算法实现了一种有效的弱分类器.实验数据表明亚文档集成学习框架能够提高现有文本分类算法的效能,而在亚文档集成学习框架下,基于串频索引的弱分类器过滤效果最佳.  相似文献   

13.
文本自动分类的一项关键技术是特征选择。本文针对信息过滤的特点,对特征选择方法进行了改进,提出了一种基于语义神经网络的文本特征选择方法。首先对原始特征集进行初始筛选,去除冗余特征及噪声后,对得到的特征子集采用语义神经网络进行智能的特征选择,其核心是关联度及激活变量的计算。从而得出代表问题空间的最优特征子集,实现降维并提高分类精度。实验证明,该方法可以极大地降低文本的维数,提高文本过滤的质量。  相似文献   

14.
目前,手机短信成为了人们所喜爱的一种通信方式,同时也成为了商业广告或诈骗信息的载体,对人们的生活,甚至对社会的安定造成了严重的威胁。因此本文采用贝叶斯文本分类算法对垃圾短信进行了分类,进而实现其过滤,并结合黑白名单技术模拟实现了一垃圾短信过滤系统。通过测试,该系统不仅能较为准确的实现对垃圾短信的过滤,还能减少对合法短信的误判率。  相似文献   

15.
随着商业广告短信、色情短信、骚扰短信等通过手机不断地蔓延,严重地影响了人们日常生活和社会的稳定.因此短信分类已经成为自然语言处理的一个重要领域.分析了近年来垃圾短信内容的发展,提出了一种基于字特征的短信分类方法.实验结果表明,和词特征相比,该方法使有用短信的错判率有了明显的降低.总之,字特征用于短信分类是可行的.  相似文献   

16.
针对垃圾信息过滤的问题,提出了一种基于支持向量机(SVM)算法的垃圾信息过滤方法. 利用文本分类和信息检索领域所常用的性能评价指标,建立了垃圾信息过滤的评价体系,针对仿真实验获得的实验数据,利用所建立的垃圾信息过滤评价体系对实验数据评价结果,选取了适合的核函数及其参数,构建了SVM分类器,同时也通过仿真实验和评价体系对SVM分类器和传统贝叶斯分类器进行了测试和评估. 结果表明,基于SVM算法的分类器提高了信息过滤的准确性,同时也验证了SVM算法在垃圾信息过滤中的有效性.   相似文献   

17.
针对不良文本的过滤问题,提出一种基于主题分类的文本过滤方法,通过对文本信息进行向量化,引人文本特征抽取技术,筛选出针对文本内容的最优的特征项集合,利用SVM分类技术,来判断文本的态度和立场,达到内容审查过滤的目的.并利用DSP在硬件上加以实现,实验表明该方法同传统的过滤方法相比具有较高的准确率和召回率,且过滤时间大幅减少.  相似文献   

18.
文本信息中存在的模糊性和不确定性在很大程度上影响文本情感观点的准确判定.为了提高文本情感分类准确率,提出基于混合特征云模型和支持向量机的多级文本情感分类算法.首先,将文本的TF-IDF权重特征和词性特征相结合,采用信息增益法选取特征的同时对特征降维;然后,在文档混合特征向量集上生成云向量模型,依据模型间的相似度筛选出相似度较大的R个文档,作为支持向量机的输入.实验结果表明,该算法具有良好的分类准确率,且系统的训练速度有显著的提高.  相似文献   

19.
垃圾短信给人们的生活带来了越来越多的扰乱与不安,改革了传统的朴素贝叶斯分类模型,对垃圾短信进行识别过滤,实验表明该方法提高了准确率,具有较好的分类效果。  相似文献   

20.
垃圾邮件过滤中特征选择方法研究   总被引:2,自引:0,他引:2  
文章对垃圾邮件过滤中的特征选择问题进行了研究,引入"词共现模型"考虑词语之间的语义联系信息,和传统的信息增益特征选择方法结合表示邮件,采用神经网络方法对邮件进行分类得到垃圾邮件过滤器.实验表明,文章提出的将词共现对和信息增益结合的特征选择方法能够提高垃圾邮件过滤的精确度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号