首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为降低防火墙文本分类计算的误码率,研究基于贝页斯模型的防火墙测试系统的运行效率,提出将贝页斯模型视为线性模型的观点,分析测试样本空间变化对模型不同集合规则权重的影响,建立了有误差补偿功能的MNB分类器数学模型,实验仿真验证了贝页斯多项式数学模型的可行性,确定了MNB分类器内贝页斯多项式数学模型特征变量与目标文本内部个性词汇的对应关系.   相似文献   

2.
为降低垃圾邮件系统分类计算的误码率,分析了贝页斯垃圾邮件过滤系统对目标邮件的自动检测过程,从系统过滤质量和用户容错两个方面研究系统成本定义.在不同样本集合及其属性空间内,对于词语还原和间断表的开启与关闭,重点分析成本参数λ,通过调整成本参数分析贝页斯过滤系统在多种假定下邮件处理结果,完善系统建模定义标准,优化应用系统建模,提高系统过滤质量.实验结果证明该解决方案是可行的.   相似文献   

3.
针对不良文本的过滤问题,提出一种基于主题分类的文本过滤方法,通过对文本信息进行向量化,引人文本特征抽取技术,筛选出针对文本内容的最优的特征项集合,利用SVM分类技术,来判断文本的态度和立场,达到内容审查过滤的目的.并利用DSP在硬件上加以实现,实验表明该方法同传统的过滤方法相比具有较高的准确率和召回率,且过滤时间大幅减少.  相似文献   

4.
在基于LDA的短文本分类基础上进行改进,提出信息增益结合LDA的短文本分类方法.该方法采用信息增益计算词汇对于文本分类的贡献度,提高"作用词"的权重,过滤掉"非作用词",最后对过滤后的短文本进行LDA主题建模,并采用中心向量法建立文本类别模型.实验证明,该方法随着作用词比例的减少,分类性能有较大的提高.  相似文献   

5.
在基于LDA的短文本分类基础上进行改进,提出信息增益结合LDA的短文本分类方法.该方法采用信息增益计算词汇对于文本分类的贡献度,提高"作用词"的权重,过滤掉"非作用词",最后对过滤后的短文本进行LDA主题建模,并采用中心向量法建立文本类别模型.实验证明,该方法随着作用词比例的减少,分类性能有较大的提高.  相似文献   

6.
文本分类被广泛地应用到搜索引擎、自动文摘、文本过滤、词义消歧、文档组织和网页层次分类等多个领域。文中介绍了经典的文本分类算法和新出现的文本分类模型,最后对今后的发展进行了展望。  相似文献   

7.
针对短文本的文本特点,提出一种基于词模型索引的短文本在线过滤方法.采用词模型索引存储已知类别的短文本.在线训练时,把新增加的语料增量更新到索引结构中;在线分类时,通过短文本中的词汇查询索引结构,检索出那些和当前短文本最相关的标注语料,用它们快速训练出的分类模型预测当前短文本.在真实手机短信过滤上的实验结果,说明本方法能够增强训练集的内容内聚性,使模型更加精细;集成多个精细模型的分类结果能够提高过滤性能.  相似文献   

8.
基于文本内容分析的过滤技术研究   总被引:7,自引:1,他引:7  
提出一种基于特征词和局部语义分析的文本分类与过滤方法,在基于特征词统计特性分析的基础上,将特征词的知识属性和局部语法匹配引入信息过滤模型,实验结果表明,这种方法对于某些领域的文本信息可以有效地进行识别和过滤.  相似文献   

9.
文本分类是垃圾短信过滤的核心技术,为了在文本分类时实现特征提取,就需要在不影响分类准确性的前提下,减少原始空间的维数.文档频率、信息增益、互信息、统计、期望交叉熵法、文本证据权和主成分分析是目前采用的主要的特征降维方法,通过实验数据对六种方法的性能做比较分析后发现,对于垃圾短信过滤系统而言,信息增益是最优的特征选择方法.  相似文献   

10.
基于多类特征池化的文本分类算法   总被引:2,自引:0,他引:2  
文本分类是文本挖掘的一个内容,在信息检索、邮件过滤、网页分类等领域有着广泛的应用价值。目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法。在该算法中,本文首先对分词后的文本采用skip-gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息。通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明本文所给出的多种特征池化方法能够提高文本分类的准确率,说明了本文算法的有效性。  相似文献   

11.
文本自动分类的一项关键技术是特征选择。本文针对信息过滤的特点,对特征选择方法进行了改进,提出了一种基于语义神经网络的文本特征选择方法。首先对原始特征集进行初始筛选,去除冗余特征及噪声后,对得到的特征子集采用语义神经网络进行智能的特征选择,其核心是关联度及激活变量的计算。从而得出代表问题空间的最优特征子集,实现降维并提高分类精度。实验证明,该方法可以极大地降低文本的维数,提高文本过滤的质量。  相似文献   

12.
一种基于主动贝叶斯分类技术的垃圾邮件过滤方法   总被引:1,自引:0,他引:1  
目前,将机器学习、文本分类与信息过滤技术相结合的过滤方法成为研究热点.对实际邮件过滤时往往会遇到训练样本中包含大量未带类别标注的邮件,应用传统分类方法存在耗时且过滤性能差等问题,文章提出采用主动贝叶斯分类方法RANB对训练样本进行预处理,以标识其多类别;实验表明,这种方法可有效地提高训练样本质量,提高过滤器性能,在各项评价指标上具备优越性.  相似文献   

13.
学术报告能够促进日常学术交流,推动科学技术不断普及和进步,但是目前科技工作者想要找到自己感兴趣的学术报告十分费时费力。文章设计了一个能够给科技工作者精准推送学术报告信息的系统,在文本分类的基础上对典型的分类器分类结果通过训练的概率阈值参数进行过滤;并提出了一种组合文本分类策略的方法,提高对学术报告文本的分类适应能力;实验结果表明该方法能够有效地提高学术报告的分类效果,实现学术报告按照分类的精准推送。  相似文献   

14.
针对垃圾短信过滤问题,提出了一种亚文档集成学习方法.该方法采用亚文档集成学习框架将短文本在线二值分类问题转化成若干个子分类问题,并通过线性组合多个子问题的分类结果得出最终的分类预测.利用基于串频索引的文本分类算法实现了一种有效的弱分类器.实验数据表明亚文档集成学习框架能够提高现有文本分类算法的效能,而在亚文档集成学习框架下,基于串频索引的弱分类器过滤效果最佳.  相似文献   

15.
文本特征选择是自然语言处理中的关键问题。针对文本特征的高维性和稀疏性问题,在过滤式特征选择算法文档-逆文档评率(term frequency-inverse document frequency, TF-IDF)的基础上,提出了用遗传算法对文本特征进行优化选择,使其最大程度地贴合后续的文本分类算法,在保证文本分类精确度的同时,降低特征维度以缩减预测时间。实验显示,该算法与单一的过滤式文本特征选择算法相比,能够有效减少所选文本特征数量(即降低特征维度),能有效提高文本的分类能力。  相似文献   

16.
垃圾邮件过滤技术主要有三个大类,它们分别运用不同的方法和途径来判定垃圾邮件:基于IP地址;基于规则;基于邮件内容.基于内容的垃圾邮件过滤是一种常用的反垃圾邮件技术,它以邮件在内容方面的特点来鉴别邮件,在技术上利用文本分类的方法来实现.文章设计了基于内容的,采用贝叶斯方法进行文本分类的垃圾邮件处理系统.  相似文献   

17.
本文主要介绍几种文本分类算法以及它们的优缺点,然后通过实验数据证明集成算法在垃圾短信过滤中的优势。  相似文献   

18.
针对当前文本分类算法未能充分利用标签的语义表示导致文本表示学习与分类预测割裂的问题,提出一种融合文本内容编码和标签引导文本编码的文本分类方法.在文本内容编码部分,通过长短时记忆网络获得文本序列累计语义表示,通过自注意力机制捕获和强化文本长距离语义依赖.在标签引导文本编码部分,设计交互注意力机制,通过标签引导得到经由标签的语义表示过滤下文本的新表示.最后将两部分输出融合,得到同时具有本地内容语义信息和全局任务指导信息的文本表示,使得模型在文本表示阶段即对分类任务具有早期感知力.实验结果表明本研究方法在真实数据集上可有效提升文本分类任务性能.  相似文献   

19.
针对KNN文本分类算法在高维数据集上分类计算开销大、效率低的缺点,采用一种基于矩阵奇异值分解的文本特征向量降维方法实现向量降维的同时保留更多的分类信息.同时,采用信息增益的方式对原始文本特征词进行了初步筛选,过滤掉对分类系统几乎没有贡献的特征词,以克服文本特征维数增长所带来的奇异值分解计算开销过大的缺点.实验表明此方法能在保持分类精度的同时极大地降低分类计算开销.  相似文献   

20.
Naive Bayes算法在垃圾邮件过滤系统中的应用与改进   总被引:1,自引:0,他引:1  
垃圾邮件是Internet上普遍面临的问题,Naive Bayes算法由于其简单高效性在文本分类中应用较广。文章重点阐述了Naive Bayes算法在基于内容的垃圾邮件过滤中的应用及改进,并进行了实验,获得了良好的分类效果,实验论证了它在垃圾邮件过滤中的可行性和有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号