首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
Web文本分类是Web数据挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,本文提出一种综合粗糙集与支持向量机的Web文本分类模型,利用粗糙集的属性约简方法,减少支持向量机训练数据的维数,提高Web文本分类的性能与效率.  相似文献   

2.
针对新冠疫情新闻繁杂及信息类别不明等问题,采取新冠疫情新闻语料作为数据集,分别利用TF-IDF与Word2vec提取特征值,与支持向量机、朴素贝叶斯等基于机器学习的模型结合对文本进行分类,并与TextCNN及BiLSTM 2种深度学习模型的分类实验结果进行对比分析。实验结果表明:同等条件下,基于新冠疫情主题新闻数据集,SVM+TF-IDF模型在几种分类器中效果最好,精确度达到84%,F1值达到83%。  相似文献   

3.
以某型装备火控系统为例,将文本分类技术同基于支持向量机的故障诊断方法结合,通过建立故障特征词库、采用布尔模型形成故障向量库,运用SVM算法对该装备火控系统的故障进行了训练评估,并获得了较理想的试验结果,最大识别率达到了70%。通过这种方法进行装备故障诊断,对于装备维修特别是战场抢修有极其重要的意义,使维修人员从繁琐的仪器检查中解脱出来,通过已有的故障库快捷简便地确定故障检测点,实现装备的快速抢修,为抢夺战场主动权创造有利条件。  相似文献   

4.
韩毅  周晏 《科技信息》2009,(17):23-25
支持向量机是建立在统计学习理论的VC维理论和结构风险最小原理基础上发展起来的一种新的机器学习方法。它是在有限样本的基础上,在训练复杂度和学习能力之间寻求折中,以期望获得较好的推广能力。支持向量机具有理论完备、适应性强、全局优化、训练时间短、泛化性能好等优点,已经成为目前国际、国内研究的热点。国际上己经有一很多关于SVM的研究报道,SVM在很多方面都有成功应用实例,如粒子鉴定、脸谱识别、文本分类、生物信息、商用数据库。本文主要探讨在Web文本的分类。  相似文献   

5.
基于加权近似支持向量机的文本分类   总被引:9,自引:0,他引:9  
随着因特网的迅速增长,能够分类大规模文档的高效文本分类算法变得非常重要.该文提出一种基于加权近似支持向量机模型的文本分类算法,加权近似支持向量机对近似支持向量机作了改进,通过为每个训练误差增加一个权值和使用在原空间直接求解的算法,克服了近似支持向量机模型不适合不平衡数据分类和高维数据分类的缺点.试验结果表明,与标准支持向量机算法相比,该算法的分类质量与训练速度都有提高,是一种适合文本分类的高效算法.  相似文献   

6.
为了有效地利用信息技术发展而产生的海量信息,信息检索与数据挖掘得到了快速的发展,通过对传统支持向量机的特点分析,针对其在文本分类中的局限性,采用了一种基于二叉树的模糊支持向量机的多分类算法,通过实验证明该算法有更好的抗干扰能力和更好的分类效果。  相似文献   

7.
针对不良文本的过滤问题,提出一种基于主题分类的文本过滤方法,通过对文本信息进行向量化,引人文本特征抽取技术,筛选出针对文本内容的最优的特征项集合,利用SVM分类技术,来判断文本的态度和立场,达到内容审查过滤的目的.并利用DSP在硬件上加以实现,实验表明该方法同传统的过滤方法相比具有较高的准确率和召回率,且过滤时间大幅减少.  相似文献   

8.
基于属性约简的方法,放弃以往复杂的规则匹配算法,提出将约简后的多种属性组进行析取,筛选特征项,并构造分类器.实验结果表明,此算法不仅简单,还能降低维数和提高分类结果.  相似文献   

9.
基于文本数据挖掘的硕士论文分类技术   总被引:1,自引:0,他引:1  
针对硕士论文的摘要和关键词等数据进行数据挖掘,实现硕士论文自动分类。为此收集了2 000余个相关数据,在对所研究的数据对象特点进行分析的基础上,确定了分类算法,详细分析了支持向量机分类方法;对收集的研究数据进行了仿真实验,并与其他常用分类器进行比较。实验表明,基于支持向量机的分类方法比其他常用分类器具有较高的准确率。对实验结果中得到的知识进行了分析,得出一系列可供科学研究者和管理者参考的结论。  相似文献   

10.
基于离散核支持向量机的文本自动分类   总被引:1,自引:0,他引:1  
传统基于向量空间模型的文本分类方法需要对文档进行预处理,同时也会损失很多有用的信息.该文提出一种基于离散核支持向量机的文本分类方法,直接根据文档的字符序列构造离散核,用于支持向量机分类算法,比较文档之间的相似性,从而改善文本分类的效果.证明了离散核支持向量机方法的时间复杂度与文本的长度成O(n)关系.在Reuters-21578文档集上将离散核方法与多项式核、高斯核方法进行比较,实验结果表明该文所提方法在简化分类方法的同时也可以提高分类的精度.  相似文献   

11.
介绍了一种用支持向量机(SVM)进行主动学习的方法,解决在某些机器学习问题中,训练样本获取代价过大带来的问题.与普通的SVM方法相比,该方法所需的样本量大大降低,而且可能达到更好的推广能力,在蒙文文本分类中的应用说明了该算法的有效性.  相似文献   

12.
DNA 微阵列技术,使人们可以同时观测成千上万个基因的表达水平,对其数据的分析已成为生物信息学研究的焦点.针对微阵列基因表达数据维数高、样本小、非线性的特点,设计了一种基于粗糙集的支持向量机基因表达数据分类方法,该方法采用粗糙集进行基因特征约简,运用支持向量机进行数据分类,实验表明其分类效果良好.  相似文献   

13.
针对网络视频的监管需求,提出了一种基于音频词袋的暴力视频分类方法.采用提取视频中音频流的多媒体内容描述接口(MPEG 7)音频特征(包括音频频谱质心,音频频谱带宽等低层音频特征.)及MPEG 7高层特征——音频签名,来构造每段视频特有的音频词汇,采用该音频词汇出现的频率形成音频词袋特征.采用支持向量机对暴力和非暴力视频进行分类.把词袋模型应用到暴力音频特征分类中,对于不同音频词汇量采用了独特的词汇权重分配机制,同时借助特有的针对暴力视频的分类策略,以提高分类效果.通过3组实验,对不同的音频特征的准确率、不同词汇的分类效果、以及对视觉特征粗分类的精确分类进行了研究.实验结果表明,该方法有较好的查全率.  相似文献   

14.
Boosting算法在文本自动分类中的应用   总被引:7,自引:0,他引:7       下载免费PDF全文
随着网络信息的迅猛发展,如何快捷、准确地识别和获取有用信息显得更为重要。文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。Boosting算法是一种新兴的机器学习算法。在文本分类中应用Boosting算法经过试验证明是有效的,并且优于目前的大多数分类算法。  相似文献   

15.
基于支持向量机挖掘不一致事例隐含的异常信息   总被引:2,自引:0,他引:2  
基于支持向量机,提出一种挖掘粗集信息表中不一致事例背后隐藏某种有价值信息的算法,即不一致是由于错误引起,还是由于误差引起,抑或是由于缺少属性引起,并提出一些排除不一致的方案和算法.  相似文献   

16.
相似词分析是自然语言处理领域的研究热点之一,在文本分类、机器翻译和信息推荐等领域中具有重要的研究价值和应用意义。针对新浪微博短文本的特点,给出一种带词性的连续词袋模型(POS-CBOW)。该模型在连续词袋模型的基础上加入过滤层和词性标注层,对空间词向量进行优化和词性标注,通过空间词向量的余弦相似度和词性相似度来判别词向量的相似性,并利用统计分析模型筛选出最优相似词集合。实验表明,基于POS-CBOW语言模型的相似词分析算法优于传统CBOW语言模型。  相似文献   

17.
基于SVM的分类方法综述   总被引:2,自引:0,他引:2  
本文介绍了文本分类的起源,常用的几类文本分类方法及基于SVM(Support Vector Machines)文本分类的基本原理和方法。并在分析文本分类的特点的基础上比较了在文本分类中应用SVM的优势及存在的问题。最后总结出了SVM在文本分类中应用的两个主要研究方向。  相似文献   

18.
机器学习是人工智能领域中重要的研究课题,基于经典粗糙集的机器学习,只有学习者的分类被完全包含在导师的分类中时,才形成决策规则,条件比较苛刻;而基于可变精度粗糙集理论的有导师机器学习,根据学习者的分类包含在导师的分类中的包含度αi,与事先给定的精度系数β的比较,来求取具有一定相容性的决策规则,该方法更具有灵活和实用性。  相似文献   

19.
文本挖掘中中文歧义字段的自动分词是计算机科学面临的一个难题.针对汉语书写时按句连写,词间无间隙,歧义字段分词困难的特点,对典型歧义中所蕴含的语法现象进行了归纳总结,建立了供词性编码使用的词性代码库.以此为基础,通过对具有特殊语法规则的歧义字段中的字、词进行代码设定,转化为神经网络能够接受的输入向量表示形式,然后对样本进行训练,通过改进BP神经网络的自学习来掌握这些语法规则.训练结果表明:算法在歧义字段分词上达到了93.13%的训练精度和92.50%的测试精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号