首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
文本信息中存在的模糊性和不确定性在很大程度上影响文本情感观点的准确判定.为了提高文本情感分类准确率,提出基于混合特征云模型和支持向量机的多级文本情感分类算法.首先,将文本的TF-IDF权重特征和词性特征相结合,采用信息增益法选取特征的同时对特征降维;然后,在文档混合特征向量集上生成云向量模型,依据模型间的相似度筛选出相似度较大的R个文档,作为支持向量机的输入.实验结果表明,该算法具有良好的分类准确率,且系统的训练速度有显著的提高.  相似文献   

2.
针对传统线性支持向量机在训练数据集时均等对待每一维输入特征,以及在原始空间直接分类造成预测准确率低的问题,提出低阶多项式数据映射和特征加权相结合的方法,来提高线性支持向量机的分类性能。该方法首先将每个样本映射到多项式核对应的2 阶显式特征空间,从而增加样本的隐性信息,然后使用模糊熵特征加权算法计算每一维特征的权重,通过权重衡量特征对分类结果的贡献大小。从不同数据库选取7个数据集进行测试,在训练时间和预测准确率2个方面将该方法与核支持向量机、线性支持向量机的其他改进算法进行比较。结果显示,随着数据集规模的扩大,训练时间降低一个数量级,预测准确率在一些数据集上取得与核支持向量机相接近的效果。结果表明:所提方法可以有效提高线性支持向量机的整体性能。  相似文献   

3.
针对自训练半监督支持向量机算法中的低效问题,采用加权球结构支持向量机代替传统支持向量机,提出自训练半监督加权球结构支持向量机。传统支持向量机需要求解二次凸规划问题,在处理大规模数据时会消耗大量存储空间和计算时间,特别是在多分类问题上更加困难。利用球结构支持向量机进行多类别分类,大大缩短了训练时间,降低了算法复杂度。球结构支持向量机在不同类别样本数目不均衡时训练分类错误倾向于样本数目较小的类别,通过权值的引入,降低了球结构支持向量机对样本不均衡的敏感性,补偿了类别差异对算法推广性能造成的不利影响。在人工数据集和UCI(university of california irvine)数据集上的实验结果表明,该方法对有标记样本的鲁棒性较好,不仅能够提高效率,且分类精度也有显著提高。  相似文献   

4.
基于加权近似支持向量机的文本分类   总被引:9,自引:0,他引:9  
随着因特网的迅速增长,能够分类大规模文档的高效文本分类算法变得非常重要.该文提出一种基于加权近似支持向量机模型的文本分类算法,加权近似支持向量机对近似支持向量机作了改进,通过为每个训练误差增加一个权值和使用在原空间直接求解的算法,克服了近似支持向量机模型不适合不平衡数据分类和高维数据分类的缺点.试验结果表明,与标准支持向量机算法相比,该算法的分类质量与训练速度都有提高,是一种适合文本分类的高效算法.  相似文献   

5.
自适应迭代算法支持向量集的特性研究   总被引:1,自引:0,他引:1  
针对在支持向量机研究中,传统的优化方法无法处理规模不断扩大的分类问题,为设计适应大样本分类的训练算法,提出了基于块的自适应迭代算法。在该算法的训练过程中,块增量学习和逆学习交替进行,能够自动得到一个小的支持向量集。将该算法与SVML ight在支持向量数量方面进行了比较,计算了UC I(Un i-versity of Californ ia-Irvine)中的6个数据集和著名的Checkboard问题。结果表明:该自适应迭代算法确定的支持向量数一般不到SVML ight所得到的支持向量数的一半,其中70%多的支持向量被SVML ight所确定的支持向量集所包含,在支持向量选择方面具有高效性。  相似文献   

6.
分析了增量学习过程中支持向量和非支持向量的转化情况。在此基础上提出一种误分点回溯SVM增量算法,该算法先找出新增样本中被误分的样本,然后在原样本集寻找距误分点最近的样本作为训练集的一部分,重新构建分类器,这样能有效保留样本的分类信息。实验结果表明:该算法比传统的支持向量机增量算法有更高的分类精度。  相似文献   

7.
针对模糊支持向量机(FSVM)应用于数据挖掘分类中存在对大样本集训练速度及分类速度慢的缺点,提出一种改进的数据挖掘模糊支持向量机分类算法.该算法首先预选有效的候选支持向量缩减训练样本集的规模提高训练速度;其次提出一种新的模糊隶属度函数,增强支持向量对构建模糊支持向量机最优分类超平面的作用,并用经过预选的训练样本集进行训练FSVM得到支持向量集;最后,运用粒子群优化算法选择最优支持向量子集,使用平均分类误差作为适应度函数,最终粒子输出时,将样本隶属度与设定阈值相比较,选择出支持向量集中相对较大隶属度的样本作为新的支持向量,提高分类速度.实验结果表明,该算法在不损失分类精度的情况下,提高了模糊支持向量机的训练速度和分类速度.  相似文献   

8.
基于离散核支持向量机的文本自动分类   总被引:1,自引:0,他引:1  
传统基于向量空间模型的文本分类方法需要对文档进行预处理,同时也会损失很多有用的信息.该文提出一种基于离散核支持向量机的文本分类方法,直接根据文档的字符序列构造离散核,用于支持向量机分类算法,比较文档之间的相似性,从而改善文本分类的效果.证明了离散核支持向量机方法的时间复杂度与文本的长度成O(n)关系.在Reuters-21578文档集上将离散核方法与多项式核、高斯核方法进行比较,实验结果表明该文所提方法在简化分类方法的同时也可以提高分类的精度.  相似文献   

9.
一种新的支持向量机增量学习算法   总被引:22,自引:0,他引:22  
提出一种新的支持向量机增量学习算法。分析了新样本加入训练集后,支持向量集的变化情况。基于分析结论提出新的学习算法。算法舍弃对最终结论无用的样本,使得学习对象的知识到了积累。实验结果表明本算法在保证分类准确度的同时,在增量学习问题上比传统的支持向量机有效。  相似文献   

10.
针对基于GPU和MPI并行的支持向量机(SVM)算法不适合于云计算环境,设计了一种基于多级SVM的并行支持向量机模型,实现了云计算环境下的序列最小优化(SMO)的并行算法。该算法通过MapReduce系统将大规模训练数据集划分为若干小训练集,再由这些小训练集开发多级的SVM,最后收集每一个SVM最优超平面附近的样本数据来训练另一个新的SVM。实验结果表明,该算法在时间消耗与分类正确率等综合方面比单机算法和传统并行算法获得更好的效果。  相似文献   

11.
不同于Surface W eb的信息获取方式,Deep W eb中大量的数据隐藏在数据库中,无法直接通过静态的URL链接来获得,只能在查询接口中输入关键词来获得站点中的网页.主要对Deep W eb中查询数据库时提交的查询操作进行了研究,发展了一种机器学习方法去自动获取Deep W eb的查询语言,并根据迭代算法寻找到合适的网页.  相似文献   

12.
Deep web中用户需通过查询接口才能得到其中的数据,查询接口一般形成属性间m:n复杂模式匹配。为统一相同领域的查询接口,本文提出了一个基于关联规则的匹配方法,从整体上双重匹配成组属性和同义属性。  相似文献   

13.
不同于Surface Web的信息获取方式,Deep Web中用户需通过查询接口才能得到其中的数据.查询接口一般形成属性间复杂的m∶n匹配.为统一相同领域的查询接口,提出了一种基于关联规则的匹配方法,从整体上双重匹配成组属性和同义属性,很好地实现了同一领域中查询接口的整合问题.特别对于大量的数据源时,无论是准确率还是效率都比传统的方法有很大的提高.  相似文献   

14.
数据标注是Deep Web数据集成系统的重要组成部分.建立了领域标注模型,描述数据标注的思想,根据不同的数据,使用领域知识和决策树两种标注方法,给出标注算法描述,最后以图书领域作为标注对象进行实验.实验结果表明该方法可高效、准确地对Deep Web数据进行标注.  相似文献   

15.
利用Apriori算法对Deep Web网站中最大频繁关联关系网页进行识别,并对非最大频繁项网页进行剪枝,再遍历Deep Web网站网页,从而获取所有最大频繁关联关系网页。对某房地产Deep Web网站的实验结果验证了该算法的可行性和有效性。  相似文献   

16.
郭少杰  陈雅冰 《广东科技》2010,19(14):63-65
Deep Web中蕴含了海量的可供访问的信息,并且还在迅速地增长。随着互联网应用的发展,网上的在线数据库大量涌现,Deep Web数据集成成为当前信息领域的一个研究热点。为了方便用户查询数据,对Deep Web技术的应用进行了研究,提出了Deep Web技术在科学数据共享平台中的架构,并阐述了具体的实现。  相似文献   

17.
Deep Web数据集成系统中的查询效率优化   总被引:1,自引:0,他引:1  
Deep Web能够提供大量高质量的信息,为了有效地利用这些信息,建立Deep Web数据集成系统是重要手段。Deep Web数据集成系统的查询效率是其应用的关键。本文采用建立本地索引数据库的方式以提高查询效率,在此基础上提出了其相应的更新策略,并给出了算法分析。  相似文献   

18.
为提高复杂信道环境下无线通信系统对调制信号的检测识别能力,以及针对当前调制识别方法存在的模型复杂、计算量大、输入数据特征不完备等问题。提出一种改进的深度学习算法模型,对真实无线环境下的9种常见调制信号进行识别研究。该算法通过对原始的同相正交(in-phase quadrature, IQ)数据进行幅度相位计算,以此增加模型输入数据的特征信息,采用改进的密集神经网络(dense neural network, DenseNet)对常见调制信号进行识别分类。实验结果表明:在相同的训练数据样本中,相比其他深度学习调制识别算法,改进算法性能最优。在信噪比为0时,DenseNet平均识别率达到84.6%。改进的IQ输入数据明显提高了无线信号的检测识别率,在信噪比为-10 dB和-5 dB时,调制信号的识别率提高了10%。  相似文献   

19.
彭媛媛  许建潮 《科技信息》2009,(33):85-85,104
随着近年来Internet的飞速发展,Deepweb已成为网络信息资源的重要组成部分,用户通过查询接口在线访问其后端的Web数据库来动态的获取其中蕴含的海量信息。由于DeepWeb资源分布在各个De印web站点,具有异构、动态、数据量大等特点,使用起来较为不便,因此,面向Deep Web的数据集成系统便应运而生。本文对Deepweb数据集成系统中的数据抽取技术进行了研究,提出了基于xml的Deepweb数据自动抽取方法,并作了详细的技术分析与研究,它能够快速有效地抽取出DeepWeb资源,具有抽取准确度高,抽取粒度细等特点。  相似文献   

20.
目的探讨下肢深静脉血栓形成与血浆同型半胱氨酸(HCY)水平的关系。方法对56例下肢深静脉血栓形成患者测定血浆HCY、叶酸、维生素B12等指标,并与62例健康对照者相比较。结果下肢深静脉血栓组的血浆HCY水平和凝血指标明显高于对照组,而叶酸及维生素B12水平则低于对照组(均P<0.01)_而且下肢深静脉血栓形成组中高血浆HCY水平患者的比例较对照组有显著的提高(P<0.01)。结论高同型半胱氨酸血症可能是下肢深静脉血栓形成的致病因素之一,导致高同型半胱氨酸血症的原因可能是血浆内叶酸和维生素B12的降低。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号