首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
为解决情感分类中词间的语义关系难以表达和分析的问题,提出了一种基于词向量(word representation)和支持向量机(support vector machine)的情感分类算法,对电子商务在线评论的情感分类问题进行研究.首先使用word2vec聚类相似特征,然后使用word2vec和SVM对情感数据进行训练和分类,并分别使用基于词特征和基于词性标注的方法进行特征选择.在京东评论数据上进行的实验结果表明,与现有方法相比,分类准确率和召回率得到了提高.  相似文献   

2.
针对样本集中的类不平衡性和样本标注代价昂贵问题,提出基于不确定性采样的自训练代价敏感支持向量机.不确定性采样通过支持向量数据描述评价未标注样本的不确定性,对不确定性高的未标注样本进行标注,同时利用自训练方法训练代价敏感支持向量,代价敏感支持向量机利用代价参数和核参数对未标注样本进行预测.实验结果表明:该算法能有效地降低平均期望误分类代价,减少样本集中样本需要标注次数.  相似文献   

3.
针对传统支持向量机的情感识别中,随着识别情感的类别增加,支持向量机数目急剧增加,导致训练难度增大的同时占用内存空间过大,耗时过长的问题,提出了基于层次支持向量机的情感识别算法.该算法结合了二维情感模型理论,以层次支持向量机为基础,运用了小波分解等技术手段,构建了一套完整的脉搏信号情感识别方法.对于n类分类问题,传统的SVM(Support Vector Machine)分类需要n(n-1)/2个分类器,运用层次SVM分类只需要构造n-1个SVM分类器.实验结果表明,层次支持向量机模型在保证分类准确率的同时,减少了传统分类算法支持向量机的个数,分类速度提升了43.5%.  相似文献   

4.
商品的在线评论情感分析已经成为一个热门的研究话题。为了更好地解决情感分析中词语的上下文信息和词语的情感信息缺失问题,提出了一种基于句子情感得分加权句向量的Sword2vect情感分析方法,对中文在线评价进行情感分析。首先用基于词典的方法计算出评论句子的情感得分并对其进行预处理保证所有正向评论句子的情感得分为正,负向评论情感得分为负,用word2vect算法得到含有上下文信息评论的句子向量,然后用情感得分对句子向量进行加权得到情感句向量Sword2vect,用支持向量机算法对训练数据集进行训练得到模型,最后调用训练好的模型对测试数据集进行情感分析。采用基于情感得分加权的Sword2vect算法和word2vect词向量算法以及tf_idf特征词向量算法分别对京东手机在线评价以及谭松波酒店评价这2个数据集进行情感分析,从精确度、时间等方面进行比较。实验结果表明:基于情感得分加权的Sword2vect算法精确度较word2vect词向量算法精确度提升了10%~20%,相比于tf_idf特征词向量精度提升了20%~30%,Sword2vect算法的时间效率较其他2个算法也得到了较大的提升。  相似文献   

5.
特征提取是进行文本情感分析的关键步骤之一,是影响其结果好坏的主要因素。针对网络评论语句中表达形式多变的特点,结合语义相似度计算得到近义词TF-IDF(term frequency—inverse document frequency)权重向量;根据评论语句长短不一的特点,基于OPSM(order-preserving submatrix)双聚类算法挖掘出权重向量中的局部模式;使用改进的Prefix Span算法挖掘分类频繁短语特征,这类特征能有效利用词语的顺序信息,同时也通过词语间隔等限制来提升频繁短语区分情感倾向的能力。最后将该方法用于处理商品评论语料,并进行情感分析任务实验,结果表明所提取的文本特征效果有较大的提升。  相似文献   

6.
提出一种基于深度玻尔兹曼机与典型相关分析的自动图像标注算法(DBM-CCA)。该算法利用深度玻尔兹曼机实现图像与文本的低层次特征向稀疏高层次抽象概念的转变,并通过典型相关分析建立子空间映射关系以实现标注词汇的生成。首先在深度玻尔兹曼机提取图像与文本高层特征过程中,选用伯努利分布和高斯分布分别拟合标注词汇和图像特征,然后在图像与标注词汇高层特征形成的典型变量空间内计算待标注图像与训练集图像的马氏距离并据此加权计算得到高层标注词汇特征,最后由平均场估计生成图像标注词汇。实验结果表明,所提算法对图像的标注准确率改善较好,与经典的基于监督的多类标签方法和多重伯努利相关模型相比,在Corel5K实验中平均查准率和查全查准均率分别提高了10%和5%。  相似文献   

7.
通过提出一种多路融合卷积神经网络(multi-mixed convolutional neural network,MMCNN)对网购商品评论数据进行文本情感分类。采用skip-gram模型进行词向量的训练,并用训练好的向量表示评论数据。针对评论数据长短不一的情况,提出了循环词向量填充和随机词向量填充算法,有助于提升模型分类的准确率。针对传统卷积神经网络特征提取方式单一的问题,将多路卷积特征和池化特征在全连接层进行了特征融合,以此提升网络的文本分类效果。选择京东网站上45 000条婴儿奶粉的评论数据进行试验,并与支持向量机、最大熵模型、朴素贝叶斯等传统机器学习方法以及经典卷积神经网络方法进行对比。试验结果表明,提出的多路融合卷积神经网络具有较高的分类正确率。  相似文献   

8.
使用机器学习对汉语评论进行情感分类   总被引:2,自引:0,他引:2  
针对汉语评论的多种特征使用机器学习方法(如贝叶斯、 最大熵和支持向量机), 解决了汉语评论的情感分类问题. 实验结果表明, 机器学习方法对汉语评论的分类效果较好, 支持向量机的表现最好. 句子级别和评论级别的准确率分别达到88.26%和91.79%.  相似文献   

9.
针对基于支持向量机算法的网络入侵检测方法,对交错严重的大规模复杂样本集,分类面附近的样本被正确分类可信度低,基于k近邻算法的检测方法测试结果不稳定等问题,提出一种将k近邻与支持向量机相结合的网络入侵检测方法。在分类时,计算待识别的网络连接记录样本与最优分类超平面的距离,如果距离大于预设阀值,采用支持向量机算法对连接记录进行分类,否则采用k近邻法对连接记录进行分类,同时为减少检测方法受样本分布不均衡的影响,采用带权重因子的欧式距离来度量样本间的相似度。最后在KDD99数据集上进行仿真实验,结果表明,相对于单一的支持向量机或k近邻算法的网络入侵检测方法,k近邻与支持向量机相结合的入侵检测方法可以进一步提高网络入侵检测的正确率,是一种较好的网络入侵检测方法。  相似文献   

10.
针对传统网络流量分类方法准确率不高、开销较大且应用领域受限等诸多问题,文中提出一种基于主动学习支持向量机的网络流量分类方法。该方法采用基于OVA方法的多类支持向量机来进行分类,首先,针对支持向量机参数选择,提出了一种改进的网格搜索法来寻求最优参数;然后,为了降低需要标注的样本数,提出一个改进的启发式主动学习样本查询准则;最后,基于上述方法构造基于主动学习的多类支持向量机分类器。结果表明,该方法可以在需要标注的样本数非常少的情况下明显提高网络流量分类的准确率和效率,仅需传统方法所需11%的样本数即可达到98.7%的分类准确率。  相似文献   

11.
本文提出了基于一对一模糊支持向量机多分类方法的非线性夏季雨型预报模型.该模型在一对一支持向量机多分类算法的基础上引入模糊隶属度函数,其构造的分类超平面可以忽略噪声样本对分类结果的影响.实验结果表明,该模型较传统的支持向量机多分类方法和线性物理统计方法,具有更好的预报能力和更强的抗干扰能力,可以较好地弥补基于统计理论的相关分析和回归方法在处理非线性问题时具有较大的局限性  相似文献   

12.
设计一种基于AP聚类算法和SVM分类器相融合的新的混合分类器, 使用AP聚类算法优化数据集, 得到了高质量、 小样本的SVM分类器训练集. 实验结果表明: 与传统的SVM分类器相比, 混合分类器具有更高的分类精度; 在心脏病预测上, 该分类器的效果较好.  相似文献   

13.
语义相关度是问答系统等领域的关键技术之一,目前的相关度计算方法往往对语义因素考虑不全,造成计算结果的准确度不足。由受限玻尔兹曼机构造的深度置信网是一种深度学习模型,能模仿人类大脑抽象语义特征,由此提出了一种基于深度置信网络的语义相关度计算模型。首先,对组成模型的受限玻尔兹曼机进行介绍;然后,详细阐述了模型的构建及其训练和微调过程;最后,通过对比实验验证了提出的计算模型相对基准方法在评价指标上获得了更好的效果。  相似文献   

14.
基于粒子群优化算法提出了一种通过优化支持向量机模型参数,建立更佳的支持向量机数学模型的方法. 针对双螺旋分类问题,分别利用基于粒子群优化算法所建立的支持向量机分类器和标准支持向量机分类器进行了仿真实验,利用所建立的评价体系对仿真实验所获得的实验数据进行了评估,评估结果表明基于粒子群优化算法的支持向量机分类器明显优于标准支持向量机分类器,其分类结果表明基于粒子群优化算法的支持向量机分类器提高了分类结果的准确性,同时也验证了基于粒子群优化算法的支持向量机分类器在数据分类中的有效性.   相似文献   

15.
单实例多标签分类是指一个样本拥有多个标签的分类问题,对此提出了一种基于半模糊核聚类和模糊支持向量机的多标签分类算法.该算法采用一对一分解策略将多类多标签数据集分解为多个两类双标签数据子集,在每个子集上训练两类双标签模糊支持向量机.为提高分类器的性能引入了半模糊核聚类技术.实验结果表明,与现有的一些算法相比新算法具有其优...  相似文献   

16.
支持向量机是一种能在训练样本数很少的情况下达到很好分类推广能力的学习算法。支持向量机在选择支撑矢量时却进行了大量不必要的运算, 成为其应用的瓶颈问题.因此在基于支持向量的分类器学习算法中,预先选择支撑向量是非常重要的。投影中心距离算法是一种能够预选取支撑矢量的方法, 该方法可以有效地预选取出包含支持向量的边界集,在不影响支持向量机的分类能力情况下,大大地减少了训练样本,提高了支持向量机的训练速度。本文采用投影中心距离算法进行支撑矢量的预选取,通过对人工线性、非线性数据及MINST字符库的实验证明了该方法的有效性和可行性。  相似文献   

17.
支持向量机(SVM)的学习性能主要取决于参数选择.论文基于育种算法提出了混合算法的支持向量机参数优化模型,即将种子或者粒子所对应的适应度取作交叉验证方法中的测试样本集数据的识别率,构成基于混合算法的支持向量机,并通过数值试验验证了该方法的可行性。  相似文献   

18.
支持向量机是一种能在训练样本数很少的情况下达到很好分类推广能力的学习算法.支持向量机在选择支撑矢量时却进行了大量不必要的运算,成为其应用的瓶颈问题.因此在基于支持向量的分类器学习算法中,预先选择支撑向量是非常重要的.投影中心距离算法是一种能够预选取支撑矢量的方法,该方法可以有效地预选取出包含支持向量的边界集,在不影响支持向量机的分类能力情况下,大大地减少了训练样本,提高了支持向量机的训练速度.本文采用投影中心距离算法进行支撑矢量的预选取,通过对人工线性、非线性数据及MINST字符库的实验证明了该方法的有效性和可行性.  相似文献   

19.
为了提高基于油中溶解气体分析(dissolved gas analysis, DGA)的变压器故障诊断正确率,弥补单子空间特征提取的局限性,提出了基于双子空间特征提取的变压器故障分层诊断模型.首先,将DGA测试样本在一个子空间内进行特征提取后,为避免核函数及其参数的选择难题,以及利用多核支持向量机(multiple-kernel support vector machine, MKSVM)鲁棒性强和精度高的特点,采用MKSVM作为分类器对测试样本进行预测.依据预测结果将测试样本分为难分类和易分类样本,对易分类样本直接进行分类识别;对难分类样本则将该样本再次投影到另一子空间进行特征提取后,同样采用MKSVM作为分类器对难分类样本进行预测,综合两次预测结果进行分类识别,实现两分类MKSVM的双子空间特征提取算法.最后,根据故障特征,建立基于双子空间特征提取算法的变压器故障分层诊断模型.诊断实例表明,该模型具有较高的诊断正确率和推广能力.  相似文献   

20.
针对多标签分类问题,提出了一种面向样本不均衡及类属不确定性的多标签分类算法。首先,结合“一对一”分解策略和贝叶斯理论,将多标签数据集分解为单标签数据子集,并利用Parzen窗方法估计子集样本后验概率,对类标签进行了基于概率的不确定性表示。然后,在融合概率类标签和LS-SVM模型的基础上,利用样本差异信息来调节惩罚参数值,建立了考虑样本不均衡的概率LS-SVM子分类器模型。依据正态分布的3σ原理,设计了子分类器决策阈值确定方法。最后,结合实例对算法进行了性能分析,结果证明了新算法的合理性和有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号