首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 147 毫秒
1.
针对中文问句分类缺乏丰富的句法语义特征,提出一种基于词袋绑定的问句新特征自动生成方法.在词袋(BOW)、词性(POS)和词义(WS)等基本特征的基础上,通过将词性、词义等与词袋分别进行绑定,自动获取一类新的问句特征即词袋绑定特征.采用SVM分类器在哈工大中文问句集上实验,结果表明与原来单个的POS、WS等基本特征相比,对应的W/POS、W/WS等词袋绑定特征在分类精度上均获得了显著的提升;而且对这些词袋绑定特征进行启发式组合以后,在77个小类问题类别的总体分类精度达到82.333%,取得了较好的分类效果.说明在基本特征基础上借助词袋绑定操作进一步构造问句新特征的方法简单而有效.  相似文献   

2.
针对网络视频的监管需求,提出了一种基于音频词袋的暴力视频分类方法.采用提取视频中音频流的多媒体内容描述接口(MPEG 7)音频特征(包括音频频谱质心,音频频谱带宽等低层音频特征.)及MPEG 7高层特征——音频签名,来构造每段视频特有的音频词汇,采用该音频词汇出现的频率形成音频词袋特征.采用支持向量机对暴力和非暴力视频进行分类.把词袋模型应用到暴力音频特征分类中,对于不同音频词汇量采用了独特的词汇权重分配机制,同时借助特有的针对暴力视频的分类策略,以提高分类效果.通过3组实验,对不同的音频特征的准确率、不同词汇的分类效果、以及对视觉特征粗分类的精确分类进行了研究.实验结果表明,该方法有较好的查全率.  相似文献   

3.
针对词袋算法(BOW)忽略局部特征空间关系的弱点,本文提出了基于特征共生矩阵的图像表达方法。该方法利用局部特征的空间共生统计代替直方图统计,充分考虑了局部特征的空间关系,增强了对图像的表达能力。实验利用标准的景物15数据库,在灰度、尺度不变特征变换(SIFT)和局部二进制模式(LBP)3个特征空间,比较了本方法、词袋法以及空间金字塔方法(SPM)的图像分类性能,结果表明本方法比词袋法的图像分类性能分别高出21.2%、6.4%、4.67%,在灰度及LBP空间,本文方法比空间金字塔法分别高出17.07%、3.87%。  相似文献   

4.
基于空间金字塔词袋模型的图像分类算法相比于传统的词袋模型的图像分类算法的准确率有了一定的提高,仍无法满足实际的高标准图像分类的需求。为此提出了一种基于改进的空间金字塔词袋模型的图像分类算法,即使用轮盘法的改进的K-means聚类方法和支持向量机的直方图交叉核函数。分别优化改善了K-means聚类算法的聚类容易陷于局部最优的缺陷和支持向量机使用径向基核函数可能产生非常严重的过拟合问题。通过仿真验证了基于改进的空间金字塔词袋模型的图像分类算法的准确率明显高于原基于空间金字塔词袋模型的图像的分类算法。  相似文献   

5.
针对传统“视觉词袋模型”在进行场景分类时只利用图像的特征域,忽略其空间域中上下文语义信息的问题,提出一种基于图像上下文语义信息的场景分类方法.在传统“视觉词袋模型”的基础上,引入马尔科夫随机场模型对图像上下文语义信息进行建模,利用潜在的狄利克雷分布学习场景的主题分布,且利用支持向量机构造场景分类器.对16类场景的分类实验证明该方法能够有效提高分类精确度  相似文献   

6.
针对传统文本特征选择算法没有考虑特征的语义及特征与类别之间关系的问题,提出了一种结合语义和分类贡献的特征选择算法.利用LDA主题模型获取文本和词的表示,通过计算词与文本之间的语义相似度,获取词对文本的重要性.再利用Word2vec词向量模型获取文本类别特征,通过计算文本中的词与文本类别特征之间的语义相似度,获取词对类别的重要性,最后结合词对文本的重要性和词对类别的重要性选择分类贡献度高的词作为最终的分类特征.实验表明,该算法能够有效地降低文本特征数量,减少分类计算开销,降低噪声对分类的影响,提升分类效果.  相似文献   

7.
垃圾邮件过滤中特征选择方法研究   总被引:2,自引:0,他引:2  
文章对垃圾邮件过滤中的特征选择问题进行了研究,引入"词共现模型"考虑词语之间的语义联系信息,和传统的信息增益特征选择方法结合表示邮件,采用神经网络方法对邮件进行分类得到垃圾邮件过滤器.实验表明,文章提出的将词共现对和信息增益结合的特征选择方法能够提高垃圾邮件过滤的精确度.  相似文献   

8.
针对尺度不变特征变换(Scale Invariant Feature Transform,SIFT)算法在航拍场景分类中提取特征时,易造成边界模糊和细节丢失且无法描述颜色信息的问题,结合视觉词袋模型,提出了非线性尺度空间下融合颜色特征的新型颜色风式特征检测子(Color-KAZE,C-KAZE).通过KAZE构造非线性尺度空间来检测特征信息;对颜色模型(Hue,Saturation,Value,HSV)非等间隔量化获取颜色量化矩阵,进而生成C-KAZE特征描述子;利用视觉词袋和空间金字塔匹配模型融合多特征.实验表明,该算法相比SIFT算法在场景分类准确率方面提高了约8%.C-KAZE描述子增强了KAZE的特征描述能力,突破了SIFT算法特征描述单一、边缘细节模糊的局限性,显著提升了无人机航拍图像的分类效果.  相似文献   

9.
为解决情感分类中词间的语义关系难以表达和分析的问题,提出了一种基于词向量(word representation)和支持向量机(support vector machine)的情感分类算法,对电子商务在线评论的情感分类问题进行研究.首先使用word2vec聚类相似特征,然后使用word2vec和SVM对情感数据进行训练和分类,并分别使用基于词特征和基于词性标注的方法进行特征选择.在京东评论数据上进行的实验结果表明,与现有方法相比,分类准确率和召回率得到了提高.  相似文献   

10.
针对电子报图像信息量大、分类精度低和耗时多的特点,提出利用词袋模型提取图片的代表特征,并采用朴素贝叶斯分类器指导特征矩阵分类.结果表明,图像分类精度最大值能达到93%,分类处理时间约为3 s,充分满足了电子报图像分类和个性化推荐的准确性和实时性要求.  相似文献   

11.
针对传统信息增益(IG)特征选择算法忽略词频分布的缺陷,该文提出一种新的IG特征选择算法.该算法通过引入均衡比和类内词频位置参数,解决了传统IG算法忽略词频分布对分类的弱化问题,修正传统类内词频位置参数,提高特征选择算法的文本分类精度,并将该改进IG特征选择算法用于最大熵模型(ME)对文本进行分类.实验结果表明:该文所提方法在进行文本分类时F1值高于传统IG算法.该文方法的ME分类精度高于K最近邻KNN(K-Nearest Neighbor)算法,说明本文方法是可行的、有效的.  相似文献   

12.
传统的互信息特征选择方法受边缘概率的影响较大, 可能产生稀有词的概率评估分高于常用词的评估分, 从而导致倾向于选择低频词条的现象。为此,在分析了几种传统的特征提取方法基础上, 通过引入分散度及平均词频两个参数, 将互信息方法与特征的词频相关联, 从而使互信息的分类更加准确。实验结果表明, 该方法使分类效果更好。  相似文献   

13.
Sentiment analysis is now more and more important in modern natural language processing,and the sentiment classification is the one of the most popular applications.The crucial part of sentiment classification is feature extraction.In this paper,two methods for feature extraction,feature selection and feature embedding,are compared.Then Word2Vec is used as an embedding method.In this experiment,Chinese document is used as the corpus,and tree methods are used to get the features of a document:average word vectors,Doc2Vec and weighted average word vectors.After that,these samples are fed to three machine learning algorithms to do the classification,and support vector machine(SVM) has the best result.Finally,the parameters of random forest are analyzed.  相似文献   

14.
针对消费者网上购物时选择商品的用户体验不足等问题,设计了产品评论情感倾向性分类系统。系统首先对评论进行了分词,然后根据停用词表去停用词,分别采用CHI、IG进行特征选择,最后比较了使用不同的特征选择算法对文本情感分类结果产生的影响。系统采用了Java Web相关技术实现了可视化,并对产品评论的分类过程进行了展示。实验结果表明,有效的特征选择方法有助于提升推荐系统的性能。  相似文献   

15.
针对情感分析问题中长句和短句进行情感分类时不同的建模特点,提出了一种基于联合深度学习模型的情感分类方法。该方法融合长短期记忆模型(LSTM)与卷积神经网络(CNN)对影视评论数据进行情感极性判别,该方法采用LSTM模型对上下文进行建模,通过逐词迭代得到上下文的特征向量,采用CNN模型从词向量序列中自动发现特征,并从局部抽取特征后将局部特征整合成全局特征来提高分类效果。所提出的方法在COAE2016评测的任务2的情感极性分类任务中,其系统准确率获得最好结果。  相似文献   

16.
特性选择是文本分类、机器学习以及模式识别领域的重要问题之一.特征选择能在保证数据完整性的情况下减少高维数据的特征维数,同时提高分类的精度.以往提出的基于同义词词林的特征选择方法虽然能有效避免提取出的特征值在概念上的重复性,但并未考虑到权值最优的特征向量构成的子集可能并非是最优的.为了解决此问题,结合同义词和遗传算法,提出了一种新的基于同义词词林的文本特征选择方法.该方法首先对特征词进行同义词过滤、合并,在降低特征向量维度的同时避免了同义词带来的影响.然后采用改进的遗传算法选出具有较好适应度值的特征向量.实验结果表明,这种方法较之以往提出的方法,在保证特征选择准确率的基础上能明显地减小特征向量的维度.  相似文献   

17.
钟娜  周宁  靳高雅 《科学技术与工程》2022,22(29):12936-12944
为解决现有情感分类算法在特征提取中缺乏对语义关联规则的运用,以及在分词后产生大量与情感预测无关的词,导致挖掘出的特征不具代表性的问题。提出一种融合粗糙数据推理的卷积记忆网络情感分析模型。通过上下文信息使用粗糙数据推理获得文本的情感词集Word2Vec词向量表示,并融合FastText词向量来改进特征向量嵌入层。其次使用卷积神经网络(CNN)拼接双向长短期记忆网络(BiLSTM)提取更深层次的情感特征。最后加入Attention机制计算权重,筛选显著重要特征。通过多组对比实验表明该模型具有较高的准确率和F1值,有效提升了情感分类的预测能力。  相似文献   

18.
一种基于特征选择的面向对象遥感影像分类方法   总被引:2,自引:1,他引:1  
针对GF—1多空间分辨率遥感数据空间信息丰富,传统影像分类方法无法满足实际应用需要的问题,提出了一种基于特征选择的面向对象遥感影像分类方法——object-RJMC算法,即在影像分割及特征提取的基础上,运用Relief F算法和J-M(Jeffries-Matusita)距离算法去除无关及冗余特征,筛选出适于各类别分类的特征,然后利用CART算法建立分类规则,完成分类过程。以GF-1号2 m、8 m和16 m空间分辨率的三组影像进行算法验证,并与object-CART和pixel-CART影像分类方法进行对比分析。实验结果显示object-RJMC算法的分类精度均高于object-CART和pixel-CART算法的分类精度;且对高空间分辨率的影像分类效果要优于对中低空间分辨率影像的分类效果。该算法减少了特征选择及规则建立的人工干预,克服了以像素为单位的分类算法中由于缺少空间邻域信息而产生孤立、离散、不连通分类结果的问题,可有效地提高GF-1遥感影像分类精度。  相似文献   

19.
针对目前特征选择算法应用于数据分类精度不理想的问题, 提出一种基于最大相关最小冗余的特征选择算法, 该算法结合特征选择算法和聚类分析算法对特征进行处理, 将分类中冗余的特征去除. 利用支持向量机对一组心脏病患者实际测量得到的数据进行分类实验, 实验结果表明, 该方法可有效筛选影响分类的特征, 进而提高分类准确率.  相似文献   

20.
基于支持向量机的汉语问句分类   总被引:5,自引:0,他引:5  
目前汉语问句分类一般都依据疑问词及其相关词的组合规则,但由于规则的提取很深地依赖于语言知识,而且很难穷举出所有的特征规则,因此会影响分类的效果.支持向量机(SVM)是建立在统计理论基础上的机器学习方法,对于小样本分类问题有很好的识别效果.文中分析和定义了汉语问句的类型,建立了以SVM为基础的问句分类模型,详细描述了问句分类特征的选取过程,并在句法特征的基础上引入语义特征进行汉语问句分类实验,分类准确率达88.7%,表明结合句法和语义特征以SVM进行汉语问句分类具有很好的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号