首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 437 毫秒
1.
基于非负矩阵分解的中文倾向性句子识别   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种基于非负矩阵分解(NMF、SNMF和WNMF)的中文倾向性句子识别算法.该算法首先构建倾向性特征矩阵,然后通过NMF、SNMF和WNMF算法分别来降维、提取潜在语义,最后采用支持向量机分类器识别中文倾向性句子.实验结果表明,与PCA和SVD相比,NMF、SNMF和WNMF算法能有效地降低维度、提取潜在语义,并提...  相似文献   

2.
以中文情绪语料库(Ren-CECps)为基础,重点研究了句子级情绪识别方法.比较了不同特征以及不同机器学习分类方法(NB,SVM,ME)对情绪识别的影响.此外,针对情绪文本和非情绪文本在语料中的分布非常不平衡问题,通过集成学习的算法来实现不平衡情绪识别,用以提高情绪识别的整体性能.实验结果表明:使用基于样本的集成学习方法能够有效解决不平衡问题,明显提高情绪识别的分类性能.  相似文献   

3.
研究第五届中文倾向性分析评测的任务3和任务4,即微博的倾向性分析和评价对象识别.网络新词多,句子格式不规范,语言简短且包含的情感内容多都是微博分析的难点.针对此问题,提出对中文微博的过滤算法.在词语倾向性识别中,构建基础观点词和网络观点词等词典,然后利用知网识别所有词语的倾向性.在评价对象的抽取方面,提出一种面向微博的基于统计和规则相结合的评价对象抽取方法,特别是提出利用句法分析和评价词、评价对象互信息的联合抽取算法.实验表明,该算法可以提升评价对象抽取的效果.  相似文献   

4.
中文句子倾向性分析   总被引:1,自引:0,他引:1       下载免费PDF全文
针对句子的倾向性进行判断,采用SentiWordNet构建中文倾向性词表,通过剔除停用词等降低句子向量的维数,以此来提高句子向量化速度,然后利用支持向量机分类器进行句子倾向性判断,最后提出两种新的置信度计量方法对倾向性句子进行排序.实验结果表明,构建的识别系统在一定程度上能有效识别倾向性句子.  相似文献   

5.
针对中文的语料,采用基于条件随机场的方法,在词、词性特征的基础上结合最近名词、句法依赖关系和句子倾向性等特征,分析不同特征对于评价对象抽取的影响.实验结果表明,结合了词、句子倾向性、词性、语法依赖关系、邻近名词等特征的条件随机场方法对于中文句子评价对象的抽取更有效.  相似文献   

6.
对不平衡数据进行聚类分析时,K-means聚类方法可能会错误地将分布在较小区域类别中的样本划分到大区域类别中;谱聚类算法,虽然可以有效优化数据结构,并很好地识别不同形状的样本,但却难以处理大规模数据.针对这些问题,提出一种改进地标点采样的不平衡数据聚类算法.该算法首先对不平衡数据进行预聚类以获得初始类标签,然后基于数据密度对数据进行采样.在此基础上,通过对采样数据执行K-means聚类,并将聚类中心作为地标点,对数据进行谱聚类分析.实验结果显示,该方法在处理不平衡数据时,不仅能够有效提高样本的聚类准确率,而且能够保证聚类结果的稳定性和精度.  相似文献   

7.
事件要素识别是事件抽取的基本任务,对后续任务的开展起着重要作用.随着深度学习技术的发展,神经网络逐渐成为事件要素识别的主流方法.近几年,注意力机制在自然语言处理领域得到广泛使用,但注意力机制依赖于嵌入层对上下文特征的提取,在事件要素识别等序列标注问题中效果不理想.针对这一问题,提出了一种基于注意力机制的双维注意力机制,从矩阵行和列两个维度计算注意力得分,因此可以较好地提取句子的上下文特征,并且使用了动态目标损失函数,通过动态给予不同标签不同的权重,一定程度上缓解了样本不平衡和数据稀疏带来的模型泛化不足问题.在CEC2.0中文突发事件语料库上对比实验表明,所提方法取得较好效果.  相似文献   

8.
不平衡数据的分类是机器学习的热点问题.传统的分类方法在分类时会倾向于多数类而使得分类精度不高.对不平衡数据集的分类,提出一种基于FCM结合KFDA方法,首先采用FCM算法对样本数据进行聚类,将数据聚类后的样本数据映射到特征空间里,再采用KFDA算法对数据进行分类,可以克服不平衡数据对分类性能的影响.对UCI数据集进行仿真实验,结果表明FCM-KFDA算法可以有效地提高数据识别率.  相似文献   

9.
张阳  张涛  陈锦  王禹  邹琪 《北京理工大学学报》2019,39(12):1258-1262
网络入侵检测已经广泛运用机器学习模型,但是研究者们多关注模型选择和参数优化,很少考虑数据不平衡的影响,往往会导致少数类入侵样本的检测效果较差.针对该问题,以SMOTE (synthetic minority oversampling technique)数据再平衡算法为研究重点,应用入侵检测数据集KDD99作为原始训练集,使用简单抽样和SMOTE算法生成再平衡训练集.采用多种机器学习模型分别在原始训练集和再平衡训练集进行5折交叉验证.实验结果表明,与原始训练集相比,使用再平衡训练集建模能够在不降低甚至提高多数类样本识别效果前提下,使少数类样本的识别准确率和召回率增强10%~20%.因此,SMOTE算法对不平衡样本下的网络入侵检测有显著的提升作用.   相似文献   

10.
不均衡数据分类算法的综述   总被引:3,自引:1,他引:2  
传统的分类方法都是建立在类分布大致平衡这一假设基础上的,然而实际情况中,数据往往都是不均衡的.因此,传统分类器分类性能通常比较有限.从数据层面和算法层面对国内外分类算法做了详细而系统的概述.并通过仿真实验,比较了多种不平衡分类算法在6个不同数据集上的分类性能,发现改进的分类算法在整体性能上得到不同程度的提高,最后列出了不均衡数据分类发展还需解决的一些问题.  相似文献   

11.
手写体数字的识别在社会经济、社会生活的许多方面都有着广泛的应用。同时支持向量机是近几年来模式识别领域中的一种新技术,它被广泛应用到文字识别、人脸识别等应用中。为此将支持向量机技术应用到手写体数字的识别中,通过使用改进的C-支持向量机进行手写体数字的识别,并得出相应的识别率,结果表明此方法可行且有较高的识别率。  相似文献   

12.
基于层次的分类器组合   总被引:3,自引:0,他引:3  
对传统的串行、并行组合方式的分析基础上,该文提出一种基于层次的分类器组合方式,并以手写体数字识别为例,选取了8个不同信息层次的分类器进行组合,得到最终分类结果如下:正确识别率为97.15%,错误率为0.75%,拒识率为2.10%,可靠性为99.234%。实验结果表明,此种分类器组合方式较传统的串行、并行组合方式在性能上有所提高。  相似文献   

13.
面向不平衡数据集的一种精化Borderline-SMOTE方法   总被引:2,自引:0,他引:2  
合成少数类过采样技术(SMOTE)是一种被广泛使用的用来处理不平衡问题的过采样方法,SMOTE方法通过在少数类样本和它们的近邻间线性插值来实现过采样.Borderline-SMOTE方法在SMOTE方法的基础上进行了改进,只对少数类的边界样本进行过采样,从而改善样本的类别分布.通过进一步对边界样本加以区分,对不同的边界样本生成不同数目的合成样本,提出了面向不平衡数据集的一种精化Borderline-SMOTE方法(RB-SMOTE).仿真实验采用支持向量机作为分类器对几种过采样方法进行比较,实验中采用了10个不平衡数据集,它们的不平衡率从0.064 7到0.536 0.实验结果表明:RB-SMOTE方法能有效地改善不平衡数据集的类分布的不平衡性.  相似文献   

14.
目前,网络评论的情感分类研究大部分是不平衡样本数据,正向样本的数量一般远大于负向样本,对这种不平衡样本集进行分类时容易产生少数类误差较大的问题。而且由于网络评论的表达形式多变,不易获取到大量的有监督的数据。针对上述问题,对无监督的不平衡网络评论情感分类进行研究。首先通过改进降噪自动编码器,提高少数类的特征值,避免分类样本向多数类偏移。然后将获取的特征值作为k-means算法的输入值,实现了无监督的样本分类。实验证明,该算法对不平衡率较高的样本具有良好的适应性,从而验证了算法的有效性。  相似文献   

15.
一种基于级联模型的类别不平衡数据分类方法   总被引:6,自引:0,他引:6  
真实世界问题中,不同类别的样本在数目上往往差别很大,而传统机器学习方法难以对小类样本进行正确分类,若小类的样本是足够重要的,就会带来较大的损失.因此,对类别分布不平衡数据的学习已成为机器学习目前面临的一个挑战.受计算机视觉中级联模型的启发,提出一种针对不平衡数据的分类方法BalanceCascade.该方法逐步缩小大类别使数据集趋于平衡,在此过程中训练得到的一系列分类器通过集成方式对预测样本进行分类.实验结果表明,该方法可以有效地提高在不平衡数据上的分类性能,尤其是在分类性能受数据的不平衡性严重影响的情况下.  相似文献   

16.
对两种支持向量分类机C-支持向量机(C-SVM)和v-支持向量机(v-SVM)的对偶问题,补充了"v-SVM的对偶问题最优值为零时,b<0的情况下,相应的C-SVM的对偶问题存在与其相同的最优解集"的详细证明过程.  相似文献   

17.
偏标记学习是近几年提出的新机器学习框架,已有的逻辑回归偏标记算法尚不能解决数据不平衡问题.建立了一种可以解决数据不平衡的逻辑回归模型偏标记学习算法.基本思想是在多元逻辑回归模型中定义新的似然函数以达到处理不平衡数据的目的.算法先根据训练集中各个类别样本所占比例定义了一个新的似然函数,之后通过逼近和求导等数学手段推导得到了能够求解的光滑的逻辑回归偏标记学习模型.在UCI数据集和真实数据集上的仿真实验表明,所提算法在数据存在不平衡问题时提高了样本的平均分类精度.  相似文献   

18.
针对网络评论中普遍存在的负面评论较少而影响力却较大的类不平衡问题, 提出一种基于类不平衡学习的情感分析方法. 该方法利用深度学习训练过程中的概率输出, 以计算样例的信息熵作为影响因子构建交叉信息熵损失函数. 在IMDB公开数据集上进行实验验证的结果表明, 基于集成信息熵损失函数的双向长短期记忆网络能处理类不平衡问题; 对数据的统计分析结果表明, 该策略能提升基于双向长短期记忆网络的评论情感极性分类性能. 针对AUC(area under curve)指标, 使用集成信息熵损失函数的双向长短期记忆网络模型比未考虑类不平衡的深度学习模型在中位数上最多提升15.3%.  相似文献   

19.
王欣  齐梅  胡永乐 《科学技术与工程》2015,15(7):173-176,180
在致密气资产快速评价中应用经验型递减模型能够快速得到气井产量的递减情况;但不同的递减模型在完成历史拟合后,长期产量和累积产量预测结果相差很多。应用GLUE法评价各模型预测结果的不确定性,并引入平均模型的概念,计算各模型权重后建立平均模型。以加拿大致密气田两口致密气井的实际生产数据为例应用平均模型进行累积产量的计算,结果表明GLUE法可进行各模型预测结果的不确定性进行分析,且通过设定筛选标准后,利用满足条件的模型进行聚合得到的平均模型计算结果具有更小的标准差与变异系数。  相似文献   

20.
通过建立我国各省市、自治区经济发展的综合评价指标体系,运用主成分分析方法,对我国各地区经济发展水平做出综合排名,结果发现得分较高、排名靠前的基本都是东部地区的一些省市,而中西部地区的省市、自治区几乎是得分较低、排名靠后;分析结果与我国经济发展水平的客观状况相一致,反映出我国区域经济发展不平衡的现实态势,并根据现实状况提出相应的政策建议。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号