首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 46 毫秒
1.
句子情感分类致力于挖掘文本中的情感语义,以基于 BERT(bidirectional encoder representations from transformers)的深度网络模型表现最佳.这类模型的性能极度依赖大量高质量标注数据,而现实中标注样本往往比较稀缺,导致深度神经网络(deep neural network,DNN)容易在小规模样本集上过拟合,难以准确捕捉句子的隐含情感特征.尽管现有的半监督模型有效利用了未标注样本特征,但对引入未标注样本可能导致错误逐渐累积问题没有有效处理.半监督模型在对测试数据集进行预测后不会重新评估和修正上次的标注结果,无法充分挖掘测试数据的特征信息.研究提出一种新型的半监督句子情感分类模型.该模型首先提出基于K-近邻算法的权重机制,为置信度高的样本分配较高权重,尽可能减少错误信息在模型训练中的传播.接着,采用两阶段训练策略,使模型能对测试数据中预测错误的样本进行及时修正,通过多个数据集的测试,证明本模型在小规模样本集上也能获得良好性能.  相似文献   

2.
针对影像分类中少量标记样本问题,提出了基于模糊粗糙集的影像半监督分类算法.首先,通过模糊粗糙集对数据的粗糙性与模糊性进行建模,采用归一化的模糊互信息来度量特征与类别信息的相关性,并利用模糊上下近似度量样本的类别隶属度;然后,结合归一化的模糊互信息改进正则化框架下的特征评价方法,在谱图分析的半监督特征选择框架下实现特征优选;其次,结合近邻约束提高模糊上下近似预测样本类别的准确性,设计基于模糊粗糙集的约束自学习,选择信息量大的未标记样本更新训练样本集;最后,利用新的样本集训练分类器,完成影像分类任务.多组实验表明所提算法能够在少量标记样本的条件下有效提高影像的分类精度.  相似文献   

3.
精确的癌症分类对于癌症的成功诊断和治疗是必不可少的.半监督维数约减算法在干净的数据集上表现得很好,然而当面临噪声时,当前的大部分算法所构造的邻域结构是拓扑不稳定的.为了克服这一问题,文中提出了一种基于随机子空间的半监督维数约减算法( RSSSDR) ,将随机子空间与半监督维数约减算法结合起来.在数据集的不同随机子空间上,该算法首先设计多个不同的子图,然后将这些子图联合起来构成一个混合图并在其上进行维数约减.该算法通过最小化局部重构误差来确定邻域图的边权值,在保持癌症数据集局部结构的同时能够保持其全局结构.在公共癌症数据集上的实验结果表明,RSSSDR 算法具有较高的分类准确率和较好的参数鲁棒性.  相似文献   

4.
随着万维网的快速普及和发展,Web上出现了大量短文本,如科技文献摘要、微博和电子邮件等.短文本内容短小,相互联系,已标注数据获得困难,导致传统分类方法很难取得较高的分类精度.为了解决短文本分类问题,提出了一种基于半监督学习的迭代分类算法(SS-ICA).它使用较少的已标记数据,利用短文本间的关系进行迭代分类.通过与常用分类方法进行对比表明,在标注数据较少的情况下SS-ICA比其他分类器有更高的分类精度.  相似文献   

5.
6.
提出一种基于多种文本类型的半监督性别分类方法,即根据微博平台中用户所产生的不同类型的文本(如:原创微博、转发微博等)对用户的进行性别分类。文中的方法是一种基于协同训练(Co-training)的半监督学习方法,旨在减少分类器对大量标注样本的依赖。首先将不同类型的文本分为不同的独立视图;其次,在每个视图中利用LSTM分类器挑选置信度最高的未标注样本;最后,将挑选出来的未标注样本加入训练模型迭代训练。实验结果表明我们的方法能够有效利用非标注样本信息,并明显优于其他现有的半监督性别分类方法。  相似文献   

7.
针对非平衡数据的半监督分类问题,提出了一种基于Biased-SVM的非平衡半监督分类算法.该方法首先利用初始的标记样本集训练处理不平衡数据的Biased-SVM模型,然后用训练好的Biased-SVM模型为未标记样本加上标签,再把新标记样本加入到初始标记样本集中,重新训练Biased-SVM模型,最后在测试集上进行测试.选取公共数据库里的一些数据集进行实验,首先在两类不平衡数据集上实验的结果表明,在标记样本所占比例为20%~80%时,所提方法能够在不降低数据集整体G-mean值的基础上,提高小类的F-value值并具有较高的稳定性;然后在多类不平衡数据集上实验的结果表明,在标记样本所占比例为20%~80%时,所提方法能够在不降低数据集整体的EG-mean值的基础上,提高小类识别率并具有较高的稳定性.  相似文献   

8.
提出了一种基于马尔可夫链的半监督分类方法.通过在马尔可夫链模型中引入奖励,将向量之间的距离与夹角自然地结合起来.利用吸收态的概念对马尔可夫链模型进行了瞬态分析.未知数据的扩散抑止了误差的传播.真实数据的实验结果表明,该方法是一种比较有效的半监督分类方法.  相似文献   

9.
提出了充分利用未标注样本的样本信息的双语对抗学习方法.具体而言,中文的标注样本和未标注样本分别通过不同的LSTM进行编码,再经过分类器和判别器进行对抗学习.其中,分类器的作用是使标注样本和未标注样本处于同一分布,而判别器用来区分输入样本是标注样本还是未标注样本.最后,构建一个相同的英文语料的对抗神经网络,通过联合学习中...  相似文献   

10.
深度学习在网格分类中的应用越来越受到人们的关注,在网格分类任务中,通常使用交叉熵损失作为损失函数。文章提出一种利用数据的结构相似性和几何一致性的正则化损失,将其加入损失函数中进行优化,可有效提高网格的分类准确率。从实验结果的量化指标来看,提出的正则化损失对于网格半监督分类任务的准确率有很好的提升效果。  相似文献   

11.
为了克服由错误标记样本所引发的问题,提出半监督分类器模型。从标记数据和未标记数据中学习得到决策准则,并在马尔科夫随机场中,运用一个新的基于鲁棒误差函数的能量函数,分别设计基于迭代条件模型和马尔科夫链蒙特卡罗的两种算法来推断标记样本和未标记样本的类别。实验结果表明这两种方法对于现实世界的数据集来说是高效的,并具有很好的鲁棒性。  相似文献   

12.
考虑可以分解为有限群带割点有限图上的随机游动。利用群表示理论,得出了带割点群上随机游动首达时间概率母函数的明确表达式。进而得出其平均首达时间的表达式。  相似文献   

13.
一种基于KNN的半监督分类改进算法   总被引:1,自引:0,他引:1  
本文提出一种新的基于KNN分类的半监督学习self-training改进算法,并以多个UCI数据集为实验,对基于KNN的半监督分类模型算法进行改进,充分利用已知类别标签数据的正确知识进行自训练,以得到最终分类结果.实验结果表明,该方法能显著提高分类准确率.  相似文献   

14.
Some Probability Properties of Random Walk in Time-Random Environment   总被引:1,自引:0,他引:1  
A general formulation of the stochastic model for random walk in time-random environment and an equivalent definition is established in this paper.Moreover,some basic probability relations similar to the classical case whichare very useful in the corresponding research of fractal properties are given.At the end,a typical example is provided to show the recurrence and transience.  相似文献   

15.
对可逆马尔可夫链的转移概率进行了估计 ,给出了其条件为马尔可夫链的格林函数的空间对称性和多项式衰减规律 ,解决了早期研究中当分形不能用一个简单运算重正化 ,或者分形是无穷分叉时的难题。  相似文献   

16.
对具有反射壁的薄膜空间中的无规行走和自回避无规行走进行了分析,并用MonteCarlo方法进行了数值模拟。结果表明,具有反射壁的薄膜空间中的无规行走与Euclidean空间中的无规行走具有相同的标度行为,而薄膜内的自回避无规行走亦有一定的标度性,其分维与二维和三维空间均不相同。  相似文献   

17.
在GSAT算法的基础上,引进学习的概念,设计了一种新的SAT求解算法,用若干DIMAC的测试实例进行了仿真实验研究,比较了基于学习的GSAT算法与著名的Random Walk GSAT算法,结果表明两种算法对于随机SAT的实例比较有效,但对于Real-World SAT的实例性能较差。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号