首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
在少数民族语言信息处理领域,由于文本分类标注数据的稀缺,相关研究工作进展缓慢.为了充分利用有限的标注数据,更有效地挖掘出文本之间的关系,本文对藏文提出一种基于预训练模型和图卷积神经网络的长文本分类方法CINO-GCN.首先利用在实验数据集上经过微调的少数民族多语言预训练模型(Chinese Minority Pretrained Language Model, CINO)得到藏文长文本的初始文档向量和藏文音节向量.然后根据整个数据集范围的音节共现关系与音节和文档间的TF-IDF值来对藏文文本图进行建模.最后将文本图和结点特征一同输入至图卷积神经网络(graph convolutional networks, GCN)层,得到的文档表示经过Softmax得到分类结果.将该方法在公开的TNCC藏文新闻文本分类数据集上与当前几种主流的深度学习模型进行了多组对比实验,分类准确率达到73.51%,远优于其他基线模型;同时设计了消融实验验证模型各部分对分类结果的增益.实验结果表明,该文提出的模型能够结合预训练词向量和图神经网络的优势,显著提高藏文文本分类的准确率.  相似文献   

2.
针对BERT模型领域适应能力较差,无法解决训练数据类别数量不均衡和分类难易不均衡等问题,提出一种基于WBBI模型的服务文本分类方法。首先通过TF-IDF算法提取领域语料中的词汇扩展BERT词表,提升了BERT模型的领域适应性;其次,通过建立的BERT-BiLSTM模型实现服务文本分类;最后,针对数据集的类别数量不均衡和分类难易不均衡问题,在传统焦点损失函数的基础上提出了一种可以根据样本不均衡性特点动态调整的变焦损失函数。为了验证WBBI模型的性能,在互联网获取的真实数据集上进行了大量对比试验,实验结果表明:WBBI模型与通用文本分类模型TextCNN、BiLSTM-attention、RCNN、Transformer相比Macro-F1值分别提高了4.29%、6.59%、5.3%和43%;与基于BERT的文本分类模型BERT-CNN、BERT-DPCNN相比,WBBI模型具有更快的收敛速度和更好的分类效果。  相似文献   

3.
利用迁移学习的方法, 融合京东问答平台数据与少量已标注的微博数据构建训练集, 提出一种基于注意力机制的双向长短期记忆神经网络(Attentional-Bi-LSTM)模型, 用于识别用户的隐性消费意图。针对显性意图识别问题, 提出一种结合TF-IDF (term frequency-inverse document frequency)与句法分析中动宾关系(VOB)的消费意图对象提取算法。实验结果表明, 通过将迁移京东问答平台的数据与微博数据相融合, 可以有效地扩充训练集, 在此基础上训练的神经网络分类模型具有较高的准确率和召回率; 融合VOB和TF-IDF的显性消费意图对象提取方法的准确率达到78.8%。  相似文献   

4.
提出了一种基于卷积循环神经网络的文本特征提取方法,同时对比使用统计学中的TF-IDF以及Word2vec方法的文本特征表示,将提取的特征分别放入SVM与随机森林分类器中对来源于中国知网的中文学术论文数据集进行分类。实验结果表明,使用卷积神经网络和卷积循环神经网络特征提取模型提取的特征所取得的分类效果比TF-IDF、Word2vec特征提取方法得到的分类效果更好,同时使用SVM和随机森林分类器取得的分类效果略好于原生的神经网络。  相似文献   

5.
针对新型冠状病毒的潜伏期较长,基于每日发布的新冠疫情数据集,在经典SEIR (Susceptible-Exposed-Infected-Recovered)模型的基础上,考虑了隐性传播人群,并且将确诊人群分为两类(一类感染者具有传染能力;一类感染者由于处于隔离期间,其感染能力可忽略不计),构建了基于改进SEIR的新冠肺炎传播动力学模型。以2021年12月15日到2022年1月13日的西安市疫情数据为依据,拟合得到了改进SEIR模型的动力学参数,对西安市COVID-19疫情进行预测和评估。结果表明,基于改进SEIR传染病动力学模型对疫情的理论估计与西安市疫情的实际情况较为符合,数据可视化和医学隔离等措施对抑制疫情大面积传播有重要作用。  相似文献   

6.
针对基于词语统计的特征化表示无法有效提取文本的词义特征的问题,提出一种基于上下文关系的文本特征化表示方法。该方法利用Word2vector提取词义特征,获得词向量;再对词向量进行“最优适应度划分”的聚类,并根据聚类结果将词语替代表示为聚类质心;根据质心及其所代表的词语的词频,构成词向量聚类质心频率模型(semantic frequency-inverse document frequency,SF-IDF),用于特征化表示文本。在不依赖语义规则的情况下,分别以路透社文本集Reuter-21578、维基百科(extensible markup language,XML)数据为文本数据集,采用神经网络语言模型(neural network language model,NNLM)算法进行文本分类实验,并采用F1-measure标准进行样本分类的效果评估,词向量聚类质心频率模型SF-IDF(semantic frequency-inverse document frequency,SF-IDF)向量与现有技术中词频-逆向文件频率(term frequency-inverse document frequency,TF-IDF)向量的分类效果对比,与TF IDF模型进行对比实验;在Reuter 21578数据集上平均准确率由原有的57.1%提高到63.3%,在Wikipedia XML数据集上平均准确率由原有的48.7%提高到59.2%。SF-IDF模型可适用于现行的基于特征向量的信息检索算法,且较TF-IDF模型有更高的文本相似性分析效率,可提升文本分类准确率。  相似文献   

7.
基于新冠疫情时代海外侨情危机事件频发,提出一种基于自动化信息要素抽取的新闻事件类型识别方法,对后疫情时代侨情新闻事件进行智能危机类别划分.首先,利用爬虫技术获取特定时间段的相关侨情事件新闻,进而采用信息抽取模型对语料数据进行信息要素抽取;然后,根据要素集的取值判断每条新闻的危机事件类型;最后,对2020年1月-8月的侨情新闻数据进行实证研究.结果表明:该方法不但能提升侨情分析的效率,还能进行多维度的危机状况信息可视化,有助于制定危机事件应对策略.  相似文献   

8.
针对使用词语级别的预训练嵌入向量初始化卷积神经网络的嵌入层在计算资源有限时存在内存溢出和训练时间长的问题,对新闻文本作出假设:去除部分不重要的词语不会影响最终分类效果,并基于TF-IDF提出一种类别关键词提取方法。通过提取类别的关键词减少词表,进一步减小嵌入矩阵的大小。在THUCNews数据集上进行的实验表明:当嵌入矩阵参数减少近89%时,在CPU的训练时间减少约49%,模型大小减少约87%,分类性能不受影响。  相似文献   

9.
为了有效获取交通运输信息标准中的一致性条款,简化标准测试方法,针对现有文本分类方法中卷积神经网络存在的缺少上下文含义和循环神经网络存在的梯度消失及梯度弥散等问题,提出一种基于BLSTM的文本增强表示方法和基于CNN网络的语句分类相结合的方法进行一致性条款分类.其核心思想是将BLSTM前向和后向过程产生的向量相加,然后与原文本向量拼接作为文本的向量表示,将文本向量作为CNN网络的输入进行文本分类.为验证所提模型的有效性,设置了与传统机器模型TF-IDF+SVM、单CNN、BLSTM神经网络模型及经典混合模型的对比试验.通过构造的交通运输信息标准条款数据集测试表明,基于改进的BLSTM和CNN的链式混合神经网络模型准确率达到93.77%.  相似文献   

10.
2019年突如其来的新冠肺炎疫情给我国经济社会发展和人民生活带来严重影响.如何科学合理计算新冠肺炎传播的基本再生数对疫情的控制尤为重要.目前,已有的计算新冠肺炎基本再生数方法大都基于数据辨识模型参数进而算出其值.给出一种利用数据结合模型直接计算新冠肺炎传播基本再生数的新方法.利用该方法及峰值数据可以计算基于SIR模型、SEIR模型及SEIAR模型全国、湖北及广东新冠肺炎传播的基本再生数.该方法能反映基本再生数和新冠肺炎传播相关数据的直接关系.  相似文献   

11.
针对高校图书馆中文图书的分类推荐个性化服务问题,结合本科专业课程体系,提出一种基于word2vec的中文文本分类的WV-TF-IDF模型.首先建立文本分类语料库FJCCT,接着利用基于神经网络的word2vec模型和TF-IDF进行文本特征计算,然后使用KNN和GBDT文本分类算法对比WV-TF-IDF和TF-IDF模型的效果.实验结果表明基于WV-TF-IDF模型GBDT文本分类算法的正确率更高.  相似文献   

12.
为了提高深度学习网络对糖尿病性视网膜病变识别准确率,针对光学相干断层扫描技术(optical coherence tomography,OCT)的视网膜图像分类研究,提出了一种基于可选择卷积核的网络模型,该模型能对多个尺度扩张率的卷积核之间进行自动选择操作。分割阶段生成多条路径,这些路径具有相同的卷积核但不同的扩张率,对应不同的神经元感受野大小;融合阶段将多条路径的信息进行组合和聚合,得到一个全局的、全面的选择权重表示;选择操作再根据2种权值自身相似性和相对相似性来选择权值。实验结果表明,该模型在2个视网膜公开的基准数据集OCT2017及SD-OCT上分别达到了95.39%,99.18%的分类结果。与目前已有的主流模型相比,该模型的实验结果在2个数据集上均有提升。  相似文献   

13.
针对自然语言处理的文本情感分类问题,提出一种基于集成学习的文本情感分类方法;基于微博数据的特殊性,首先对微博数据进行分词等预处理,结合词频-逆文档频率(TF-IDF)和奇异值分解(SVD)方法进行特征提取和降维,再通过堆叠泛化(stacking)集成学习的方式进行分类模型融合。结果表明,模型融合对文本情感分析的准确率达到93%,可以有效地判别微博文本的情感极性。  相似文献   

14.
为研究新型冠状病毒肺炎(简称新冠肺炎)传播机理和传播风险,预测疫情发展趋势,对政府制定相关疫情防控政策提供帮助,提出了一种新的新冠肺炎传播非线性动力学模型(SLEIR)。该模型考虑到疫情中采取保护措施的人群,将其作为低危群体加入到模型中;通过对模型的基本再生数、平衡点、稳定性和分岔等进行分析,揭示新冠肺炎传播机理;利用印度新冠肺炎真实数据对模型参数和部分状态初值进行最小二乘拟合,根据拟合的参数对印度疫情发展趋势做出预测。该模型对印度3~4月、4~5月两阶段疫情预测平均相对误差分别为4.107%和2.805%,对于印度10月最新的疫情,预测平均相对误差为3.266%,预测结果表明SLEIR模型具有较好的预测效果。与传统SEIR模型相比,该模型能适应印度疫情复杂的变化趋势,且具有更高的预测精度,可以为政府选择合适的防控措施提供技术支撑。  相似文献   

15.
针对中文文本分类任务中N-Gram,素贝叶斯、K最近邻和TF-IDF等经典而广泛使用的文本分类模型的选择困惑问题,基于万余篇中文新闻文本语料数据,设计了一系列的对比实验,考察了各模型在不同参数、不同训练数据规模、不同训练文本长度、类别是否偏斜等多种情境下分类性能的表现,总结了各模型的特性,为中文文本分类模型的选择和应用提供了实践依据和参考.  相似文献   

16.
防控措施对传染病的传播过程有重要作用,因此在预测新型冠状病毒肺炎疫情未来发展趋势时必须要考虑防控措施的影响。该文提出了基于机器学习的新冠肺炎疫情三步预测模型,将神经网络、随机森林、长短期记忆网络和序列到序列等机器学习算法引入到新冠肺炎传染病疫情预测中。与前人的预测模型相比,所提出的模型考虑了新冠肺炎疫情发展过程中防控措施的变化情况,可以使用检测数据预测未来的确诊人数和实际感染规模。研究结果表明:预测结果与实际数据基本一致,模型具有较高的可靠性。该预测方法可以使政府管理部门更准确地了解新冠肺炎疫情的实际发展态势,帮助管理者更有效地分配医疗资源,为新冠肺炎疫情防控提供决策参考。  相似文献   

17.
为兼顾钓鱼网站检测的速度和准确率,提出一种基于Logistic回归和XGBoost的钓鱼网站检测方法.根据网页的URL提取HTML特征、URL特征和基于TF-IDF的文本向量特征,结合Logistic回归将高维和稀疏的文本特征转换为概率特征.基于以上融合特征,构建了XGBoost分类模型,给出了方法的时间复杂度分析,采集了真实数据作为实验数据集.实验结果表明,Logistic回归方法降低了融合特征的维度,检测速度优于直接融合方法;融合特征方法比单方面特征方法含有更多有效的信息,可供分类器进行学习,检测精度高于单方面特征方法,精确度达到96.67%,召回率为96.6%.  相似文献   

18.
TF-IDF方法是文本向量化过程中一种常用的特征项权重计算方法,衡量的是特征项在整个文档集中的重要性.针对文本分类过程中TF-IDF方法未能体现特征项对类别的区分能力和对类别的代表性问题,基于文档类别,结合特征项的类间区分度和类内贡献度,提出一种改进的TF-IDF权重计算方法,并采用KNN和SVM模型对改进后算法的分类性能进行了验证.实验结果表明,与传统的TF-IDF方法相比,改进后的权重计算方法不仅在整个测试数据集上能够取得较高的宏平均精确率、宏平均召回率和宏平均F1,而且使测试数据集绝大部分类别的分类性能得到了较大提升.因此,改进后的TF-IDF权重计算方法是有效且可行的.  相似文献   

19.
提出一种基于深度学习的电能质量扰动信号分类新方法。该方法应用注意力机制和双向长短期记忆网络构建分类模型,并利用Matlab仿真产生训练数据集与验证数据集。考虑了7种常见的复合扰动信号,并将其作为序列数据直接输入到网络中进行训练和验证。实验结果表明,本方法能准确地识别不同的扰动信号,在验证集上模型的识别准确率可以达到99.7%。通过对比实验发现,应用注意力机制和双向长短期记忆网络的模型的识别能力要优于支持向量机和多层感知机等传统机器学习算法。  相似文献   

20.
基于视觉Transformer的自监督模型掩码自编码器因其优秀的全局特征捕捉能力,被广泛应用于遥感图像分类领域。但该模型存在图像重建训练时局部上下文语义信息易丢失从而限制其分类精度的进一步提升。针对以上问题,本文提出了融合掩码重建和对比学习的三阶段自监督遥感图像分类新模型——对比掩码自编码器。第一阶段进行掩码重建预训练,以提取遥感图像全局特征;第二阶段则通过对比学习中的正负样本补充第一阶段掩码建模过程中丢失的局部上下文信息;最后通过训练线性分类器完成特征分类。在公开遥感图像数据集AID和NWPU-RESISC45上将本文方法与主流自监督分类方法、监督分类方法进行对比实验。实验结果表明,该模型在两个数据集上分类精度分别达到95.37%和95.14%,性能优于DINO、MoCo、SSGANs等主流自监督模型,接近GLANet、CANet、MG-CAP (Sqrt-E)等主流监督模型,具有良好的应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号