期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

白若鹞董渊张素琴徐大伟《清华大学学报(自然科学版)》2008,48(7)

为方便中文文本分类过程算法研究,阐述中文文本分类的基础技术,提出基于构件的中文文本分类技术研究辅助平台.该平台对大多数分类中使用的算法在中文文本分类中的应用效果进行了研究.实验结果表明: 该平台可以通过计算分类器分类准确率的宏平均值比较分类算法与特征选择算法的性能,可以评估语料库的可用性,能够用于研究中文分词、特征选择、分类算法等中文文本分类技术问题. 相似文献

2.

基于word2vec的中文图书分类研究

谢日敏陈杰游贵荣谢大同《云南民族大学学报(自然科学版)》2018,(4)

针对高校图书馆中文图书的分类推荐个性化服务问题,结合本科专业课程体系,提出一种基于word2vec的中文文本分类的WV-TF-IDF模型.首先建立文本分类语料库FJCCT,接着利用基于神经网络的word2vec模型和TF-IDF进行文本特征计算,然后使用KNN和GBDT文本分类算法对比WV-TF-IDF和TF-IDF模型的效果.实验结果表明基于WV-TF-IDF模型GBDT文本分类算法的正确率更高. 相似文献

3.

上下文广告中的一种文本分类方法

赵耀陈志敏《扬州大学学报(自然科学版)》2011,(4)

针对文本分类中的交叉类别问题,提出一种基于传统潜在语义分析方法的新算法NLSA(new latentsemantic analysis)对网页进行文本分类.该方法可以将相关但是不同类别中的标签和非标签数据统一在一个概率模型中,通过研究两个类别的共有主题,在不同类别中转换知识来帮助目标文本进行分类.该方法可以最大化利用原有标签数据对新文本进行分类.实验证明:该算法能够显著提高交叉类别的文本分类性能,比传统的文本分类器有更好的性能. 相似文献

4.

基于Cross-Validation模型的可扩展标记语言文本分类算法对比研究

罗超郭斌龙侃《井冈山学院学报》2010,31(3)

通过采用Cross-Validation实验模型对多种XML分类算法进行对比,设计了实验平台,给出了各种分类算法的适用场合.本文的分析和数据表明如果有效地将XML中的结构信息以及文本信息结合起来,设计出更加适合XML文本本身的相似度量模型将是未来XML分类研究中的重要研究方向. 相似文献

5.

文本分类实现技术 总被引：9，自引：2，他引：9

王灏黄厚宽田盛丰《广西师范大学学报(自然科学版)》2003,(1)

文本分类是文本数据挖掘的重要技术.从文本分类实现过程的各个环节,包括建立文档模型、特征提取、维数约简、选择分类策略几个方面分别给出了目前实用的解决方案,同时对各种算法进行了分类和性能上的定性与定量的比较,最后讨论了国内文本分类研究中的一些问题和未来的发展. 相似文献

6.

基于核覆盖算法的中文文本分类研究

杨丽玲《吉林师范大学学报(自然科学版)》2014,(4):133-135

文中介绍了使用核覆盖算法进行中文文本分类.研究了采取不同的特征选取方法、利用核覆盖算法进行文本分类的区别.通过实验,除互信息外的其它几种特征选取方法在核覆盖算法分类过程中均取得了较优的实验结果,可看出核覆盖算法在文本分类中是一个不错的方法. 相似文献

7.

基于改进的朴素贝叶斯文本分类研究

安艳辉董五洲游自英《河北省科学院学报》2007,24(1):22-25

文本分类(Text Categorization,TC)指的是把一个自然语言文本,根据其主题归入到预先定义好的类别中的过程.文本分类是自然语言处理的一个基础性工作,也是近年来人们研究的热点话题.针对朴素贝叶斯算法在小样本集分类效果不高的原因进行了分析,对其进行了改进和调整,提出了基于改进的朴素贝叶斯文本分类方法,试验结果表明,该方法取得了更好的效果. 相似文献

8.

基于Na(i)ve Bayes模型的垃圾邮件过滤方法 总被引：1，自引：1，他引：1

魏晓宁朱巧明《南通大学学报(自然科学版)》2008,7(1):54-57

采用信息增益进行特征选择,以改进的朴素贝叶斯分类算法进行邮件分类.利用文本特征估算文本属于两种类型的偏测度,以此构造二维文本空间.将文本映射为二维空间中的一个点,将分类算法看作是在二维空间中寻求一条分割直线,根据文本点到分割直线的距离来判断该邮件为何类邮件. 相似文献

9.

基于Nave Bayes模型的垃圾邮件过滤方法

魏晓宁朱巧明《南通大学学报(自然科学版)》2008,(1)

采用信息增益进行特征选择,以改进的朴素贝叶斯分类算法进行邮件分类.利用文本特征估算文本属于两种类型的偏测度,以此构造二维文本空间.将文本映射为二维空间中的一个点,将分类算法看作是在二维空间中寻求一条分割直线,根据文本点到分割直线的距离来判断该邮件为何类邮件. 相似文献

10.

一种新颖的基于马氏距离的文本分类方法的研究 总被引：1，自引：0，他引：1

张素莉潘欣《长春工程学院学报(自然科学版)》2011,12(2):102-105

KNN(k最近邻算法)是文本挖掘领域最成熟最简单的分类方法之一.该方法对文本分类中的距离参数的选取敏感,错误的选择将导致分类精度降低,影响最终分类效果,该缺陷限制了KNN分类器在文本数据挖掘中的应用.因此,本文将马氏距离引入到文本分类领域,并将其与KNN算法相结合,提出了一种基于马氏距离的新的文本分类方法(Mahala... 相似文献

11.

基于BERT的诉讼案件违法事实要素自动抽取

崔斌邹蕾徐明月《科学技术与工程》2021,21(9):3669-3675

针对诉讼案件违法事实要素抽取效果依赖领域专业知识的特点,提出一种基于transformer双向编码器表示(bidirec-tional encoder representations from transformer,BERT)的诉讼案件违法事实要素自动抽取方法.首先,通过构建领域知识并采用谷歌BERT预训练语言模型进行训练得到拟合诉讼案件领域数据的模型参数和中文预训练字嵌入向量作为模型的输入,得到具有上下文相关的语义表示,以提高词嵌入的上下文语义质量.其次,采用循环卷积神经网络对文本进行编码并获取在文本分类任务中扮演关键角色的信息,提升案件违法事实要素抽取的效果.最后,采用focal函数作为损失函数关注难以区分的样本.违法事实要素抽取的工作是通过对文本标签进行分类得到的.实验测试表明,该方法对诉讼案件要素抽取的F1值为86.41％,相比其他方法性能均有提高.对模型注入领域内知识,也可以提高模型抽取准确率. 相似文献

12.

预训练模型下航天情报实体识别方法

魏明飞潘冀陈志敏梅小华石会鹏《华侨大学学报(自然科学版)》2021,(6):831-837

为了快速处理航天情报,基于数据驱动的深度学习技术,提出融合多源异构知识标注中文航天情报数据集的方法流程,以及基于预训练(pre-training)模型的航天情报实体识别(AIER)方法;通过对航天情报进行命名实体识别,达到对航天情报进行信息抽取的目的.通过融合BERT(bidirectional encoder representation from transformers)预训练模型和条件随机场(CRF)模型构建AIER模型(BERT-CRF模型),将其与隐马尔可夫模型(HMM)、条件随机场(CRF)模型、双向长短期记忆网络加条件随机场(BiLSTM-CRF)模型进行实体识别对比实验.结果表明:基于预训练模型的AIER模型能够取得93.68%的准确率、97.56%的召回率和95.58%的F₁值;相比于其他方法,基于预训练模型方法的性能得到提高. 相似文献

13.

基于STACKING-BERT集成学习的中文短文本分类算法

郑承宇王新王婷尹甜甜邓亚萍《科学技术与工程》2022,22(10):4033-4038

由于word2vec、Glove等静态词向量表示方法存在无法完整表示文本语义等问题,且当前主流神经网络模型在做文本分类问题时,其预测效果往往依赖于具体问题,场景适应性差,泛化能力弱.针对上述问题,提出一种多基模型框架(Stacking-Bert)的中文短文本分类方法.模型采用BERT预训练语言模型进行文本字向量表示,输... 相似文献

14.

基于BERT与法条知识驱动的法条推荐方法

唐光远郭军军余正涛张亚飞高盛祥《山东大学学报(理学版)》2021,56(11):24-30

针对传统法条推荐方法知识利用不足的问题,结合预训练BERT模型,提出了一种基于司法领域法律条文知识驱动的法条推荐方法。首先基于BERT预训练模型对法条知识和案件描述分别进行表征,并基于双向LSTM对案件描述文本进行特征提取,然后基于注意力机制提取融合法条知识的案件描述文本特征,最终实现法条智能推荐。该方法在法研杯公共数据集上,法条推荐F₁值达到0.88,结果表明,融合法条知识的BERT模型对法条推荐具有显著提升作用,并且可以有效地解决易混淆法条推荐问题。相似文献

15.

基于领域BERT模型的服务文本分类方法

下载免费PDF全文

闫云飞孙鹏张杰勇马钰棠赵亮《空军工程大学学报(自然科学版)》2023,24(1):103-111

针对BERT模型领域适应能力较差，无法解决训练数据类别数量不均衡和分类难易不均衡等问题，提出一种基于WBBI模型的服务文本分类方法。首先通过TF-IDF算法提取领域语料中的词汇扩展BERT词表，提升了BERT模型的领域适应性；其次，通过建立的BERT-BiLSTM模型实现服务文本分类；最后，针对数据集的类别数量不均衡和分类难易不均衡问题，在传统焦点损失函数的基础上提出了一种可以根据样本不均衡性特点动态调整的变焦损失函数。为了验证WBBI模型的性能，在互联网获取的真实数据集上进行了大量对比试验，实验结果表明：WBBI模型与通用文本分类模型TextCNN、BiLSTM-attention、RCNN、Transformer相比Macro-F1值分别提高了4.29%、6.59%、5.3%和43%;与基于BERT的文本分类模型BERT-CNN、BERT-DPCNN相比，WBBI模型具有更快的收敛速度和更好的分类效果。相似文献

16.

对抗网络和BERT结合的电商平台评论短文本情感分类

潘梦强黎巎董微黄先开张青川《重庆邮电大学学报(自然科学版)》2022,34(1):147-154

文本情感分类领域性强,传统情感分类方法在多领域混合数据上效果不佳.为了提升多领域混合情境下文本情感分类的准确率,使用双向编码器表征模型(bidirectional encoder representations from transformers,BERT)得到短文本的初级表征;利用对抗网络提取与领域无关的情感特征;利... 相似文献

17.

依据《中国图书馆分类法》的英文图书分类探索

蒋彦廷《北京大学学报(自然科学版)》2023,59(1):11-20

针对带有中图分类号的英文图书数据量小以及类别不平衡的问题,将图情领域的文本增强策略(《美国国会图书馆分类法》到《中国图书馆分类法》的类目映射方法和基于中-英文平行的《汉语主题词表》的语义增强方法)与一般领域文本增强策略(向原始英文文本插入标点或连词)相结合,旨在增强模型泛化能力。实验表明,综合后的策略能有效地提高模型在测试集的表现,正确率和宏F1值分别上升3.61和3.35个百分点,效果优于其他单一的文本增强方法。最后,通过BERT词向量可视化与词语信息熵计算,分析出丰富的邻近词和语法上的连缀功能是插入标点或连词方法有效的原因。相似文献

18.

基于BERT的长文本分类方法

刘博蒲亦非《四川大学学报(自然科学版)》2023,60(2):022003-88

由于预训练模型输入分词数量限制，基于BERT的长文本分类任务效果与长文本分割后的文本段集合的处理及特征融合密切相关，现有的长文本分类研究在融合文本段特征时更关注文本段之间原始的顺序关系，而本文提出了一种基于BERT和集合神经网络的长文本分类模型.该方法以BERT为基础，可处理从同一文本样本分割得到的任意数量文本段，经过BERT后得到文本段特征，再将所有文本段特征输入到具有置换不变性的集合神经网络层中，提取出集合级别特征来优化长文本的特征表达.通过在三个数据上的实验分析，论文在平均分词长度较长的数据集上取得了90.82%的准确率，高出目前最优方法4.37%. 相似文献

19.

基于预训练模型和多视角循环神经网络的电力文本匹配模型

赵伟王文娟甘玉芳《重庆邮电大学学报(自然科学版)》2023,35(3):545-553

针对传统方法未能考虑词向量的动态性及句子间交互不充分等问题,提出基于BERT预训练模型及多视角循环神经网络的文本匹配模型。通过BERT-whitening方法对BERT输出的句向量进行线性变换优化,并利用多视角循环神经网络将两句子不同位置的BERT动态词向量进行双向交互计算;将句向量与词粒度交互向量进行融合后计算结果。实验结果表明,提出的模型相较于对比模型有明显性能提升,实用性良好。相似文献

20.

多注意力机制BERT分类模型及其在电力运维中的应用

下载免费PDF全文

王文娟何晓莲胡峰赵伟钟淘淘《重庆邮电大学学报(自然科学版)》2023,35(1):156-163

为了提高变换网路中双向编码表示(bidirectional encoder representations from transformers,BERT)在文本分类中的应用效果，针对基于BERT的文本分类模型在注意力机制设计中无法关注文本中重点信息的问题，提出了一种基于多注意力机制的BERT分类模型。对BERT模型框架中后四层的每一层输入向量，设计词向量注意力机制，捕捉向量表中每一个词的重要性;对得到的BERT模型框架中后四层，设计层向量注意力机制，将这四层上由自适应权重计算得到的每一层输出向量进行融合，获得最终的BERT模型输出向量，更好地提升模型的特征抽取能力。在公开数据集IMDB和THUCNews上的实验表明，提出的模型相较于其他基线模型性能有明显提升。在电力系统运维项目管理的实际应用中，该模型也取得了比基线模型更好的效果，较好地解决了电力运维规模预测混乱问题。相似文献