首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
针对中文新闻主题因缺乏上下文信息而造成语义模糊和用词规范性不高的问题,提出一种基于RoBERTa-RCNN和多头注意力池化机制的新闻主题文本分类方法。利用数据增强技术对部分训练数据进行回译处理,再通过自编码预训练模型和RCNN对文本进行初步和深度的特征提取,并结合多头注意力思想改进最大池化层。该方法采用融合机制,改善了RCNN中最大池化策略单一和无法进行动态优化的缺陷。在三个新闻主题数据集上进行实验,使用更适用于新闻主题分类的Mish函数代替ReLU函数,并利用标签平滑来解决过拟合问题。结果表明,所提方法相比传统分类方法效果突出,并通过消融实验验证了模型在分类任务上的可行性。  相似文献   

2.
针对不良文本的过滤问题,提出一种基于主题分类的文本过滤方法,通过对文本信息进行向量化,引人文本特征抽取技术,筛选出针对文本内容的最优的特征项集合,利用SVM分类技术,来判断文本的态度和立场,达到内容审查过滤的目的.并利用DSP在硬件上加以实现,实验表明该方法同传统的过滤方法相比具有较高的准确率和召回率,且过滤时间大幅减少.  相似文献   

3.
在情感分析研究中,使用Stacking算法进行情感分析时基学习器的选择是至关重要的。传统的Stacking算法仅仅只是将不同学习器结合起来,没有区分它们之间的不同,同时也不能反映初级学习器的实际预测情况,针对此问题,基于熵值法改进Stacking算法进行文本的情感分类。首先,使用熵值法确定单一分类器的性能指标权重,将指标值的权重进行加权求和获得不同模型的综合得分,通过综合得分来选择性能最好的基学习器组合;接着,由于基模型中的各个分类器性能的不同,将基学习器训练后的预测结果赋予不同的权重,输入到次级学习器当中;最后再利用次级学习器进行训练并预测情感倾向。实验结果表明,基于熵值法改进Stacking模型优于传统的Stacking模型,说明基学习器的选择和重要程度对情感分类具有一定帮助,为之后文本情感分析奠定一定的基础。在情感分析研究中,使用Stacking算法进行情感分析时基学习器的选择是至关重要的。传统的Stacking算法仅仅只是将不同学习器结合起来,没有区分它们之间的不同,同时也不能反映初级学习器的实际预测情况,针对此问题,基于熵值法改进Stacking算法进行文本的情感分类。首先,...  相似文献   

4.
基于KNN的主流文本分类策略适合样本容量较大的自动分类,但存在时间复杂度偏高、特征降维和样本剪裁易出现信息丢失等问题,本文提出一种基于特征库投影(FLP)的分类算法。该算法首先将所有训练样本的特征按照一定的权重策略构筑特征库,通过特征库保留所有样本特征信息;然后,通过投影函数,根据待分类样本的特征集合将每个分类的特征库映射为投影样本,通过计算新样本与各分类投影样本的相似度来完成分类。采用复旦大学国际数据库中心自然语言处理小组整理的语料库对所提出的分类算法进行验证,分小量训练文本和大量训练文本2个场景进行测试,并与基于聚类的KNN算法进行对比。实验结果表明:FLP分类算法不会丢失分类特征,分类精确度较高;分类效率与样本规模的增长不直接关联,时间复杂度低。  相似文献   

5.
文中针对大规模Web文本信息的结构与内容特征提出一种高效的Web文本分类方法。该方法主要包含3个模块:(1)针对Web长文本提出一种基于复杂网络的特征选择方法,网络中的节点对应于文本中的词条,通过节点的度与聚集系数来衡量对应词条的重要性从而选择特征词;(2)对于Web长文本,提出基于k NN的SVM决策树分类方法,将支持向量机与k最近邻相结合,并构建决策树实现层次化分类;(3)对于短文本,通过构建长文本各类别的主题词集合来引导短文本的分类,将短文本的归类问题转化为基于主题的检索问题。实验结果表明该方法在处理大规模Web文本时表现出了较好的性能。  相似文献   

6.
基于命名实体的Web新闻文本分类方法   总被引:1,自引:0,他引:1  
文章对Web新闻领域的文本自动分类问题进行了研究,提出一种基于新闻实体要素的分类方法;在应用空间向量模型的基础上,充分考虑命名实体对Web新闻文本分类的特殊作用,并进行了实验.实验结果表明,以新闻实体要素为特征的文本分类系统可得到较高的分类精度,该方法具有一定的实用价值.  相似文献   

7.
在保证分类性能的前提下,如何从大量的训练样本集合中选择重要样本子集,是模式分类中的一个重要问题.基于该问题提出了一种新的样本选择算法,并将该算法应用于文本分类,在标准文档集Reuters-21578、复旦文档集和20newsGroup新闻组文档集上进行了实验.实验结果表明:该方法能有效地选取边界样本,且采用SVM和KNN分类能得到较好的分类结果,尤其是在不均衡文档集上效果更佳.  相似文献   

8.
基于中文新闻信息分类体系,探索了中文新闻信息分类与代码的自动分类方法.根据中文新闻信息分类与代码的特点以及初始主题词满足的规则获得分类的初始主题词,利用获得的初始主题词构建中文新闻信息分类与代码体系的特征向量,将文本按该体系进行自动分类,分类结果采用人工抽样分析,一级类目的正确率为72%.  相似文献   

9.
用文本分类的方法找出中文评教信息的情感倾向,使学生主观评价里蕴含的信息得到有效利用,是对现有评教系统的必要补充.采用基于潜在语义分析的方法对文本向量降维,并用支持向量机的分类方法对目标文本进行分类,得到每一条主观评价的情感倾向.分析了特征选择、特征抽取方法、降维维数、词性、训练集合与测试集合样本的比例等几方面对分类的影响,找到了较好的中文评教文本分类模型.  相似文献   

10.
本研究提出基于妊娠早期体检、基因信息,结合集成学习的妊娠期糖尿病预测分类方法.设计了基于Stacking框架的改进模型ACS-Stacking.ACS-Stacking模型将基分类器输出的类别概率值作为基层输出结果,元层使用GBDT模型学习组合基层输出的类别概率结果,拓展了算法的层次结构.在基分类器层与元分类器层之间加入基分类器筛选层,通过CFS算法估计不同分类器集合中个体分类器准确性与多样性的权衡值,筛选出最佳基分类器集合,实现基分类器的自适应选择.研究结果表明,该模型F1值较单一模型提高约9%,较Stacking模型提高约7%,具有较好的预测准确性和稳定性.  相似文献   

11.
使用基于长短项记忆(LSTM)和门阀递归单元(GRU)计算节点的双向递归神经网络提取文本特征,然后使用softmax对文本特征进行分类。这种基于深度学习的神经网络模型以词向量作为基本输入单元,充分考虑了单词的语义和语法信息,并且在神经网络的计算过程中严格遵守单词之间的顺序,保留原文本中语义组合的方式,可以克服传统文本分类方法的不足。使用本文所提方法在第三届自然语言处理和中文计算会议(NLPCC 2014)公布的新华社新闻分类语料和路透社RCV1-v2语料上进行实验,其分类F1值分别达到了88.3%和50.5%,相较于传统的基线模型有显著的提升。由于该方法不需要人工设计特征,因此具有很好的可移植性。  相似文献   

12.
在深入研究网络信息采集技术的基础上,提出一个基于Web结构的新闻采集模型。该模型加载采集入口地址后,通过信息采集和过滤算法确定新闻列表页,结合正则表达式技术自动识别新闻内容页的链接地址,访问目标新闻内容页,使用采集算法自动提取新闻信息数据。同时,它可以过滤在此页面中嵌入的广告等信息。实践结果表明,该模型工作良好,可以自动化、高效率地采集新闻信息。  相似文献   

13.
通过对油气断块的地质及成本特性和预算方法的研究,以及对构成油气断块的材料费、燃料费、动力费;生产人员工资及福利费;维护及修理费;原油处理费;工区管理费等的差异分析,提出了对油气断块生产运行过程的控制应包括:在总费用控制中,可以采用ABC分类法先进行分类,选出所占总费用比重较大的可控项目进行重点控制,以取得较好的控制效果;在操作成本控制中,对所有油气断块主要单项费用总和的监控,对需要重点监控油气断块的运行监控。  相似文献   

14.
根据Web文档分类与人工神经网络理论,设计了一个Web分类挖掘系统。针对BP网络分类器的不足,提出了用径向基函数神经网络对Web页面中的文本信息进行分类的方法。实验初步证明,用径向基函数进行分类比BP算法构造的神经网络更具准确性,有效地提高了分类的正确率。  相似文献   

15.
为了从海量的信息资源库中快速、准确地进行分类并提取出有用的信息,提出了一种基于粗糙集和KNN混合的Web文本分类模型。利用粗糙集的属性约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征选择过程采用互信息量计算方法,并对该混合算法进行了实验,同时结合传统的KNN方法对该混合算法进行比较,验证该算法的可行性。  相似文献   

16.
现有的电商垃圾评价检测方法大多基于对评价文本信息进行分析,难以有效检测带有图片的多模态垃圾评价,为充分利用评价的图片和文本内容,提出了基于Transformer双向编码表示(bidirectional encoder representa-tions from transformer,BERT)和宽残差网络(wide residual networks,WRN)的图文融合决策检测方法.该方法利用评价文本对经过预训练的BERT模型进行微调训练,经过表示学习分类得到文本评价类别向量,使用宽残差网络对评价图片进行特征提取和分类并输出图片类别向量,将得到的对应评价图文类别向量共同输入启发式决策融合分类器,对多模态评价整体进行预测分类.使用真实电商评价数据集进行实验表明,相比面向评价文本的分类方法,图文融合决策检测方法对多模态评价分类的精准率提高4.44%,召回率提高2.12%,Micro-F1提高3.67%,结果证实该方法能够对多模态垃圾评价进行有效检测.  相似文献   

17.
施工组织设计是指导工程建设全过程活动的技术、经济和组织的综合性文件,随着自然语言处理(NLP)等人工智能技术的发展,本文针对施工组织设计文档智慧辅助审查中基础性工作之一-文本分类问题开展研究。为实现施工组织设计文本的自动分类,本文运用Word2vec词嵌入技术对文本进行向量化表示,基于Bi-LSTM捕捉文本上下文序列信息,融入Attention机制,提取文本有效信息,采用softmax激活函数分类。Attention Bi-LSTM在房建数据集上达到了0.97的准确率、召回率以及F1值,整体分类效果在正确率、宏平均、加权平均上均优于其他模型。融入Attention机制的Bi-LSTM文本分类模型通过双向捕获文本的特征并利用Attention机制提取有效信息,达到了联合优化的作用,提高了模型的分类性能。  相似文献   

18.
为了有效地组织和分析大量WEB信息,本文设计了WEB分类发掘系统。BP网络应用广泛,但也有许多不足之处。因此,提出了用RBFNN(径向基函数神经网络)分类WEB页面信息的方法。分类系统框架主要包括RBF(径向基函数)分类器、评估模型及数据预处理。用Macro-Fi作为分类效果的评估标准,实验结果证实,RBFNN分类器比BPNN分类器更有效、更准确。并且用相同的分类器对不同类进行分类,分析了不同分类精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号