首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 875 毫秒
1.
在基于LDA的短文本分类基础上进行改进,提出信息增益结合LDA的短文本分类方法.该方法采用信息增益计算词汇对于文本分类的贡献度,提高"作用词"的权重,过滤掉"非作用词",最后对过滤后的短文本进行LDA主题建模,并采用中心向量法建立文本类别模型.实验证明,该方法随着作用词比例的减少,分类性能有较大的提高.  相似文献   

2.
在基于LDA的短文本分类基础上进行改进,提出信息增益结合LDA的短文本分类方法.该方法采用信息增益计算词汇对于文本分类的贡献度,提高"作用词"的权重,过滤掉"非作用词",最后对过滤后的短文本进行LDA主题建模,并采用中心向量法建立文本类别模型.实验证明,该方法随着作用词比例的减少,分类性能有较大的提高.  相似文献   

3.
通过建立模型对电商企业的客户查询信息进行文本分类分析,帮助企业掌握用户的消费习惯,同时帮助用户及时找到需要的商品.本文首先获取客户查询数据并对该文本数据进行预处理,利用改进的TF-IDF方法获得文本特征向量,最后结合朴素贝叶斯文本分类及半监督的EM迭代算法建立分类模型,并应用各种标准对模型进行评估,验证模型的有效性.多类别文本集选取文本特征时,关键词权值容易产生波动,本研究改进关键词权值计算公式来改善分类结果.实验结果表明分类器具有良好的分类效果.  相似文献   

4.
建筑业施工安全隐患排查与治理不断向数字化和智能化转型,但目前对大规模且高维的安全隐患数据的高效解析仍然不够充分。该研究通过对施工现场安全隐患记录数据进行隐患特征提取和降维,构建隐患特征网络,并提出基于数据驱动的隐患预警策略。首先,通过文本挖掘技术对施工安全隐患记录进行标准化,提取出111个安全隐患特征,并对隐患特征进行层次聚类,形成11个隐患特征群;其次,通过相关性检验确定隐患特征之间的关联,进而计算出隐患特征关联强度,构建了安全隐患特征网络;进而,基于网络结构指标和个体指标分析,结合特征群聚类分析,辨识了关键安全隐患特征;最后,提出一种基于特征数据驱动的安全隐患预警策略,为更加高效地进行安全隐患排查治理、提升安全生产水平提供了参考。  相似文献   

5.
研究了基于向量空间模型的自动文本分类方法,提出了位置权和词的位置区分度的概念,给出了一个带有位置信息的词权重计算方法,并给出了基于该方法的文本分类算法.实验结果表明,该方法是有效的,提高了文本分类的精度.  相似文献   

6.
为了提高农村公路交通安全隐患排查的工作效率,强化隐患排查绩效评估考核效果,对农村公路交通安全隐患排查绩效评估进行了研究。首先,通过文献梳理构建了兼顾隐患排查和隐患治理的两阶段式农村公路交通安全隐患排查模式,并对农村公路交通安全隐患排查项目和排查标准进行了研究。随后,从隐患排查失效率、隐患重复发生率、隐患治理率、隐患上报率和事故发生数量5个方面,建立了农村公路交通安全隐患排查绩效评估的指标体系。最后,结合层次分析法(AHP)和德尔菲法构建了农村公路交通安全隐患排查绩效评估模型,并以某县为实际案例,结合其农村公路交通安全隐患排查统计数据,对该模型进行了验证。结果表明:通过使用所构建的农村公路交通安全隐患排查模式和绩效评估模型,可实现对农村公路交通安全隐患排查效果的量化评估,能够为管理部门提供决策支持。  相似文献   

7.
为充分做好露天煤矿安全生产隐患排查治理工作,有效减少并避免露天煤矿的安全生产事故,本文对露天煤矿安全生产隐患进行了分级、分类,以及确定了露天煤矿安全生产隐患排查治理的范围和内容;在统计分析32所露天煤矿的安全生产标准化中隐患排查治理数据的基础上,同时利用词云可视化技术,分析并找出了目前申请一级标准化达标的露天煤矿整体存在的不足,提出了改进的方向,以期能够有效地指导露天煤矿企业,落实好安全生产隐患排查治理标准化,进而保障露天煤矿的安全生产。  相似文献   

8.
对互联网海量短文本进行分类挖掘是网络内容安全的一种主要方法。然而,短文本固有的关键词特征稀疏和样本高度不均衡等特点,使得难以直接使用现有针对常规文本的分类算法。为此,使用逻辑运算数学模型和统计方法等对互联网海量短文本进行规则建模,并对互联网海量短文本的样本进行分析后建立一系列分类规则,然后与基于KNN+SVM混合模型进行测试比较。测试结果表明,针对互联网海量短文本,基于规则的分类模型更适用于互联网海量短文本的分类挖掘,同时该模型已经成功应用在上百个项目上,应用效果较好。  相似文献   

9.
目前网络上存在着海量的农业信息,但是对于广大农民来说信息得不到有效的利用,迫切需要对信息进行集成推荐.针对网络上的农业种植方面的文本信息进行了深入研究,该系统首先利用爬虫技术自动地爬取海量农业种植信息,经清洗整理后构建数据集语料库.其次利用机器学习中KNN方法找到每个样本的k近邻对文章进行聚类,通过TF-IDF方法提取出关键词并构造词频矩阵,然后从文本中构建特征向量,进而对相似文档进行分类,最后将加权值经排序后的结果推荐给用户.该系统实现了对农业文本进行准确的自动分类以及自动提取出文章摘要,并对相似文章进行推荐展示的效果.  相似文献   

10.
潜在语义索引作为一种公认有效的矩阵降维技术,在关键词检索、文本分类等多种基于统计的机器文本学习任务中被广泛应用.基于专业文献的文本分类任务,结合严格分类体系下同类与不同类文本的特点,以专利文献分类为例,提出了一种基于类别信息优化的潜在语义分析分类技术.该方法根据分类文本各类别的特征信息,将原始文档分解为多种伪文档,强化不同分类的专属特征出现频率,进而优化构建潜在语义空间,提升模型分类性能.实验结果证明,专利文本分类任务结合该方法时,可以有效地提高分类的准确性.  相似文献   

11.
研究结合社交媒体特点,充分考虑标签文本和内容文本信息,融合了传统的LDA话题模型对社交文本信息进行话题聚类,从而实现了对社交数据的话题发现,与此同时,文章提出了基于关键词图模型构建话题特征,并结合支持向量机模型进行文本情感极性判别。研究在开放微博数据集和COAE2014公开评测数据上进行了相关实验,实验证明了有效的关键词图模型能进一步克服中文语义的模糊性和歧义性。  相似文献   

12.
为了提高模型在文本分类任务中的分类性能,针对图神经网络中存在的过度平滑问题,同时增强模型在处理文本特征与文本表示方面的能力,提出了一种基于多状态图神经网络的文本分类算法(multi-state graph neural network, MSGNN)。多状态图神经网络是利用网络层的多个历史状态信息对图神经网络进行强化,构建合理的文本图结构数据作为模型输入。在缓解网络层过度平滑问题的同时,结合2种改进后的不同类型的图神经网络来增强模型的特征提取与特征聚合能力。利用多头自注意力机制对文本关键词的挖掘与利用能力,从多个文本子空间来生成高质量的文本表示,进而完成文本分类。通过在几个公开的文本分类数据集上进行实验分析,相较于其他神经网络的文本分类算法,该方法取得了较好的分类准确率。  相似文献   

13.
随着人口增速放缓,建筑行业的目标正逐渐由追求高周转率向追求高品质过渡。在项目交付和维保过程中,客户的维保诉求体现其关心的痛点和项目建设过程中的不足。因此,通过有效挖掘维保文本价值可在施工过程中加强针对性的监管,帮助公司交付客户满意的产品。由于客户并不具备专业的工程背景,其上报的维保投诉多为充斥着大量无关信息的短文本,传统方法依靠客服人员根据损坏原因人工分类数据,工作量大且效率较低下。采用词频-逆文档频率(TD-IDF)和具有噪声的基于密度的聚类方法(DBSCAN)构建一种基于关键词的文本粗分类器,将文本聚类为带有清晰标签的已分类文本和无法有效分类的噪声;通过已分类文本微调预训练语言表征模型(BERT)构建文本细分类器,完成无法分类噪声的再分类。以上海某项目交付及日常使用过程中的720条无标签客诉文本进行验证,结果表明,粗分类器可将44.03%的文本有效划分为6类,细分类器可将83.75%的文本完成有效分类。  相似文献   

14.
为有效提升安全管理效率,针对企业排查隐患分析工作量大的现状,研发了安全隐患排查与治理系统。建立一体化和标准化的统一平台系统,通过隐患排查、数据上传、查询、统计分析、危险预警等信息分析功能,从而实现对企业以及子公司生产安全的动态监管,为企业的安全管理长效机制建设提供技术支持,实现生产事故风险的预测预警。  相似文献   

15.
张杨帆  丁锰 《科学技术与工程》2022,22(29):12945-12953
利用文本分析技术可以帮助民警快速地准确地提取电子数据,使用预训练语言模型进行下游任务能够有效减轻过拟合,在使用微调BERT进行文本分类的时候一般将[CLS]位对应的隐含层表示作为句向量输入到全连接层中进行分类,这会产生一部分语义信息的丢失从而导致分类准确率的下降。针对这一问题,提出在BERT后接一个语义特征提取器以充分利用高层的语义信息,使用不同大小的二维卷积核对BERT输出的隐藏状态进行卷积,然后用共享权重的Squeeze-and-Excitation模块对通道进行加权,通过最大池化层后连结起来,最后输入到全连接层进行分类。在自建的涉案对话文本数据集和公开数据集THUCNews上进行测试,结果表明,与BERT基线模型和其他分类模型相比,改进后的微调BERT模型具有更好的分类效果。  相似文献   

16.
基于循环结构的卷积神经网络文本分类方法   总被引:1,自引:0,他引:1  
现有卷积神经网络在文本分类性能上受到词向量窗口长度的影响,在研究卷积神经网络分类方法的基础上,提出一种基于循环结构的神经网络文本分类方法,该方法对文本进行单次正向及反向扫描,能够在学习单词表示时尽可能地捕获上下文信息,整体算法时间复杂度为O(n),是线性复杂度;该方法构建文本语义模型可以捕获长距离的依赖关系,使得词向量窗口长度对文本分类性能没有影响,对上下文更有效地建模。实验结果表明,该方法构建文本语义模型的准确率达到96.86%,召回率达到96.15%,F1值达到96.5%,性能优于传统文本分类算法和卷积神经网络方法。  相似文献   

17.
文本信息中存在的模糊性和不确定性在很大程度上影响文本情感观点的准确判定.为了提高文本情感分类准确率,提出基于混合特征云模型和支持向量机的多级文本情感分类算法.首先,将文本的TF-IDF权重特征和词性特征相结合,采用信息增益法选取特征的同时对特征降维;然后,在文档混合特征向量集上生成云向量模型,依据模型间的相似度筛选出相似度较大的R个文档,作为支持向量机的输入.实验结果表明,该算法具有良好的分类准确率,且系统的训练速度有显著的提高.  相似文献   

18.
针对市民热线多为短文本和特征稀疏的特点。提出了一种短文本扩展法和基于双通道特征融合的文本分类(BERT-BiGRU-TextCNN,BGTC)模型,实现了对市民热线文本的自动识别与归类。首先使用TF-IWF模型以及LDA主题模型构建核心词库;然后利用Word2Vec计算词语相似度,完成对短文本内容和词向量特征的扩展;最终通过融合BERT-TextCNN和BERT-BiGRU-Attention两个通道特征信息的BGTC模型实现了对扩展后文本的分类。经过多组对比实验,结果表明该方法在市民热线文本分类任务中具有更好的性能,准确率和F1值分别达到了85.6%和85.8%。  相似文献   

19.
为了从海量的信息资源库中快速、准确地进行分类并提取出有用的信息,提出了一种基于粗糙集和KNN混合的Web文本分类模型。利用粗糙集的属性约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征选择过程采用互信息量计算方法,并对该混合算法进行了实验,同时结合传统的KNN方法对该混合算法进行比较,验证该算法的可行性。  相似文献   

20.
本研究以双重预防机制的组成部分即风险分级管控与隐患排查治理为研究对象,依据2017年~2018年期间内蒙古、山西、四川、山东的99处煤矿企业数据进行安全生产标准化评审的结果,利用软件SPSS24.0对对风险分级管控与隐患排查治理之间进行定量分析,并构建一元线性回归方程。结果表明,风险分级管控与隐患排查治理之间存在正向相关关系,即风险分级管控水平越高,隐患排查治理结果就越好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号