首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
一种不需分词的中文文本分类方法   总被引:2,自引:1,他引:1  
提出了一种不需分词的n元语法文本分类方法.与传统文本分类模型相比,该方法在字的级别上利用了n元语法模型,文本分类时无需进行分词,并且避免了可能造成有用信息丢失的特征选择过程.由于字的数量远小于词的数量,所以该分类方法与其它在词级别上的分类方法相比,有效地降低了数据稀疏带来的影响.系统地研究了模型中的关键因素以及它们对分类结果的影响.使用中文TREC提供的数据进行实验,结果表明,综合评价指标Fβ=1达到86.8%.  相似文献   

2.
为提高文本分类的准确性和效率,构建了一种基于Attention的CNN-BiLSTM/BiGRU(简称CBLGA)混联文本分类模型.首先通过并联不同卷积窗口大小的CNN(Convolutional Neural Networks)网络同时提取多种局部特征,之后将数据输入至BiLSTM和BiGRU并联组合模型中,利用BiLSTM和BiGRU组合提取了与文本中的上下文有密切关系的全局特征,最后对两个模型所得到的特征值进行了融合并在其中引入了注意力机制.构建基于Attention的CNN-BiLSTM/CNN(简称CBLCA)混联文本分类模型,特点是将CNN的输出分为两部分,其中一部分输入BiLSTM网络中,另一部分则直接和BiLSTM网络的输出进行融合,既保留了CNN提取的文字序列局部特征,又利用了BiLSTM网络提取出的全局特征.实验表明CBLGA模型和CBLCA模型在准确率和效率方面均实现了有效提升.最后,建立了一套针对不同长度的文本进行相应预处理和后续分类工作的分类的流程,使模型无论面对长文本还是短文本数据,均实现了同时提高文本分类的准确率和效率的目标.  相似文献   

3.
在基于LDA的短文本分类基础上进行改进,提出信息增益结合LDA的短文本分类方法.该方法采用信息增益计算词汇对于文本分类的贡献度,提高"作用词"的权重,过滤掉"非作用词",最后对过滤后的短文本进行LDA主题建模,并采用中心向量法建立文本类别模型.实验证明,该方法随着作用词比例的减少,分类性能有较大的提高.  相似文献   

4.
基于命名实体的Web新闻文本分类方法   总被引:1,自引:0,他引:1  
文章对Web新闻领域的文本自动分类问题进行了研究,提出一种基于新闻实体要素的分类方法;在应用空间向量模型的基础上,充分考虑命名实体对Web新闻文本分类的特殊作用,并进行了实验.实验结果表明,以新闻实体要素为特征的文本分类系统可得到较高的分类精度,该方法具有一定的实用价值.  相似文献   

5.
在基于LDA的短文本分类基础上进行改进,提出信息增益结合LDA的短文本分类方法.该方法采用信息增益计算词汇对于文本分类的贡献度,提高"作用词"的权重,过滤掉"非作用词",最后对过滤后的短文本进行LDA主题建模,并采用中心向量法建立文本类别模型.实验证明,该方法随着作用词比例的减少,分类性能有较大的提高.  相似文献   

6.
研究了基于向量空间模型的自动文本分类方法,提出了位置权和词的位置区分度的概念,给出了一个带有位置信息的词权重计算方法,并给出了基于该方法的文本分类算法.实验结果表明,该方法是有效的,提高了文本分类的精度.  相似文献   

7.
基于词向量空间模型的中文文本分类方法   总被引:4,自引:0,他引:4  
大多文本分类方法是基于向量空间模型的,基于这一模型的文本向量维数较高,导致分类器效率难以提高。针对这一不足,该文提出基于词向量空间模型的文本分类方法。其主要思想是把文本的特征词表示成空间向量,通过训练得到词-类别支持度矩阵,根据待分文本的词和词-类别支持度矩阵计算文本与类别的相似度。实验证明,这一分类方法取得了较高的分类精度和分类效率。  相似文献   

8.
基于领域知识的文本分类   总被引:3,自引:0,他引:3  
提出了一种基于知识的文本分类方法,其中引入领域知识,利用领域特征作为文本特征,增强文本表示能力,将文本分类过程看作集聚计算过程.文本索引过程采用了改进型特征选取和权重计算方法.提出了一种基于互信息的学习算法,从训练语料中自动学习领域特征集聚计算公式.实验结果显示基于领域知识的文本分类技术总体性能优于传统的贝叶斯分类模型,领域知识的应用能够有效改善对相似主题和相反主题的分类性能.  相似文献   

9.
在少数民族语言信息处理领域,由于文本分类标注数据的稀缺,相关研究工作进展缓慢.为了充分利用有限的标注数据,更有效地挖掘出文本之间的关系,本文对藏文提出一种基于预训练模型和图卷积神经网络的长文本分类方法CINO-GCN.首先利用在实验数据集上经过微调的少数民族多语言预训练模型(Chinese Minority Pretrained Language Model, CINO)得到藏文长文本的初始文档向量和藏文音节向量.然后根据整个数据集范围的音节共现关系与音节和文档间的TF-IDF值来对藏文文本图进行建模.最后将文本图和结点特征一同输入至图卷积神经网络(graph convolutional networks, GCN)层,得到的文档表示经过Softmax得到分类结果.将该方法在公开的TNCC藏文新闻文本分类数据集上与当前几种主流的深度学习模型进行了多组对比实验,分类准确率达到73.51%,远优于其他基线模型;同时设计了消融实验验证模型各部分对分类结果的增益.实验结果表明,该文提出的模型能够结合预训练词向量和图神经网络的优势,显著提高藏文文本分类的准确率.  相似文献   

10.
使用JST模型对中文新闻文本进行情感分析,相对于评论文本,新闻文本主观性比较弱,而且大多是长文本,会影响JST模型的分类性能.给出一种抽取情感主题句的方法,将抽取得到的情感主题句结合现有的JST模型对新闻文本的情感倾向进行了分析.实验表明,使用情感主题句进行情感分析,避免了与主题情感无关的句子对分析结果的影响,提高了分类准确率.  相似文献   

11.
对经济模型的同构变换和条件转化的研究   总被引:1,自引:0,他引:1  
首先是对投入产出模型、差分模型和经济计量模型对于状态空间模型的同构变换研究;其次是对AD模型对于ECM模型以及线性规划模型对于动态规划模型的同构变换研究;最后是对AR(P)模型和传递函数模型对于ARMA(P,q)模型以及移动平均模型对于指数平滑模型的条件转化研究。  相似文献   

12.
针对城市产业规划中经济分析模型的复杂化特点,从减少模型库冗余性的角度,提出5条模型库设计原则,区分部件模型与执行模型,以可执行文件为部件模型形式,以数据序列描述执行模型,通过代数式数据化和执行模型数据化,增强了关系数据库的知识表达能力,改善了模型的可读性,并给出了混合型模型库管理系统的逻辑设计.  相似文献   

13.
通过一个生产质量监造系统具体地介绍了面向对象的建模过程,即如何对一个实际系统进行分析,建立对象模型、动态模型及功能模型,然后优化设计。  相似文献   

14.
给出了模型、模型章及模型库管理系统的基本概念,介绍了模型的常用分类,阐述了模型的表示方法,对模型的生成进行了分类及详细的探讨,最后指出了模型系统的发展方向。  相似文献   

15.
本文简述了数学模型的产生与发展指出了数学模型的分类,功能及建构模型的方法。  相似文献   

16.
根据邕江北大码头河段的地形资料和实测河道水文资料,进行糙率分析和室内模型试验研究,各项指标均达到足够精度,为论证北大码头对邕江河段行洪影响提供科学依据。  相似文献   

17.
文章讨论了ARCH模型族的拟合波动性的优缺点,建立ARMA-EGARCH-M模型,简要说明了此模型的优点;以2000年1月11日-2006年3月15日上证综指和深证成指收盘价为样本,对我国沪深股市收益率分布用ARMA-EGARCH-M模型进行拟合分析,结果表明该模型能更有效地拟合我国沪深股市的波动性;最后解释实证结果和分析了我国股市的行为。  相似文献   

18.
综述了原子核结构模型理论的研究与发展,首重介绍了低能有核结构模型--壳层模型,集体运动几何模型,集体运动代数模型的研究思想,方法和适用范围。  相似文献   

19.
研究了网络教育环境的技术构成 ,提出三种网络教育的技术模式 ,即模拟型、数字型和综合型 ,并对其教育传播特性进行横向对比研究 .  相似文献   

20.
计算机医学专家系统是当代计算机科学中人工智能的重要领域之一,而医学专家系统面临的重要问题之一就是对医学诊断系统进行定量的数字描述,建立较为精确的数字诊断系统,进而利用计算机及其智能语言进行处理;本文在这种思想的指导下,对心血管系统中扩张型心肌病、冠心病、心包积液和风心病的鉴别诊断进行了较为精确的数字描述以及数字诊断方法的一个数学模型的建立,为计算机医学专家系统提供了一个心血管方面的算法;最后对该算法进行了五十例的检验,未发现不符者:所以我们充分确信此算法是可靠的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号