首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
黄璐  谷军  李然  李向军 《科技信息》2013,(9):162-162,194
文本分类技术可以有效提高信息资源的可用性和利用率。提出一种基于改进的TF.IDF和支持向量机(SVM)结合进行多类别文本分类的方法。在文本的TF.IDF特征计算中,加入特征词权重,有效加强了重点词汇的特征标引作用。将提取出的文本特征向量送入组合SVM进行多类别文本分类。实验结果表明,本文提出的多类别文本分类方法具有较好的分类效果,为信息资源的充分利用了奠定良好基础。  相似文献   

2.
基于正交投影的BiLSTM-CNN的情感特征抽取方法旨在从文本中获取带权重的中性词向量,得到具有更高区分度的情感特征,为文本情感分类提供有力的技术支持.传统的深度学习模型会忽略关键局部上下文信息中的特殊意义词,导致获取的情感特征不够丰富.针对这一问题,本文提出一种基于正交投影的BiLSTM-CNN情感特征抽取方法.首先,将中性词向量投影到情感极性词的正交空间中,得到加权中性词向量,同时通过CNN深度学习模型抽取文本关键语义;然后,利用BiLSTM-Attention模型和带权重的中性词向量,从提取出的关键语义中学习可增强句子情感的语义特征,使文本在情感分类时更具判别性.实验结果表明本文所提出的情感特征抽取方法可以获取更完整的情感特征,从而显著提高文本情感分类的准确率.  相似文献   

3.
分别利用用户名和微博文本对个人与非个人两种用户类型进行判别,并对不同的特征(例如:字特征、词特征等)进行研究分析;其次,在针对用户名和微博文本的两个分类器的基础上,使用贝叶斯融合方法进行分类器融合,充分利用两种文本分类信息同时进行用户类型判断。实验结果表明此方法可以达到较高的识别准确率,并且分类器融合方法明显优于仅利用用户名或者微博文本的分类方法。  相似文献   

4.
为了解决传统TF-IDF函数由于忽略特征项之间的联系带来的诸多问题,对TF-IDF函数在文本分类中的应用进行了研究.结合信息论相关知识,找出了类间分布度和类内分布度表征特征项之间的潜在关系,进而提出改进的TF-IDF函数用于文本分类.实验表明,改进后的TF-IDF函数是有效可行的,而且较好的弥补了传统方法所丢失的特征项之间的关联信息,提高了文本分类的准确率.  相似文献   

5.
针对不良文本的过滤问题,提出一种基于主题分类的文本过滤方法,通过对文本信息进行向量化,引人文本特征抽取技术,筛选出针对文本内容的最优的特征项集合,利用SVM分类技术,来判断文本的态度和立场,达到内容审查过滤的目的.并利用DSP在硬件上加以实现,实验表明该方法同传统的过滤方法相比具有较高的准确率和召回率,且过滤时间大幅减少.  相似文献   

6.
基于关联规则的中文文本分类算法的改进   总被引:4,自引:1,他引:4  
随着中文电子刊物和Web文档数量的飞速增加,中文文本自动分类工作变得日益重要.将文档视为事务,将关键词视为项,文本预处理时提出特征权重阈值,用构造的分类器对未知文档分类时,采用了CDD(Class Differen-tiate Degree)改进算法,对基于关联规则挖掘的中文文本自动分类方法进行了改进.实验结果表明,该算法能较快地获得可理解的规则并且具有较好的宏平均和微平均值.  相似文献   

7.
魏海平 《科学技术与工程》2012,12(12):3002-3004
随着Internet技术的飞速发展,网页上存在着各种各样、类目繁多的信息,因此网页分类技术就显得越来越有意义。本文使用向量空间模型(VSM)来表示网页文本,提出了一种改进X2的文本特征选择方法,最后通过支持向量机方法进行分类。实验结果表明,相对于传统的X2文本分类统计方法,改进后的特征选择方法的分类效果要好于传统的X2统计方法。  相似文献   

8.
在基于LDA的短文本分类基础上进行改进,提出信息增益结合LDA的短文本分类方法.该方法采用信息增益计算词汇对于文本分类的贡献度,提高"作用词"的权重,过滤掉"非作用词",最后对过滤后的短文本进行LDA主题建模,并采用中心向量法建立文本类别模型.实验证明,该方法随着作用词比例的减少,分类性能有较大的提高.  相似文献   

9.
在基于LDA的短文本分类基础上进行改进,提出信息增益结合LDA的短文本分类方法.该方法采用信息增益计算词汇对于文本分类的贡献度,提高"作用词"的权重,过滤掉"非作用词",最后对过滤后的短文本进行LDA主题建模,并采用中心向量法建立文本类别模型.实验证明,该方法随着作用词比例的减少,分类性能有较大的提高.  相似文献   

10.
提出了一种网络信息文本分类模型的建立方法。根据网络报文的特点,抽取其中关键词作为分类特征词条,并以报文关键词进行词频统计分析建立文本分模型。分别进行了基于最近邻决策和K-邻近决策的分类效果试验研究,结果显示:K-近邻决策的分类效果要优于最近邻决策的分类效果。  相似文献   

11.
基于投影寻踪的kNN文本分类算法的加速策略   总被引:1,自引:1,他引:0  
传统的k近邻(k-nearest neighbors,kNN)文本分类中,由于文本被表示成向量空间模型后维数非常高,且训练文本的数目巨大,kNN分类算法通常被视为是一种虽然有效,但并非高效的文本分类算法。针对传统kNN分类算法效率低下的问题,提出了一种基于投影寻踪思想的kNN分类算法加速策略。基本思想是:通过投影的方法缩减训练集的规模,同时在寻找k近邻过程中对文本进行降维处理,从两方面着手降低算法的计算开销。实验数据表明,优化后的kNN算法比传统kNN算法在时间性能上有较大的提升,同时保证了分类的精度。  相似文献   

12.
为了解决在文本分类中神经网络训练时产生的梯度消失、特征信息丢失以及注意力机制短语维度组合不匹配的问题,提出一种基于密集池化连接和短语注意力机制的文本分类算法.首先,通过密集池化连接中的残差网络部分进行特征提取,可有效缓解梯度消失问题;其次,通过池化层复用重要特征,改善特征信息丢失问题;最后,通过改进常规注意力机制,提出短语注意力机制,可灵活得到不同阶短语之间的联系,解决常规注意力机制短语维度不匹配问题.结果表明,该模型在对比模型中取得了最好的效果,在相同的新闻数据集中准确率可达92.7%,同时还对3个对比模型的收敛性和分类准确性进行分析,可见改进后的模型可以有效缓解梯度消失,并且解决短语维度组合不匹配问题,从而提高了分类准确性.  相似文献   

13.
针对当前电力文本分类方法中因忽视类别标签之间潜在语义关联关系而导致分类性能低效的问题,提出一种基于层次化分类模型的电力文本分类方法.首先,利用采集的电力成果非结构化文档,采用自动化信息提取技术和标注技术,构建电力文本多标签分类训练集,并结合领域知识分析,构建类别标签之间的层次化关系.然后,提出基于类别结构和标签语义混合...  相似文献   

14.
施工组织设计是指导工程建设全过程活动的技术、经济和组织的综合性文件,随着自然语言处理(NLP)等人工智能技术的发展,本文针对施工组织设计文档智慧辅助审查中基础性工作之一-文本分类问题开展研究。为实现施工组织设计文本的自动分类,本文运用Word2vec词嵌入技术对文本进行向量化表示,基于Bi-LSTM捕捉文本上下文序列信息,融入Attention机制,提取文本有效信息,采用softmax激活函数分类。Attention Bi-LSTM在房建数据集上达到了0.97的准确率、召回率以及F1值,整体分类效果在正确率、宏平均、加权平均上均优于其他模型。融入Attention机制的Bi-LSTM文本分类模型通过双向捕获文本的特征并利用Attention机制提取有效信息,达到了联合优化的作用,提高了模型的分类性能。  相似文献   

15.
陈可嘉  刘惠 《科学技术与工程》2021,21(29):12631-12637
针对文本分类中文本数据表示存在稀疏性、维度灾难、语义丢失的问题,提出一种基于单词表示的全局向量(global vectors for word representation, GloVe)模型和隐含狄利克雷分布(latent Dirichlet allocation, LDA)主题模型的文本表示改进方法。利用GloVe模型结合局部信息和全局词语共现的统计信息训练得到文本的稠密词向量,基于LDA主题模型生成文本隐含主题和相应的概率分布,构建文本向量以及基于概率信息的主题向量,并计算两者之间的相似性作为分类器的输入。实验结果表明,相比其他几种文本表示方法,改进方法在精确率、召回率和F_1值上均有所提高,基于GloVe和LDA的文本表示改进方法能有效提升文本分类器的性能。  相似文献   

16.
为了提高模型在文本分类任务中的分类性能,针对图神经网络中存在的过度平滑问题,同时增强模型在处理文本特征与文本表示方面的能力,提出了一种基于多状态图神经网络的文本分类算法(multi-state graph neural network, MSGNN)。多状态图神经网络是利用网络层的多个历史状态信息对图神经网络进行强化,构建合理的文本图结构数据作为模型输入。在缓解网络层过度平滑问题的同时,结合2种改进后的不同类型的图神经网络来增强模型的特征提取与特征聚合能力。利用多头自注意力机制对文本关键词的挖掘与利用能力,从多个文本子空间来生成高质量的文本表示,进而完成文本分类。通过在几个公开的文本分类数据集上进行实验分析,相较于其他神经网络的文本分类算法,该方法取得了较好的分类准确率。  相似文献   

17.
为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法 .该方法通过引入信息熵及修正因子,缓解了数据不平衡对分类准确率及召回率造成的不良影响.实验结果表明:所提出的分类方法在准确率及召回率上与word2vec均值模型相比,分别提高7.3%及10.5%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号