共查询到20条相似文献,搜索用时 78 毫秒
1.
用文本分类的方法找出中文评教信息的情感倾向,使学生主观评价里蕴含的信息得到有效利用,是对现有评教系统的必要补充.采用基于潜在语义分析的方法对文本向量降维,并用支持向量机的分类方法对目标文本进行分类,得到每一条主观评价的情感倾向.分析了特征选择、特征抽取方法、降维维数、词性、训练集合与测试集合样本的比例等几方面对分类的影响,找到了较好的中文评教文本分类模型. 相似文献
2.
张志平 《太原理工大学学报》2010,41(4)
基于中文新闻信息分类体系,探索了中文新闻信息分类与代码的自动分类方法.根据中文新闻信息分类与代码的特点以及初始主题词满足的规则获得分类的初始主题词,利用获得的初始主题词构建中文新闻信息分类与代码体系的特征向量,将文本按该体系进行自动分类,分类结果采用人工抽样分析,一级类目的正确率为72%. 相似文献
3.
文本分类特征选择是文本自动分类中首先要解决的重要问题。主要介绍了11种文本分类特征选择的方法,并选择其中的4种进行实验分析。实验结果说明:好的特征选择,对于提高文本分类的效率和效果至关重要。 相似文献
4.
为方便中文文本分类过程算法研究,阐述中文文本分类的基础技术,提出基于构件的中文文本分类技术研究辅助平台.该平台对大多数分类中使用的算法在中文文本分类中的应用效果进行了研究.实验结果表明: 该平台可以通过计算分类器分类准确率的宏平均值比较分类算法与特征选择算法的性能,可以评估语料库的可用性,能够用于研究中文分词、特征选择、分类算法等中文文本分类技术问题. 相似文献
5.
针对中文文本中不同维度特征所携带的语义信息具有差异性的问题,本文提出一种基于多维度特征融合的中文文本分类模型:CCM-MF (Chinese-text Classification Model Based on Fused Multi-dimensional Features)。该模型融合层次维度和空间维度特征,以提高中文文本分类的准确率。首先,在层次维度上,使用预训练模型ERNIE (Enhanced Representation through Knowledge Integration)获取包含字、词及实体级别特征的词向量;然后,在空间维度上,将包含层次维度特征的词向量分别输入到改进后的深度金字塔卷积神经网络(Deep Pyramid Convolutional Neural Networks,DPCNN)模型及附加注意力机制的双向长短期记忆网络(Attention-Based Bidirectional Long Short-Term Memory Networks,Att-BLSTM)模型中,得到局部语义特征和全局语义特征;最后,将得到的空间维度特征分别作用于Softmax分类器,再对计算结果进行融合并输出分类结果。通过在多个公开数据集上进行实验,较现有主流的文本分类方法,本模型在准确率上有更好的表现,证明了该模型的有效性。 相似文献
6.
基于关联规则的中文文本分类算法的改进 总被引:4,自引:1,他引:4
随着中文电子刊物和Web文档数量的飞速增加,中文文本自动分类工作变得日益重要.将文档视为事务,将关键词视为项,文本预处理时提出特征权重阈值,用构造的分类器对未知文档分类时,采用了CDD(Class Differen-tiate Degree)改进算法,对基于关联规则挖掘的中文文本自动分类方法进行了改进.实验结果表明,该算法能较快地获得可理解的规则并且具有较好的宏平均和微平均值. 相似文献
7.
8.
基于k-近邻方法的渐进式中文文本分类技术 总被引:3,自引:0,他引:3
针对k-近邻方法分类准确率较高、但分类效率较低的特性,提出了一种基于k近邻方法的渐进式中文文本分类技术,利用文本的标题、摘要、关键词、重点段落进行渐进式的分类处理.这样,不用分析全文就能将部分待分类文本成功分类,从而提高了文本分类的效率.实验结果表明,该方法在保证分类准确率的基础上能够有效地提高分类效率. 相似文献
9.
10.
研究了基于概念的中文文本特征表示技术,并提出一个应用于上证指数趋势分析的中文文本2-分类模型。 相似文献
11.
提出了一种基于中文关键字符串核函数的分类算法,并在农业文本上进行了分类性能测试.实验结果表明,与传统的中文分类算法相比,基于中文关键字符串核函数的分类算法准确率更高. 相似文献
12.
基于概率潜在语义分析的中文文本分类研究 总被引:1,自引:0,他引:1
王奕 《甘肃联合大学学报(自然科学版)》2011,25(4):75-78
概率潜在语义模型使用统计的方法描述"文档—潜在语义—词"之间的概率分布关系,其实质是模拟了潜在的概率语义空间,并将文档和词映射到同一个语义空间.该文将概率潜在语义分析模型用于中文文本分类,一方面较好地处理了自然语言中的同义、多义问题;另一方面通过计算概率潜在语义空间中向量的距离来获得文档间的类别信息从而达到文本分类的目的.实验结果表明,该分类器具有良好的分类性能. 相似文献
13.
针对数据挖掘中的文本分类问题,提出了一种基于遗传算法和信息熵的文本分类规则抽取算法Genet-ic-Miner(简称GM),该算法的目标是在数据集中发现分类规则。首先利用信息熵生成初始种群,然后利用优化的遗传算法抽取相应规则。采用六个标准的公共领域的数据集比较了GM与其它两个非常著名的同类算法Ant-Miner和CN2,实验结果表明,无论是预测准确性和规则的简单性,GM都明显优于Ant-Miner和CN2,并且该算法能大大提高对知识的理解力。 相似文献
14.
韩文智 《华侨大学学报(自然科学版)》2016,(1):67-70
针对网络文本信息的安全性判别问题,采取改进的邻近分类算法挖掘文本.该改进邻近分类方法在传统方法定义分类特征的同时,起用共线性判别矩阵,对具有共线属性的特征合并处理.这种改进策略,不仅可以增加分类特征的准确性,也可以加快文本信息的分类进程.对Spambase语料库开展实验研究,从精度、召回率、联判度、误差4个维度对分类效果进行评价.结果显示:改进的邻近分类方法具有明显的优势,可以更加准确地区分安全文本和危险文本. 相似文献
15.
基于OLE DB for DM的文本分类系统的设计与实现 总被引:3,自引:0,他引:3
主要介绍SQL Sever 2000的数据挖掘功能以及OLE DB for DM的数据挖掘模型的创建、训练和预测,最后,实现了基于OLE DB for DM的文本分类系统. 相似文献
16.
一种不需分词的中文文本分类方法 总被引:1,自引:1,他引:1
提出了一种不需分词的n元语法文本分类方法.与传统文本分类模型相比,该方法在字的级别上利用了n元语法模型,文本分类时无需进行分词,并且避免了可能造成有用信息丢失的特征选择过程.由于字的数量远小于词的数量,所以该分类方法与其它在词级别上的分类方法相比,有效地降低了数据稀疏带来的影响.系统地研究了模型中的关键因素以及它们对分类结果的影响.使用中文TREC提供的数据进行实验,结果表明,综合评价指标Fβ=1达到86.8%. 相似文献
17.
文本分类做为Web文本挖掘的重要手段和搜索引擎的重要组成部分而被广泛研究。现有的分类系统大都依赖于中文分词,尽管达到分类目的,但随着Web文档数量的增加和网络新词汇的不断出现,面临着特征维数急遽增高带来的时空开销问题,严重影响了系统的性能。在此抛开中文分词而尝试使用基于关键子串的特征提取并结合最大熵模型给出了一种分类系统的实现。实验表明,与现有的分类系统相比,具有较好的问题求解效率和适应性。 相似文献
18.
在信息检索领域,查全率与查准率是一对相互制约的指标.为了研究文本分类领域查全率和查准率的关系,在此从理论和实验两方面分析查全率及测试集对查准率的影响.理论分析与实验结果一致得出,在文本分类中查全率和查准率是两个一致的指标.另外,在查全率确定的情况下,测试集中各类别文档比例的变化也会导致查准率的变化. 相似文献
19.
杨丽玲 《吉林师范大学学报(自然科学版)》2014,(4):133-135
文中介绍了使用核覆盖算法进行中文文本分类.研究了采取不同的特征选取方法、利用核覆盖算法进行文本分类的区别.通过实验,除互信息外的其它几种特征选取方法在核覆盖算法分类过程中均取得了较优的实验结果,可看出核覆盖算法在文本分类中是一个不错的方法. 相似文献
20.
文本挖掘中的姓名特征具有很强的文本表达能力,本文设计的姓名特征提取算法是利用词与词的上下文关系及中文姓名本身的统计信息对文本中的姓名特征进行提取,通过对样本的测试,表明该项技术能比较准确地提取文本中的姓名特征,基本达到了预期的目标. 相似文献