首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
基于类别相关性和交叉熵的特征选择方法   总被引:1,自引:0,他引:1  
文本分类首先要解决的一个问题就是特征选择.简单分析了几种经典的特征选择方法,总结了它们的不足,提出了一个类别相关性方法,把交叉熵引入粗糙集并提出了一个基于交叉熵的属性约简算法,把该属性约简算法同类别相关性方法结合起来,提出了一个综合的特征选择方法.该方法首先利用类别相关性方法进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,此特征选择方法效果良好.  相似文献   

2.
为了从海量的信息资源库中快速、准确地进行分类并提取出有用的信息,提出了一种基于粗糙集和KNN混合的Web文本分类模型。利用粗糙集的属性约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征选择过程采用互信息量计算方法,并对该混合算法进行了实验,同时结合传统的KNN方法对该混合算法进行比较,验证该算法的可行性。  相似文献   

3.
提出了一种基于粗糙集(RS)和支持向量机(SVM)的目标对象的性能分类方法,该方法将RS和SVM结合在一起对性能进行分类.在分类之前,首先利用RS对属性进行约简,将约简后的属性作为输入端输入到SVM中进行训练,再用训练好的SVM对测试集进行测试.测试结果表明,该方法分类的精度比较高,速度比较快.  相似文献   

4.
在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间。特征选择是文本分类的一个核心研究课题。提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法。该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明该方法有较好的准确率和召回率。  相似文献   

5.
在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间.特征选择是文本分类的一个核心研究课题.提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法.该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明该方法有较好的准确率和召回率.  相似文献   

6.
为使支持向量机(SVM)更加适用于在线文本分类应用,利用SVM在小训练样本集条件下仍有高泛化能力的特性,结合文本特征向量在特征空间中具有聚类性的特点,提出一种用语义中心集代替原训练样本集作为训练样本和支持向量的SVM语义SVM.文中给出了语义中心集的生成步骤、语义SVM的在线学习算法框架,以及基于SMO算法的在线学习算法的实现.实验结果表明,相对于标准SVM,语义SVM及其在线学习算法不仅在线学习速度和分类速度有数量级提高,而且在分类准确率方面具有一定优势.  相似文献   

7.
为了解决中文电子病历文本分类的高维稀疏性、算法模型收敛速度较慢、分类效果不佳等问题,提出一种基于注意力机制结合CNN-BiLSTM模型的病历文本分类模型。该模型首先使用word2vec工具进行词向量表示,利用多层卷积神经网络(Convolutional Neural Networks, CNN )结构提取病历文本的局部特征,通过拼接操作丰富局部特征表示,再利用双向长短期记忆网络(Bi-directional Long Short-Term Memory, BiLSTM )提取上下文的语义关联信息,获取句子级别的高层特征表达。最后通过Attention机制进行特征加权,降低噪声特征的影响,并输入softmax层进行分类。在多组对比实验的实验结果表明,该模型取得了97.85%的F1值,有效的提升了文本分类的效果。  相似文献   

8.
为了解决分类算法在文本分类时出现特征维度过高和数据稀疏的间题,提出了一种基于卷积神经网络(convolutional neural network,CNN)的文本分类算法,该算法结合卷积神经网络论中的邻接矩阵对文本分类进行动态建模。对文本的词向量进行训练,并且通过分类邻接矩阵得到群的结构和个数分类。在提取出文本抽象特征的基础上用CNN分类器来进行分类。仿真分析表明:该算法在在进行文本分类效果显著。  相似文献   

9.
支持向量机(support vector machine,SVM)分类性能主要受到SVM模型选择(包括核函数的选择和参数的选取)的影响,目前SVM模型参数选择的方法并不能较好地确定模型参数。为此基于Fisher准则提出了SVM参数选择算法。该算法利用样本在特征空间中的类别间的线性可分离性,结合梯度下降算法进行参数寻优,并基于Matlab实现选择算法。实验结果表明参数选择算法既提高了SVM训练性能,又大大减少了训练时间。  相似文献   

10.
针对高速列车走行部滚动轴承故障诊断模型构建时间较长、诊断准确率不高的问题,提出一种基于粗糙集(RS)和最小二乘支持向量机(LSSVM)的方法。该方法利用小波包变换构造能量特征集,使用粗糙集属性约简算法对离散后的能量特征集处理,得到最小约简,将其输入到基于最小二乘支持向量机的故障诊断模型中进行状态识别。测试实例证明了粗糙集属性约简算法不仅保留了能量特征集的重要属性,缩短了后期故障诊断模型构建时间,而且保证了故障诊断的准确率,其模型构建时间为0.071 s,故障诊断准确率为100%。因此,RS和LSSVM相结合是一种优秀的故障诊断方法,可以作为高速列车走行部滚动轴承故障诊断的新思路。  相似文献   

11.
通过构建向量空间模型可以获得表征网页数据的词-文本权重矩阵,然而直接基于此高维矩阵进行分类学习效率较低,为此提出一种结合改进非负矩阵分解的模糊网页文本分类算法.首先,通过迭代的归一化压缩非负矩阵分解将高维的原数据映射到低维语义空间,以降低问题的复杂性.然后,将模糊逻辑引入分类模型,通过特征词与类别的模糊隶属度来生成文本的类别模糊集,以解决确定性矩阵难以判定语义模糊词所属类别的问题.实验结果表明,与其他方法相比,所提出的分类算法具有较高的分类准确度和较好的时间性能.  相似文献   

12.
结合粗糙集的属性约简和神经网络的分类机理,提出了一种混合算法. 首先应用粗糙集理论的属性约简作为预处理器,把冗余的属性从决策表中删去,然后运用神经网络进行分类. 这样可以大大降低向量维数,克服粗糙集对于决策表噪声比较敏感的缺点. 试验结果表明,与朴素贝叶斯、SVM、kNN传统分类方法相比,该方法在保持分类精度的基础上,分类速度有明显的提高,体现出较好的稳定性和容错性,尤其适用于特征向量多且难以分类的文本.  相似文献   

13.
LDA主题模型是一种有效的文本语义信息提取工具,利用在文档层中实现词项的共现,将词项矩阵转化为主题矩阵,得到主题特征;然而在生成文档过程中会蕴含冗余主题。针对LDA主题模型提取主题特征时存在冗余的不足,提出一种基于邻域粗糙集的LDA主题模型约简算法NRS-LDA。利用邻域粗糙集构造主题决策系统,通过预先设定主题个数,计算出每个主题的重要度;根据重要度进行排序,将排序后重要度低的主题删除。将提出的NRS-LDA算法应用于K-means文本聚类问题上并与传统的文本特征提取算法及改进的算法进行比较,结果表明NRS-LDA方法可以得到更高的聚类精度。  相似文献   

14.
基于投影寻踪的kNN文本分类算法的加速策略   总被引:1,自引:1,他引:0  
传统的k近邻(k-nearest neighbors,kNN)文本分类中,由于文本被表示成向量空间模型后维数非常高,且训练文本的数目巨大,kNN分类算法通常被视为是一种虽然有效,但并非高效的文本分类算法。针对传统kNN分类算法效率低下的问题,提出了一种基于投影寻踪思想的kNN分类算法加速策略。基本思想是:通过投影的方法缩减训练集的规模,同时在寻找k近邻过程中对文本进行降维处理,从两方面着手降低算法的计算开销。实验数据表明,优化后的kNN算法比传统kNN算法在时间性能上有较大的提升,同时保证了分类的精度。  相似文献   

15.
设计一种基于AP聚类算法和SVM分类器相融合的新的混合分类器, 使用AP聚类算法优化数据集, 得到了高质量、 小样本的SVM分类器训练集. 实验结果表明: 与传统的SVM分类器相比, 混合分类器具有更高的分类精度; 在心脏病预测上, 该分类器的效果较好.  相似文献   

16.
为解决机械故障小样本模式识别问题,有效地提高分类的准确率,提出了一种基于经验模式分解模糊特征提取的支持向量机混合诊断模型.该模型通过对信号进行经验模式分解,提取信号的本征模式分量并转化为模糊特征向量,对机器故障进行诊断,然后将模糊特征向量输入到多分类的支持向量机中,实现了对机器不同故障类型的识别.将该模型应用于汽轮发电机组的3种工作状态的识别中,测试结果表明,同原有的未经过任何特征提取以及经过小波包模糊特征提取的2种多分类支持向量机方法相比,该模型将分类准确率从原有的53.33%和86.67%提高到100%,有效地改善了分类的准确性.同时,该模型还为汽轮发电机组的故障确诊提供了有力依据.  相似文献   

17.
信息采集技术日益发展导致的高维、大规模数据,给数据挖掘带来了巨大挑战,针对K近邻分类算法在高维数据分类中存在效率低、时间成本高的问题,提出基于权重搜索树改进K近邻(K-nearest neighbor algorithm based on weight search tree,KNN-WST)的高维分类算法,该算法根据特征属性权重的大小,选取部分属性作为结点构建搜索树,通过搜索树将数据集划分为不同的矩阵区域,未知样本需查找搜索树获得最"相似"矩阵区域,仅与矩阵区域中的数据距离度量,从而降低数据规模,以减少时间复杂度.并研究和讨论最适合高维数据距离度量的闵式距离.6个标准高维数据仿真实验表明,KNN-WST算法对比K近邻分类算法、决策树和支持向量机(support vector machine,SVM)算法,分类时间显著减少,同时分类准确率也优于其他算法,具有更好的性能,有望为解决高维数据相关问题提供一定参考.  相似文献   

18.
针对眼底图像训练数据集少的问题,该文采用了无监督的主成分分析网络(principal components analysis networks,PCANet)和有监督的支持向量机(support vector mochine,SVM)相结合的算法,通过对彩色眼底图像视网膜渗出物特征的提取,检测出含渗出的糖尿病性视网膜病变眼底图像和正常眼底图像.在对眼底图像进行渗出物特征提取之前,为了减少对渗出物特征提取的干扰,首先对眼底图像进行图像预处理,包括去除冗余背景、通道分离、直方图均衡化、血管去除和视盘去除.无监督的PCANet不需要进行标签训练,与SVM结合,既节约了训练时间,又在训练数据集较小的情况下实现眼底图像的准确分类.实验结果表明:PCANet和SVM相结合的模型在准确性、灵敏度和特异值3个方面与相关方法比较都具有一定的提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号