首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 20 毫秒
1.
基于知网语义相似度计算的特征降维方法研究   总被引:9,自引:1,他引:8  
针对文本分类处理中的高维度问题,结合知网语义词典,提出了一种新的特征降维处理方法.通过计算特征词汇之间的语义相似度,将原有特征集分成若干特征词集;同一词集内的特征词语义彼此间相似;而不同词集的特征词彼此间相似度比较小.将同一特征词集内的词汇权重相加,从而突出同义词以及近义词对文本分类的贡献,并可以大大降低文本比较的特征维数.实验结果表明,利用该方法在文本分类中得到了较好的分类准确率和分类性能.  相似文献   

2.
基于语义相似度的文本表示降维方法   总被引:2,自引:1,他引:1  
数据降维是文本表示中不可或缺的一个环节,有效的数据降维方法不仅能够减少计算量,同时有助于文本处理精度的提高.不同于传统的利用统计信息进行降维的方法,本文提出了一种基于词汇的语义相似度的文本表示的降维方法,该方法结合自然语言处理的知识,在降维环节考虑了特征词的语义信息和词性信息.实验结果表明:该方法能够有效地降低文本表示的维数,并在降维后的空间获得较高的文本处理精度,基于语义相似度的降维方法是一种适合文本处理的降维方法.  相似文献   

3.
针对人脸识别中传统的Gabor小波方法存在特征维数高、识别时间长、存储开销大的缺点,提出了一种结合奇异值分解和Gabor小波的改进方法.首先通过Gabor小波变换对人脸图像滤波得到特征图像,然后对训练集的特征图像进行奇异值分解获取基空间,将人脸图像投影到统一的基空间提取奇异值特征,再选择一定数量的奇异值构成人脸鉴别矢量,最后采用最近邻分类器进行识别.在ORL人脸库上的实验结果表明,该方法在识别性能上优于单一的Gabor小波方法.  相似文献   

4.
采用类别相似度聚合的关联文本分类方法   总被引:1,自引:0,他引:1  
针对基于关联规则的分类方法在分类时仅考虑规则的置信度并使用规则修剪技术,导致分类器的分类精度难以进一步提高的问题,提出了一种基于类别相似度聚合的关联文本分类方法.该方法采用修改的χ2统计技术提取各类别的特征词;为保证规则匹配的精度和速度,使用CR-tree存储分类规则,并给出了CR-tree的构建与匹配算法;采用向量内积来计算文本类别分量与类别标志向量的相似度,进而使用规则置信度和类别相似度的聚合值作为文本分类的依据.基于实际网络文本的实验表明,该方法仅需提取30个特征词,分类结果的微平均值即可达到92.42%,优于未经剪枝的ARC-BC分类器及KNN、Bayes分类器;在分类耗时方面,该方法与未经剪枝的ARC-BC分类器持平,表明该方法引入的相似度与聚合值的计算开销在可接受的范围内.  相似文献   

5.
指出基于TfIdf的常用文本特征提取方法在文本分类问题中的缺陷,进而提出使用特征词的分布状态、词频和文本频三者相结合的方式提取文本特征的观点,给出了计算特征词权重的新方法,提出了新的文本分类方法. 试验表明,该方法能够最大限度保留文本的特征,并且可有效避免向量空间模型中的维数灾难问题,能应用于大规模文本分类.  相似文献   

6.
针对自然语言处理的文本情感分类问题,提出一种基于集成学习的文本情感分类方法;基于微博数据的特殊性,首先对微博数据进行分词等预处理,结合词频-逆文档频率(TF-IDF)和奇异值分解(SVD)方法进行特征提取和降维,再通过堆叠泛化(stacking)集成学习的方式进行分类模型融合。结果表明,模型融合对文本情感分析的准确率达到93%,可以有效地判别微博文本的情感极性。  相似文献   

7.
一种改进的朴素贝叶斯文本分类方法   总被引:1,自引:0,他引:1  
针对网络中所存在的大量以网页等非结构化形式存在的文本资源,提出一种改进的朴素贝叶斯分类方法.首先,通过卡方检验方法求文档特征并对文档降维,提高特征词区分性信息;然后,以文本特征来代替原始词条进行朴素贝叶斯对类.实验表明,该方法不仅理论上易于建立和更新,而且分类的精确率也得到提高.  相似文献   

8.
针对人脸识别中经常遇到的"小样本"和"过学习"等问题,同时为了进一步改善人脸图像的奇异值特征在人脸识别中的识别性能,提出了一种基于奇异值分解和支持向量机的人脸识别新方法.在特征提取阶段,首先对训练样本集中的每一个人脸图像矩阵进行奇异值分解,得到训练样本的奇异值特征,然后对每个样本的奇异值特征向量进行降维、归一化、奇异值向量的分量重新排列等处理.在识别阶段,运用支持向量机作为分类工具,为了提高分类能力,选取径向基函数作为支持向量机的核函数.最后在ORL人脸数据库上验证了该方法.实验结果表明,通过对奇异值特征的相关处理,提高了识别速度和正确识别率.从而证明了所提出方法的有效性,具有一定的应用价值.  相似文献   

9.
摘要:针对以往降维处理方法在小样本条件下受到矩阵奇异化的限制,从而无法进行有效的奇异值分解以及逆变换的缺陷,提出了一种自动对变换矩阵添加扰动量,从而保证奇异值分解和逆变换顺利进行的算法。首先,定义了线性变换矩阵的构成模式,利用线性投影变换将样本点投影到null空间和幅度空间,然后在压缩后的幅度空间对变换矩阵自动添加扰动量,然后在此基础上进行奇异值分解和逆变换,从而计算得到最终的从高维空间到低维空间的线性变换矩阵。本方法无需认为设定扰动量,能自动实现投影变换的计算。能广泛使用在高维特征空间的降维处理,尤其是少样本条件下的高维特征空间降维处理中。  相似文献   

10.
提出以能量谱中的截断频率之倒数作为相空间重构过程中的窗长,在窗长固定情况下,利用奇异值分解算法确定嵌入维数和时间延迟两个参数,克服了不考虑窗长单独选择嵌入维数和时间延迟造成的相关维数收敛性差的缺点,大大提高了计算效率。采用迭代奇异值分解算法对含噪声的信号进行降噪,降低了噪声对相关维数计算结果的影响,从而提高了计算结果的可靠性。  相似文献   

11.
本文主要介绍矩阵论中的矩阵分解在计算机人工智能中的降维中的应用.从矩阵的奇异值分解和张量的高阶奇异值分解两个方面,结合张量子空间分析(TSA)和张量邻域保持嵌入(TNPE)两个算法,研究矩阵分解理论与降维的结合及应用原理.  相似文献   

12.
针对无线传感器网络中通信数据的高维、高冗余现象,基于高维空间往往可以由其低维来本质表示这一特性,提出一种基于广义逆非负矩阵分解的无线传感器网络节能通信(giNMF)算法.首先,采用奇异值分解方法对原始通信数据矩阵进行初始化操作,求出其对应的特征空间;然后,采用非负矩阵分解方法对奇异值分解后的矩阵进行降维操作,利用乘法更新法快速求解出最终降维结果.仿真实验结果表明:giNMF算法能够对通信数据进行有效压缩,从而降低通信能耗,延长网络生命周期,达到节能的目的.  相似文献   

13.
针对中文网页文本分类中特征降维方法和传统信息增益方法的缺陷和不足做出优化改进,旨在有效提高文本分类效率和精度.首先,采取词性过滤和同义词归并处理对特征项进行初次特征降维,然后提出改进的信息增益方法对特征项进行特征加权运算,最后采用支持向量机(SVM)分类算法对中文网页进行文本分类.理论分析和实验结果都表明本方法比传统方法具有更好的性能和分类效果.  相似文献   

14.
提出一种新的基于奇异值分解的地震动合成方法.该方法在合成多点地震动时采用复功率谱矩阵的奇异值分解,将复功率谱矩阵分解为一个埃尔米特矩阵与其共轭转置矩阵的乘积.该埃尔米特矩阵及其共轭转置矩阵分别由低阶的左、右特征值矩阵及奇异值平方根组成的矩阵近似表示,这一过程极大地降低了复功率谱矩阵的分解难度.算例验证表明:奇异值分解法既能避免科列斯基分解法及特征正交分解法中不合理元素的出现,又可通过分解矩阵的降维节省大量的存储空间,在保证精度的前提下提高合成效率.地震动合成实例计算分析表明使用该方法可快速高效地生成大量模拟点处的地震动时程.  相似文献   

15.
提出一种基于相似融合的文本特征降维方法.首先求出不同聚类结果中每个簇的对应关系,然后计算这几个聚类结果对应簇的交集,对求交集后剩余的特征使用一种改进的互信息方法进行二次聚类,在最大限度减少信息损失的前提下实现了文本特征的有效降维.对文本的分类实验结果表明,该方法具有良好的降维效果,并且提高了聚类的效率.  相似文献   

16.
文中提出了一种结合非负矩阵分解和Normal_Matrix谱分解技术的肿瘤基因分类方法.其分类过程首先是利用fdr_test记分准则粗略除去噪声基因以实现基因表达谱数据的初步降维,进而运用非负矩阵分解萃取基因间的综合属性,通过综合属性构造样本间的Normal_Matrix并对其进行奇异值分解获取表征样本类别属性的谱分量实现肿瘤类型的分类识别.采用三组具有代表性的肿瘤基因表达谱数据进行实验,通过与其他方法的对比,其结果证明了文中方法的可行性和有效性.  相似文献   

17.
针对分块PCA算法对位移、旋转等几何变化比较敏感的缺点,提出一种基于分块PCA和奇异值分解相结合的人脸识别算法。该算法分别提取分块子图像的PCA特征和奇异值特征,在此基础上得到同时包含分块PCA和奇异值信息的距离测度,利用最小距离分类器进行分类识别。在ORL人脸库上的实验结果表明,该方法能够得到较高的识别率。  相似文献   

18.
基于投影寻踪的kNN文本分类算法的加速策略   总被引:1,自引:1,他引:0  
传统的k近邻(k-nearest neighbors,kNN)文本分类中,由于文本被表示成向量空间模型后维数非常高,且训练文本的数目巨大,kNN分类算法通常被视为是一种虽然有效,但并非高效的文本分类算法。针对传统kNN分类算法效率低下的问题,提出了一种基于投影寻踪思想的kNN分类算法加速策略。基本思想是:通过投影的方法缩减训练集的规模,同时在寻找k近邻过程中对文本进行降维处理,从两方面着手降低算法的计算开销。实验数据表明,优化后的kNN算法比传统kNN算法在时间性能上有较大的提升,同时保证了分类的精度。  相似文献   

19.
针对近邻传播算法无法有效处理高维数据而导致聚类效果不佳的问题, 提出一种基于奇异值分解的自适应近邻传播(SVD-SAP)聚类算法. 通过引入奇异值分解, 对高维数据进行重构、 降维, 消除冗余信息, 并在此基础上采用非线性函数策略, 自适应地调整阻尼系数, 提高算法的聚类性能. 仿真实验结果表明, 与已有算法相比, 该改进算法聚类精度更高, 收敛速度更快.  相似文献   

20.
Web文本聚类是一种典型的无指导机器学习技术,目标是将站点上采集到的Web文本分成若干簇,使同一簇内的文本相似性最大,不同簇间的文本相似性最小.为了对原始粗糙的Web文本数据进行降维处理,在知识属性值的基础上,计算单个属性相对于属性集的重要性量化值,并根据属性重要性量化值对特征向量降维,并采用K-means算法对降维后的数据聚类,实验证明该方法缩短了聚类时间.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号