首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
针对传统文本特征选择算法没有考虑特征的语义及特征与类别之间关系的问题,提出了一种结合语义和分类贡献的特征选择算法.利用LDA主题模型获取文本和词的表示,通过计算词与文本之间的语义相似度,获取词对文本的重要性.再利用Word2vec词向量模型获取文本类别特征,通过计算文本中的词与文本类别特征之间的语义相似度,获取词对类别的重要性,最后结合词对文本的重要性和词对类别的重要性选择分类贡献度高的词作为最终的分类特征.实验表明,该算法能够有效地降低文本特征数量,减少分类计算开销,降低噪声对分类的影响,提升分类效果.  相似文献   

2.
针对文本分类中的交叉类别问题,提出一种基于传统潜在语义分析方法的新算法NLSA(new latentsemantic analysis)对网页进行文本分类.该方法可以将相关但是不同类别中的标签和非标签数据统一在一个概率模型中,通过研究两个类别的共有主题,在不同类别中转换知识来帮助目标文本进行分类.该方法可以最大化利用原有标签数据对新文本进行分类.实验证明:该算法能够显著提高交叉类别的文本分类性能,比传统的文本分类器有更好的性能.  相似文献   

3.
为了利用样本的局部结构信息与少量标记样本的类别信息,提出了一种基于局部学习的受限非负矩阵分解算法,并应用于数据表示.为了考虑样本的局部结构信息,通过每个样本邻域构建出的分类器对样本的类别进行预测;同时,还将样本中存在的类别信息作为硬约束,使得相同类别的高维样本在低维表示空间保持一致.算法不仅利用了样本的几何流形结构信息与鉴别结构信息,还考虑了标记样本的类别信息,因此比传统的非负矩阵算法具有更强的鉴别性.在20Newsgroups文本库和ORL人脸库中的实验结果表明了算法能提高分解准确率和归一化互信息.  相似文献   

4.
为了降低乘性迭代算法在求解非负Tucker分解时的计算复杂度,该文在乘性迭代的基础上,提出了一种随机方差缩减乘性更新方法.该方法先将待分解的非负张量n-模式矩阵化,再运用随机方差缩减乘性更新算法对矩阵进行非负分解,得到模式矩阵,最后通过梯度下降思想来更新核心张量.对高维数据进行非负Tucker分解时,加快收敛速度且降低...  相似文献   

5.
潜在语义索引作为一种公认有效的矩阵降维技术,在关键词检索、文本分类等多种基于统计的机器文本学习任务中被广泛应用.基于专业文献的文本分类任务,结合严格分类体系下同类与不同类文本的特点,以专利文献分类为例,提出了一种基于类别信息优化的潜在语义分析分类技术.该方法根据分类文本各类别的特征信息,将原始文档分解为多种伪文档,强化不同分类的专属特征出现频率,进而优化构建潜在语义空间,提升模型分类性能.实验结果证明,专利文本分类任务结合该方法时,可以有效地提高分类的准确性.  相似文献   

6.
基于非负矩阵分解的隐含语义图像检索   总被引:1,自引:0,他引:1  
提出了一种基于非负矩阵分解(Non-negative Matrix Factorization,NMF)的隐含语义索引(Latent Semantic Indexing,LSI)模型用于图像检索.应用NMF训练算法构造了一个语义空间,将查询图像和原型图像都投影到该空间以获得语义特征,在此空间中进行相似性的度量并将距离最近的图像返回给用户.与已有两种检索模型的实验结果对比表明,所提出模型是有效的.  相似文献   

7.
通过对全局模型和局部模型的分析,提出一种新的潜在语义索引差异模型,能将类别信息反应在词项中、以医学网页为实验对象,将网页中的文本抽取出来并分别用全局模型和差异模型表示,采用SVD和SLSI降维,利用SVM算法进行分类并计算分类正确率和F1指标.实验发现:采用差异模型表示时,2种降维技术下分类正确率和F1指标较全局模型都有明显提高;同时采用差异模型和SLSI算法并不能对分类结果有更大改善  相似文献   

8.
基于概率潜在语义分析的中文文本分类研究   总被引:1,自引:0,他引:1  
概率潜在语义模型使用统计的方法描述"文档—潜在语义—词"之间的概率分布关系,其实质是模拟了潜在的概率语义空间,并将文档和词映射到同一个语义空间.该文将概率潜在语义分析模型用于中文文本分类,一方面较好地处理了自然语言中的同义、多义问题;另一方面通过计算概率潜在语义空间中向量的距离来获得文档间的类别信息从而达到文本分类的目的.实验结果表明,该分类器具有良好的分类性能.  相似文献   

9.
提出一种基于句子相关度的文本自动分类模型(TCSC).该模型利用训练样本增量式地自动更新类别语料库,根据句子的位置权值和语料权值计算句子类别相关度,获得用于文本分类的句子相关度矩阵,通过该矩阵实现文档分类.该模型避免了分类阶段待分类文本特别是中文文本的分词,模糊了词的多义问题,且在文本分类的实验中能够达到86%以上的查全率和查准率;随着语料库的不断训练和调整,分类性能还可以进一步提高,具有简单实现的特点.  相似文献   

10.
提出了一种非负矩阵分解的快速稀疏算法,该算法有利于处理高维小样本数据.在非负矩阵分解的过程中,通过代数变换,将原高维n×m阶的非负矩阵分解转化成低维m×m阶非负矩阵分解,大大提高了分解速度.在目标函数中加入了约束稀松度的项,通过控制稀松度,提高分解得到的潜在语义信息,改进文档集的话题划分,并能快速提取主题相关的语句生成文摘.  相似文献   

11.
胡婧  刘伟  马凯 《科学技术与工程》2019,19(33):296-301
为了探讨中文病历文本预处理后高维稀疏性的特点,导致文本分类精度低、算法模型收敛速度慢等性能问题,提出一种基于粗糙集的词袋(BOW)模型结合支持向量机(SVM)的文本分类算法(BOW+SVM)。该算法首先采用BOW模型对特征词提取构建高维度文本空间向量,然后利用粗糙集的属性约简算法对文本特征处理,把模糊的、冗余的属性从决策规则中清除,降低空间向量维数,最后利用所提纯的特征与SVM分类器交叉结合进行文本分类。在Python+TensorFlow环境中设计六种交叉结合的算法仿真对比实验,结果表明:基于BOW+SVM高血压病历文本分类模型精准度可达97%。可见改进后的模型,能够解决样本分部不均,克服高维度稀疏特征空间的问题,有效改善病案管理工作流程。  相似文献   

12.
提出了一种基于核化技术的模糊核超球感知器分类算法,该算法通过核化技术把样本数据映射到高雏特征空间,并利用超球感知器学习寻找高雏特征空间的决策超球,从而得到各类样本的决策函数.同时,样本测试中采用的模糊技术有效提高了算法的适应性.该算法学习规则简单,所得特征空间超球在样本空间的分布能很好地反映样本的数据结构,适用于不同类型数据结构样本的学习,并经大量试验显示了算法的有效性.  相似文献   

13.
非负矩阵分解问题可以转化为一个约束优化问题,因此可以依靠最优化领域的相关算法进行求解.提出一种基于分布估计算法求解非负矩阵分解问题的新算法,并将算法应用于两个非负矩阵分解的数值算例,与非负矩阵分解基准算法进行比较,证实了算法的可行性和优越性.  相似文献   

14.
信息采集技术日益发展导致的高维、大规模数据,给数据挖掘带来了巨大挑战,针对K近邻分类算法在高维数据分类中存在效率低、时间成本高的问题,提出基于权重搜索树改进K近邻(K-nearest neighbor algorithm based on weight search tree,KNN-WST)的高维分类算法,该算法根据特征属性权重的大小,选取部分属性作为结点构建搜索树,通过搜索树将数据集划分为不同的矩阵区域,未知样本需查找搜索树获得最"相似"矩阵区域,仅与矩阵区域中的数据距离度量,从而降低数据规模,以减少时间复杂度.并研究和讨论最适合高维数据距离度量的闵式距离.6个标准高维数据仿真实验表明,KNN-WST算法对比K近邻分类算法、决策树和支持向量机(support vector machine,SVM)算法,分类时间显著减少,同时分类准确率也优于其他算法,具有更好的性能,有望为解决高维数据相关问题提供一定参考.  相似文献   

15.
为了解决语音分离中非负矩阵分解(non-negative matrix factorization,NMF)、深度神经网络(deep neural network,DNN)等算法没有考虑语音时序相关性的问题。结合NMF和长短时记忆网络(long short-term memory,LSTM)算法提出NMFLSTM单通道语音分离算法:将语音信号的幅度谱作为模型的输入特征,通过训练NMF和LSTM模型获得目标语音的基矩阵和系数矩阵,并对其结果进行语音重构最终实现语音分离。实验结果表明:相比于未考虑语音时间连续性的算法,使用NMFLSTM算法分离语音的客观语音质量评估值(perceptual evaluation of speech quality,PESQ)有明显提升,其最大值超过3. 1,获得良好的分离效果。  相似文献   

16.
非负矩阵分解方法(non-negative matrix factorization,NMF)广泛应用于图像聚类、计算机视觉、信息检索等领域。但是,现有的NMF方法还存在一些不足之处:①NMF方法直接在高维原始图像数据集上计算它的低维表示,而实际上原始图像数据集的有效信息常常隐藏在它的低秩结构中;②NMF方法还存在对噪声敏感以及鲁棒性差的缺点。为了提高NMF算法的鲁棒性和可解释性,提出一种稀疏图正则化的非负低秩矩阵分解算法(sparse graph regularized non-negative low-rank matrix factorization,SGNLMF)。通过低秩约束和图正则化,SGNLMF算法同时利用了数据的几何信息和有效低秩结构;此外,SGNLMF算法还对基矩阵加以稀疏约束,使得其鲁棒性和可解释性均有一定的提升。还提出了一种求解SGNLMF的迭代算法,并从理论上分析了该求解算法的收敛性。通过在ORL和YaleB数据库上的实验结果表明SGNLMF算法的有效性。  相似文献   

17.
提出一种可同时构造多个精确性和解释性较好折衷的高维模糊分类系统的设计方法.该方法首先利用Simba算法进行特征变量选择,然后采用模糊聚类算法辨识初始的模糊模型,最后利用Pareto协同进化算法对所获得的初始模糊模型进行结构和参数优化.其中,Pareto协同进化算法采用了一种新的基于非支配排序的多种群合作策略.为提高模型的解释性,在Pareto协同进化算法中利用基于相似性的模型简化方法对模型进行约简.利用该方法对Wine典型问题进行分类,仿真结果验证了方法的有效性.  相似文献   

18.
伴随着基因芯片的发展,通过研究海量的基因表达谱数据来识别肿瘤已成为生物信息学研究的热点.提出一种基于LoG(Laplace of Gaussian)矩阵分解的肿瘤基因特征提取方法,该方法首先将样本数据映射为高维空间中的点,然后构建点与点之间的LoG矩阵,在保留样本分类信息的情况下,使得无结构信息的基因表达谱数据变成具有结构信息的图,再对LoG权值矩阵进行非负矩阵分解得到能够表征样本特征的特征分量,最后用KNN对样本进行分类.通过对白血病和结肠癌基因表达谱数据的特征提取,验证该文方法的可行性和有效性.  相似文献   

19.
针对多分类癫痫检测算法因特征维数多而导致识别率不理想的问题, 提出了一种基于分数阶傅里叶变换 (FrFT: Fractional Fourier Transform)和非负矩阵分解(NMF: Non-negative Matrix Factorization)的癫痫脑电自动识 别算法。 首先采用 FrFT 对脑电信号进行时频聚焦, 并利用短时傅里叶变换 (STFT: Short-Time Fourier Transform)提取脑电信号的时频特征; 再应用 NMF 对提取的时频特征进行降维; 最后将降维后的特征输入到支 持向量机(SVM: Support Vector Machine)分类器中进行识别。 实验结果表明, 该方法能识别正常、 癫痫发作间 期和癫痫发作期 3 类脑电信号, 其分类准确率可达 98. 8%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号