首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
采用类别相似度聚合的关联文本分类方法   总被引:1,自引:0,他引:1  
针对基于关联规则的分类方法在分类时仅考虑规则的置信度并使用规则修剪技术,导致分类器的分类精度难以进一步提高的问题,提出了一种基于类别相似度聚合的关联文本分类方法.该方法采用修改的χ2统计技术提取各类别的特征词;为保证规则匹配的精度和速度,使用CR-tree存储分类规则,并给出了CR-tree的构建与匹配算法;采用向量内积来计算文本类别分量与类别标志向量的相似度,进而使用规则置信度和类别相似度的聚合值作为文本分类的依据.基于实际网络文本的实验表明,该方法仅需提取30个特征词,分类结果的微平均值即可达到92.42%,优于未经剪枝的ARC-BC分类器及KNN、Bayes分类器;在分类耗时方面,该方法与未经剪枝的ARC-BC分类器持平,表明该方法引入的相似度与聚合值的计算开销在可接受的范围内.  相似文献   

2.
学术报告讲座的标题属于典型的超短文本,其固有的特征稀疏问题使得在利用传统的文本分类方法对其分类时效果不佳。为解决上述问题,文章基于词向量嵌入技术,对学术报告标题进行特征词扩展。通过控制特征扩展幅度和设置词间相似度阈值,使扩展的特征词与标题特征词的内容相关,并从词性角度进一步考虑词语相似性,过滤无关特征词。实验结果表明,该方法能够有效地提高对学术报告标题短文本的分类效果。  相似文献   

3.
基于知网语义相似度计算的特征降维方法研究   总被引:8,自引:1,他引:8  
针对文本分类处理中的高维度问题,结合知网语义词典,提出了一种新的特征降维处理方法.通过计算特征词汇之间的语义相似度,将原有特征集分成若干特征词集;同一词集内的特征词语义彼此间相似;而不同词集的特征词彼此间相似度比较小.将同一特征词集内的词汇权重相加,从而突出同义词以及近义词对文本分类的贡献,并可以大大降低文本比较的特征维数.实验结果表明,利用该方法在文本分类中得到了较好的分类准确率和分类性能.  相似文献   

4.
针对KNN文本分类算法在高维数据集上分类计算开销大、效率低的缺点,采用一种基于矩阵奇异值分解的文本特征向量降维方法实现向量降维的同时保留更多的分类信息.同时,采用信息增益的方式对原始文本特征词进行了初步筛选,过滤掉对分类系统几乎没有贡献的特征词,以克服文本特征维数增长所带来的奇异值分解计算开销过大的缺点.实验表明此方法能在保持分类精度的同时极大地降低分类计算开销.  相似文献   

5.
在文本分类中,数据规模过大或文本分布不均匀对传统KNN算法的准确率和效率具有重要影响。为了解决该问题,文章提出一种基于粗糙KNN(k-nearest neighbor)算法的文本分类新方法。首先引入粗糙集中的上下近似概念定义各类文本的上下近似空间,将文本向量空间分为核心和混合2大区域;然后改进传统KNN算法的隶属度函数;再针对不同的文本区域,采取差异化的分类策略以提高分类的效率和准确率。实验表明,基于粗糙KNN算法的文本分类方法在提高分类准确率的同时,分类的效率也有很大提高。  相似文献   

6.
在向量空间模型的中文文本分类系统中,多数传统的特征选择算法忽视低频单词对分类的正面贡献,互信息特征选择过分放大低频单词对分类的贡献。针对这一问题,通过引入对数似然比统计量,提出对数似然比特征选择算法。与互信息算法相比,低频单词对分类的贡献没有过分放大;与卡方算法相比,低频单词对分类的贡献计算更为准确。算法在考虑低频单词对分类结果产生正面影响的同时,能较好地控制其对分类产生的负面影响。采用KNN(K Nearest Neighbor)分类方法,特征选择选取对数似然比和传统特征选择算法,实验结果表明,对数似然比特征选择算法能够提高分类器的总体性能。  相似文献   

7.
为了从海量的信息资源库中快速、准确地进行分类并提取出有用的信息,提出了一种基于粗糙集和KNN混合的Web文本分类模型。利用粗糙集的属性约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征选择过程采用互信息量计算方法,并对该混合算法进行了实验,同时结合传统的KNN方法对该混合算法进行比较,验证该算法的可行性。  相似文献   

8.
特征词提取算法大多以选取单个关键词为主,存在词与词关联度缺失,文本主题表达不准确的问题,为此提出一种基于词共现的文本分类算法。通过计算词间共现率,利用TextRank算法构建共现图得到共现词组,建立文本向量表示模型,并利用SVM算法实现文本分类。实验证明,共现词作为文本特征项相对于传统单个特征词有更好的分类效果。  相似文献   

9.
针对文本向量空间中特征项间的关联性及冗余性,提出了一种KNN算法运用于文本向量空间降维的方法,应用向量聚合理论和特征选择以降低特征空间维数,使得降维后的特征项更具有类别代表性.实验证明,KNN算法运用于文本降维方法中,有效地降低了向量空间的维数,提高了文本分类的精度.  相似文献   

10.
针对文本分类存在的高维文本问题,提出文档频率(DF)-卡方统计量特征提取方式,对特征项进行有效约减,降低文本维度,提高分类精度.在K最近邻(KNN)算法的基础上,针对待分类文本需要和大量训练集样本进行相似度计算的问题,提出一种基于分组中心向量的KNN算法,对类别内的样本集分组求出各组中心向量,使其重新代表训练库计算相似度,降低计算复杂度,提升算法的分类性能.通过实验表明:相较传统KNN算法,改进的算法在准确率、召回率及F值方面都有提升,与其他分类算法相比,具有一定的优势.  相似文献   

11.
根据序化动力系统模型(ODSM),通过KPCA分析实现数据降维和增加人脸模式的可分性,给出了一种基于协同神经网络和KPCA的人脸图像视觉信息联想记忆(VIAM)算法。实验结果表明本文给出的方案可以针对输入特征激励完成对输入模式的联想。  相似文献   

12.
成像设备、所用光谱和拍摄时间等因素的差异给红外与可见光图像匹配带来了较大的困难。考虑到边缘直线段在异源图像中的稳定性,提出一种基于线段上下文的红外与可见光图像匹配方法。首先,采用LSD(line segment detector)算法检测出图像中的直线段,接着按照几何约束规则挑选出关键直线段,并计算它们的交点,将交点与Harris角点一起组成图像特征点;通过计算特征点四象限邻域内线段的得分,得到每条线段对特征点的贡献,在此基础上采用圆形阵列的方式,构建基于线段上下文的特征描述子;最后运用双向匹配策略和RANSAC算法实现红外与可见光图像的匹配。实验结果表明,所提方法能够对灰度差异较大的红外与可见光图像实现精确匹配,并且在鲁棒性和时间效率方面都要优于主流异源图像匹配算法。  相似文献   

13.
基于彩色空间多特征融合的表情识别算法研究   总被引:1,自引:0,他引:1  
目前的人脸表情识别方法大多是在灰度图像上采用单一特征算子,如 Local Phase Quantization(LPQ),Local Binary Patterns(LBP),Histograms Of Oriented Gradients(HOG),Gabor等,进行分类识别,但这类方法在复杂光照条件下识别率并不理想。为取得较好的识别率,本文首次提出了基于彩色图像多特征融合的表情识别算法。该算法首先在不同彩色分量上分别提取LPQ、LBP、HOG及Gabor多种特征,然后对高维特征进行线形鉴别分析并采用最近邻法进行表情分类,最后对多特征分类结果采用Adaboost算法进行融合。本文算法在具有复杂光照条件的Multi-PIE人脸库上进行了验证,取得了88.30%的平均识别率。实验结果表明:相比于基于灰度图像的单一特征识别算法,本文提出的算法能较大幅度地提高人脸表情识别率。  相似文献   

14.
基于稀疏表示分类(SRC,sparse representation for classification)是近年来模式识别领域中备受关注的一个研究热点。当每类训练样本较少时,SRC的识别效果往往不理想。为解决此问题,人们提出了拓展的稀疏表示分类算法。它引入了训练样本的类内变量矩阵,来补充每类训练样本信息。但是,该方法很难获取普遍存在于复杂数据如图像中的非线性信息。为此,提出了特征空间中的拓展稀疏人脸识别算法。该算法将样本集非线性映射到新的特征空间中,计算每个训练样本在表示测试样本时所做的贡献。根据贡献大小,给每个训练样本赋予一定的权重。同时,利用类内变量矩阵,共同表示测试样本。实验表明所提出的算法优于其它经典稀疏表示分类算法。  相似文献   

15.
人脸图像灰度分布统计分析与检测特征设计   总被引:1,自引:0,他引:1  
人脸图像的明暗视觉效果是面部五官稳定分布模式的外在表现,灰度分布模式可用做区分人脸与非人脸的依据.相对灰度比绝对灰度的抗光照干扰能力更强,为此以相对灰度均值和灰度标准差的比值衡量任一像素的明暗稳定程度,据此划分多个人脸明暗区域,将明暗区域配对组合为域灰度差检测特征,并基于优选出的28个域特征构建的42个隐节点的三层反馈神经网络检测分类器,对包含有图像质量恶劣的图像集进行测试,等误差率低于1.7%.测试结果表明所提方法有效可行,仅用28个特征就达到了与Viola算法数千个Haar类灰度差特征相仿的检测效果.  相似文献   

16.
提出一种基于统一计算设备架构(CUDA)加速的尺度不变特征变换(SIFT)快速计算方法,用以解决SIFT特征提取计算过程耗时过长的问题.该方法充分利用图像处理单元(GPU)在并行计算、浮点计算、内存管理等方面的优势,合理分配主机端和设备端的资源及其在SIFT特征计算中所承担的角色.实验表明,与CPU架构下的SIFT特征提取算法相比,本文算法可以大幅度加快SIFT特征提取的计算速度,其加速比随着SIFT特征点数目的增加而增加,在本文实验中最大加速比可达1954.  相似文献   

17.
针对目前银行卡号识别算法的不足, 基于模式识别技术, 提出一种改进的特征匹配算法, 并将其应用于银行卡号识别. 改进的特征提取算法改变了特征向量, 并增加特征学习次数, 解决了传统方法识别银行卡号正确率较低的问题, 并保证了识别效率. 仿真实验结果表明, 改进的特征提取算法可有效提高银行卡号识别的正确率.  相似文献   

18.
一种新的手写体字符识别算法   总被引:2,自引:0,他引:2  
研究模式识别的核心问题——特征抽取.基于偏最小二乘(Partial Least Squares,简称PLS)回归和特征融合的思想,提出了一种组合特征抽取的新方法并将之用于手写体字符识别中.在PLS建模阶段,为了提高PLS成分(特征)的抽取速度,提出了一种非迭代PLS算法.在特征融合阶段,用所抽取的PLS成分特征组成模式的相关特征矩阵,并依此相关特征矩阵进行分类.在Concordia University CENPARMI手写体阿拉伯数字数据库上的试验结果证实了该方法的有效性和鲁棒性,其分类结果优于基于单一特征的FSLDA方法的分类结果.另外,与已有的迭代PLS算法相比,所提出的非迭代PLS算法的复杂度和特征抽取的速度均占有优势.  相似文献   

19.
将二次互信息(mutual information)用作模式分类问题中特征选择的准则,分析了该准则在再生核希尔伯特空间中的几何意义.在二次互信息准则基础上,提出了基于Parzen窗密度估计和后向删除策略的特征选择算法PW-QMI,同时针对大规模数据集的情况给出了基于高斯混合模型的算法GMM-QMI,以减小算法的计算复杂度.通过与相关度算法和SVM-RFE算法的实验比较,证明了该算法在特征选择问题上具有更为稳定的性能.  相似文献   

20.
摘要: 针对高精度的实时人体行为模式识别,提出了一种基于加速度时域特征的行为模式识别算法.本算法选取时域特征作为唯一特征量,通过简化特征提取运算实现行为的实时识别,获得了高精度结果.通过在Android智能手机平台进行测试,每项动作识别正确率均可达80%以上.该算法相对于现有算法实时精度有明显提高,在手持终端领域具有较好的应用前景.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号