首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 560 毫秒
1.
话题跟踪是信息处理中的一项重要技术,如何提取鲁棒的话题样本特征是其中的研究重点。针对样本中的话题偏移问题,提出一种基于核主成分分析的算法。该算法首先利用开发集的先验知识构建加权矩阵;然后采用核主成分分析对样本进行话题偏移补偿,从而有效地去除了话题偏移的影响,提升了样本特征的鲁棒性;最后通过K-最近邻(K-nearest neighbor,KNN)和Rocchio算法进行分类。在Fisher英文数据库的话题跟踪测试结果表明,相对于基线系统,该系统在检测代价上有15%~18%的相对降低。  相似文献   

2.
基于SVM的特征加权KNN算法   总被引:19,自引:1,他引:19  
作为一种非参数的分类算法,K-近邻(KNN)算法是非常有效和容易实现的.它已经广泛应用于分类、回归和模式识别等.在应用KNN算法解决问题的时候,要注意两个方面的问题--样本权重和特征权重.利用SVM来确定特征的权重,提出了基于SVM的特征加权算法(FWKNN,feature weighted KNN).实验表明,在一定的条件下,FWKNN能够极大地提高分类准确率.  相似文献   

3.
知网的话题更新与跟踪算法研究   总被引:1,自引:0,他引:1  
话题跟踪是一项面向新闻报道信息流进行已知话题跟踪的信息处理技术,本文在现有的向量空间描述文档的基础上,实现了一个基于话题更新的话题跟踪算法,提出了基于知网的近义动词分析的跟踪算法及基于知网的近义动词分析和话题更新的话题跟踪算法.实验表明话题更新和同义词近义词的消除提高了话题跟踪算法的性能.  相似文献   

4.
提出了一种新的异常行为检测方法,将SVM算法和KNN算法结合,在对识别样本判别时,当其与最优分类面的距离大于给定阈值时,采用SVM分类算法,否则采用KNN算法,从而减少了SVM算法的错误率.实验结果表明,SVM-KNN算法对异常行为检测的准确率达到95.86%.  相似文献   

5.
提出了一种新的异常行为检测方法,将SVM算法和KNN算法结合,在对识别样本判别时,当其与最优分类面的距离大于给定阈值时,采用SVM分类算法,否则采用KNN算法,从而减少了SVM算法的错误率。实验结果表明,SVM-KNN算法对异常行为检测的准确率达到95.86%。  相似文献   

6.
利用小波变换对训练图像和待识别图像进行小波分解,提取低频分量,通过行扫描转化为列向量,作为特征向量;在此基础上,提出利用多元线性回归分析方法,利用最小二乘法获得训练特征与待识别特征之间的线性模型,经由残差分析确定待识别样本的类别.利用ORL人脸库,与支持向量机(SVM)分类器和K-最近邻分类器(KNN)进行了对比实验,实验结果表明本文算法识别精度跟SVM相当,优于KNN.  相似文献   

7.
针对k近邻(k-nearest neighbor,KNN)算法在土地覆盖分类中存在将山体阴影覆盖下植被误分成水体的问题,提出改进的KNN算法。改进算法充分利用神经网络能有效区分山体阴影覆盖下植被和水体的特性,实现BP神经网络与KNN算法的融合,整体提高了北京市密云区土地覆盖分类精度。实验结果表明:相对于支持向量机(support vector machine,SVM)、随机森林、BP神经网络和KNN算法,改进算法分类精度最高,达到了95.20%,分类精度比未改进KNN算法提高了6.43%。改进算法的Kappa系数在对比算法中也是最高的,达到0.93。此外,实验结果也表明改进算法可应用于中分辨率遥感图像分类中。  相似文献   

8.
为了提高网络安全水平,及时对网络攻击进行检测,该文提出了一种基于烟火算法优化支持向量机(SVM)的入侵检测模型。该模型选用SVM作为入侵检测算法的核心分类器对网络数据进行判别,但是由于存在SVM中最优核函数参数和惩罚因子确定较慢的问题,该文利用烟花算法加快SVM最优核函数参数和惩罚因子的确定。为了验证该模型在实际应用中的效果,通过KDD CUP 99数据集进行实验测试,与SVM、KNN和DNN算法相比,该模型能更好地对入侵检测数据进行分类和判别。  相似文献   

9.
从分类算法和特征基因选择两个方面研究基因表达数据的分类,将传统的Support Vector Machines(SVM)算法和K-nearest neighbor(KNN)算法两者结合成为一种应用于基因表达数据分类的算法,并针对基因表达数据分类数据集“样本少,维数高”的特点,提出了一种改进的基于相关性的递归特征消除算法(简称为C-RFE),消除了数据冗余.实验结果表明,新方法可有效提高分类准确率和特征选取的效率.  相似文献   

10.
针对支持向量机(SVM)分类器参数选择问题,提出了基于鸟群算法(BSA)的SVM参数选择方法(BSASVM),以优化SVM惩罚参数和核参数.鸟群算法具有优化精度高、鲁棒性好等特点,将SVM参数作为鸟群算法目标函数的优化参数,在搜索到最优值的同时得到最优参数.通过8个UCI标准数据集的MATLAB仿真对比实验,验证了BSA-SVM能有效提高分类准确性.实验结果表明:BSA-SVM能更加准确地找到SVM最优参数,从而加强SVM学习与泛化能力,是一种有效的SVM参数优化方法.  相似文献   

11.
多策略中文微博细粒度情绪分析研究   总被引:1,自引:0,他引:1  
针对中文微博用户的情绪分析问题, 提出一种基于多策略融合的细粒度情绪分析方法。首先采用朴素贝叶斯算法对微博的有无情绪分类问题进行研究, 然后构建有情绪微博的21维特征向量, 最后采用SVM和KNN算法对微博进行细粒度情绪分析。以新浪微博作为实验对象, 结果表明多策略集成方法好于单一分类 算法。在多策略集成方法中, “NB+SVM”方法略优于“NB+KNN”方法。  相似文献   

12.
以室内的用户定位需求为应用背景,提高定位精度为目标,针对室内中复杂的环境,基于最近邻法(KNN)和支持向量机(SVM),提出了新的室内定位算法.先采用KNN去除训练样本中的奇异点,再采用支持向量机进行定位.与KNN法、朴素贝叶斯法、SVM回归法等室内定位算法比较,结果表明该定位算法有效提高了定位精度和定位速度.进一步提出了基于Android平台的室内定位系统的设计方案,采用Java语言编程实现了该系统,并进行了系统测试.实验数据表明:该室内定位系统的平均误差为1.7m,最大误差为4.9m,该系统在满足速度要求的前提下,有效提高了室内定位精度.  相似文献   

13.
提出一种基于SVM(Support Vector Machine)优化的TLD(Track-LearningDetection)行人检测跟踪算法.将行人作为正样本,背景作为负样本,提取出行人的HOG特征并投入线性SVM中进行训练,得到行人检测分类器,并标定出目标区域,实现行人自动识别;然后在TLD算法的基础上对行人进行跟踪和在线学习,估计检测出的正负样本并实时修正检测器在当前帧中的误检,利用相邻帧间特征点配准剔除误配点,同时更新跟踪器数据,以避免后续出现类似错误.实验表明,该算法能够适应遮挡变化且自动识别并稳定跟踪目标行人,较传统跟踪算法具有更强的鲁棒性.  相似文献   

14.
针对基本话题模型只能抽取粗粒度上下文信息的问题,通过对潜在狄里克雷分配(LDA)模型进行扩展,建立了一种利用词序信息的多粒度话题情感联合模型(MTSU-Col)。MTSU-Col模型客观表达了词汇、全局/局部话题、情感标签和词序信息之间的关联关系,使模型中话题和情感的建模更加符合文本的语义表达,有效解决了现有话题、情感分析方法存在的领域依赖问题,从而实现了文本多粒度话题信息和情感倾向信息的同步非监督获取。实验表明:利用MTSU-Col模型对文本进行情感倾向性分类,可使综合评价指标F1值达到84%,整体性能与监督分类方法支持向量机(SVM)类似,均优于未采用词序信息的分析方法。由于挖掘话题集合具有层次化、语义相关的特点,因此MTSU-Col模型对观点挖掘是可行、有效的。  相似文献   

15.
使用隐狄利克雷分布(LDA)进行话题检测时,话题模型产生的话题存在语义上的分层现象;LDA建模产生的话题会出现语义上概括较广的泛话题;话题数目超参数K的设定通常根据人的经验.这些将造成建模结果出现包含多个子话题的混合话题情况.针对上述问题,文中基于层次聚类算法,使用一种文档特征词序列对LDA模型分类结果粒度过粗、热点话题检测结果泛化所导致的舆情监控价值较低的情况进行子话题检测.首先对LDA模型建模结果进行优化,对话题-单词分布与文档-单词分布两个矩阵进行过滤;然后对重叠话题进行检测与合并,采用文档间紧密度度量方式发现泛话题与混合话题;最后通过层次聚类算法对话题下的文本进行二次聚类,得到话题下的子话题.实验结果表明:该算法对子话题的检测能够在更深层次上体现出热点话题的特性,便于舆情监控分析;与Single-Pass算法和K-均值聚类算法相比,该算法获得的结果更具有有效性;K的选取策略对基于层次聚类的子话题检测算法具有鲁棒性.  相似文献   

16.
为了实现哈萨克语文本分类,根据哈萨克语语法规则,给出了哈萨克语文本词干的提取方法;结合DFR特征选择方法和VSM文本表示模型实现哈萨克语文本的预处理,提出了一种SVM和修正KNN协同的文本分类算法,分别在自行构建的语料集和整理的《新疆日报》哈萨克语数据集上进行大量文本分类仿真实验.结果表明,该方法在哈萨克语文本分类上具有良好的分类性能,并比SVM,KNN的测试性能优越.  相似文献   

17.
针对在基于惯性传感器人体行为识别的研究中,集合经验模态分解(ensemble empirical mode decomposition,EEMD)无法自适应地筛选出对不同分类行为更有用的固有模态函数的问题,特别是对步行、上楼、下楼3种易混淆行为的识别,提出一种改进的自适应集合经验模态分解特征提取方法,通过对不同分类行为筛选不同固有模态函数并提取窗口均值差异等新颖特征,有望在不同的分辨率下得到更准确、更有效的原信号特征信息。为了验证该方法的有效性,实验分别用典型时域频域特征与该方法提取的特征集训练K近邻(K-nearest neighbor,KNN)与支持向量机(support vector machine,SVM)分类器,并采用留一法(leave-one-out,LOO)交叉验证算法进行测试。结果表明,当分别采用KNN和SVM进行分类时,相比于原方法,改进的方法对步行、上楼和下楼3种行为的平均识别准确率分别提高了29.22%(KNN)和15.79%(SVM),对分类的7种不同行为的总平均识别准确率分别提高了95.11%(KNN)与93.14%(SVM)。  相似文献   

18.
导线弧垂是反映输电线路运行状态的重要参数之一,为了预知和预警高压输电线路弧垂的变化,提出了一种基于遗传算法(genetic algorithm, GA)特征自适应赋权的支持向量机(support vector machine, SVM),预测输电线路弧垂的方法(GA-SVM).该方法主要分为两个阶段,首先使用GA对实验数据自适应赋权,以突出重要属性,抑制冗余或次要属性,然后使用SVM预测输电线路弧垂.实验结果表明,该方法在预测输电线路弧垂方面是可行有效的,并且优于贝叶斯(Bayes)算法、K-最近邻算法(KNN)、决策树算法和BPNN神经网络算法.  相似文献   

19.
K-最近邻的改进及其在文本分类中的应用   总被引:4,自引:0,他引:4  
采用K近邻算法(Knearest neighbors,简称KNN)进行分类时,如果训练样本数量太大,那么搜索测试样本的K个最近邻时,算法的计算量很大.本文针对KNN的不足提出了一种改进方法.改进的KNN算法通过定义样本的延拓类和延拓能力,保留延拓能力强的样本作为它延拓类中其它训练样本的代表,来缩减训练样本数量,达到减少算法计算量的目的.实验证明,改进的KNN算法具有很好的性能.  相似文献   

20.
为使支持向量机(SVM)更加适用于在线文本分类应用,利用SVM在小训练样本集条件下仍有高泛化能力的特性,结合文本特征向量在特征空间中具有聚类性的特点,提出一种用语义中心集代替原训练样本集作为训练样本和支持向量的SVM语义SVM.文中给出了语义中心集的生成步骤、语义SVM的在线学习算法框架,以及基于SMO算法的在线学习算法的实现.实验结果表明,相对于标准SVM,语义SVM及其在线学习算法不仅在线学习速度和分类速度有数量级提高,而且在分类准确率方面具有一定优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号