首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 750 毫秒
1.
互联网大数据的飞速发展对知识库的自动构建提出了迫切需求,互联网定义挖掘是知识发现研究的基础.文章基于N-gram语言模型提出了一种改进的N-gram Plus语言模型,综合了词语、词性、语法依赖关系和定义的语言学模式等多种特征.通过定义挖掘框架生成互联网语料库,在定义抽取研究中引入N-gram Plus特征集和句子最大定义隶属度,将句子转换为多特征向量,比较使用几种分类器进行学习和分类.该方法在实验中取得了较好的F2-measure成绩.  相似文献   

2.
提出了一种基于分类算法的潜在好友推荐系统. 该系统采用两步特征方法处理原始数据集,去除不相关特征项和冗余特征项,为分类器提供精简的特征集合;把学者潜在好友推荐问题转化为二分类问题,对比4个常用分类器在两步特征选择方法上的分类效果,并找出推荐效果最佳的分类器(决策树分类器),同时得出学术社交网络中区分度最大的6个用户特征信息. 使用来自学术社交网络学者网(SCHOLAT)的社交网络信息作为实验原始数据集进行测试,实验结果显示,相比传统方法,基于分类的推荐方法在准确率和F1值均有显著提升,体现了基于分类算法的潜在好友推荐系统的准确性和实用价值.  相似文献   

3.
通过删除数据集中的无关属性和冗余属性构建的选择性分类器可以有效地提高分类精度和效率.由于处理不完整数据的复杂性,已有的选择性分类器大都是针对完整数据的.然而,现实中的数据通常是不完整的并且包含许多冗余属性或无关属性.为解决这一问题,在构建的不完整数据分类器DBNB的基础上给出了一种有效的选择性分类器:SDBNB.在12个标准的不完整数据集上的实验结果显示,SDBNB的分类准确率比分类效果较好的选择性不完整数据分类器SNB和SRBC平均高出0.69%和0.58%,而其标准离差比SNB和SRBC平均低0.11和0.05.这表明SDBNB不仅有较高的分类准确率,而且分类效果更稳定.  相似文献   

4.
针对智能卷烟感官评估系统中涉及的多分类问题,采用“一对一”(one-versus-one, OVO)分解策略将复杂的多分类问题分解成多个易于处理的二分类子问题,然后针对这些子问题分别建立二值分类器,最后采用一定的聚合策略将二值分类器组合成多类分类器.此外,分别采用基于动态分类器选择和基于距离相对竞争力加权法对OVO中的冗余二值分类器进行处理,从而降低其对OVO系统的消极影响.为了验证所采用的方法在智能卷烟感官评估中的有效性,采用国内某烟草公司提供的数据集进行对比实验.实验结果表明,在智能卷烟感官评估中基于OVO分解策略的多分类方法比传统方法具有更优的分类性能.  相似文献   

5.
Internet traffic classification is vital to the areas of network operation and management. Traditional classification methods such as port mapping and payload analysis are becoming increasingly difficult as newly emerged applications (e.g. Peer-to-Peer) using dynamic port numbers, masquerading techniques and encryption to avoid detection. This paper presents a machine learning (ML) based traffic classification scheme, which offers solutions to a variety of network activities and provides a platform of performance evaluation for the classifiers. The impact of dataset size, feature selection, number of application types and ML algorithm selection on classification performance is analyzed and demonstrated by the following experiments: (1) The genetic algorithm based feature selection can dramatically reduce the cost without diminishing classification accuracy. (2) The chosen ML algorithms can achieve high classification accuracy. Particularly, REPTree and C45 outperform the other ML algorithms when computational complexity and accuracy are both taken into account. (3) Larger dataset and fewer application types would result in better classification accuracy. Finally, early detection with only several initial packets is proposed for real-time network activity and it is proved to be feasible according to the preliminary results.  相似文献   

6.
作为一类网络安全的基础研究,网络异常检测技术目前还存在检测准确率低、误报率高以及缺乏标签数据等问题。为此提出一种融合联邦学习和卷积神经网络的网络入侵检测分类模型(CNN-FL),可有效解决多个参与者在不共享隐私数据的情况下进行一个全局模型的协作训练时所带来的问题。该模型无需汇集模型训练所需要的数据进行集中计算,只是传递加密的梯度相关数据,即可利用多源数据协同训练同一模型,并解决缺乏标签数据的问题。随后将该模型应用于二分类和多分类方法中,并在同一基准数据集NSL-KDD上进行了实验比较与分析,实验结果表明,与其他研究方法相比,所提CNN-FL分类模型在二分类以及多分类中具有较高的识别性能和分类精度。  相似文献   

7.
为提高少量样本情况下分类器的性能,提出一种基于多分类器协同的半监督样本选择方法,利用未标注样本实现样本增强,提高分类器泛化能力.依靠多分类器的互相监督和多分类器标签一致的原理,将已标记样本作为训练集,利用SVM和RF两个分类器协同训练,多分类器的类别标签和确定度值作为约束条件,从未标记样本集中筛选出最有代表性的样本构成增强样本集,以准确率为评价标准,验证本算法对分类器泛化性能的影响.本算法在手写数字数据集(Mnist字符库)和Landsat土壤数据集上测试,实验结果表明相比少量原始训练样本构建的分类器,增强样本构建分类器预测的全部类别准确率都得到提升.两个数据集的总体准确率分别提升5.97%和7.02%,Mnist数据集中数字5这类准确率提升最高(提升11.9%,从79.3%到91.2%),Landsat土壤数据集中土壤3这一类准确率提升最明显(提升15.8%,从73.5%到89.3%),结果证明了该算法显著提高了分类器的泛化性能.同时与经典的KNN、Co-training和Co-forest算法对比,所提出的算法能够最大限度地利用未标记样本信息,具有最好的精度表现,证明了该研究提出算法的优越性.  相似文献   

8.
为提高分类系统的性能,提出一种统一多种元学习算法的元学习框架,定义并描述了并行和串行两种组合方式.由基分类器的分类结果构成新属性,并加入到特征向量中以形成元数据.通过扩展特征向量,元学习增强了对假设空间的表达能力,降低了系统的偏差.在加州大学提供的标准数据集上对元学习策略进行了实验研究,结果表明:与多数投票、最大规则、最小规则等融合方法实现的多分类器系统相比,并行和串行组合在所用数据集上的平均分类错误率可分别降低39.12%和40.56%,且在n分交叉验证中n值的增加并不能改进分类性能,串行组合中的基分类器的顺序对分类错误率没有显著影响.  相似文献   

9.
为解决药物研发中湿法实验耗时长且高成本等问题,采用机器学习预测药物-靶标相互作用。同时,为解决机器学习在建立药物-靶标相互作用模型时,受到分类器的类不平衡和参数优化等各种问题的制约。文章提出了一个基于球形演化极限学习机的药物-靶相互作用预测方法(SEELM-DTI),该方法主要使用筛选法选择高置信负样本、利用球形演化算法对极限学习机的参数进行优化。该研究将SEELM-DTI与SELF-BLM、NetLapRLS、WNN-GIP、SPLCMF、BLM-NII在基准数据集中进行试验比较,评价指标为AUC与AUPR。实验结果表明:SEELM-DTI的性能和效果优于其他基准算法,并且解决了类不平衡和参数优化问题,最后在常用的多个药物数据库上验证了SEELM-DTI预测药物-靶标相互作用的效果。  相似文献   

10.
现较为主流的罪犯自我伤害风险评估主要通过量表实现,但存在耗时长、虚报率高的问题,缺乏客观有效的识别方法.音频数据不受个体语言限制,有采集方便、信息丰富等特征,目前基于音频数据构建的自我伤害风险识别模型取得了不错的效果.通过访谈获取罪犯音频数据,对音频进行预处理后提取音频关键特征,采用4种机器学习算法构建分类模型.实验结果表明,罪犯音频能有效区分罪犯是否具有自我伤害、自杀倾向,平均F1分数为86.88%.  相似文献   

11.
12.
针对文本分类存在的高维文本问题,提出文档频率(DF)-卡方统计量特征提取方式,对特征项进行有效约减,降低文本维度,提高分类精度.在K最近邻(KNN)算法的基础上,针对待分类文本需要和大量训练集样本进行相似度计算的问题,提出一种基于分组中心向量的KNN算法,对类别内的样本集分组求出各组中心向量,使其重新代表训练库计算相似度,降低计算复杂度,提升算法的分类性能.通过实验表明:相较传统KNN算法,改进的算法在准确率、召回率及F值方面都有提升,与其他分类算法相比,具有一定的优势.  相似文献   

13.
新生儿胆道闭锁是新生儿常见的致命疾病之一,并且该病在亚洲的发病率高于世界其他地区.新生儿胆道闭锁需要及时发现及时治疗,然而由于缺少专业的儿科医生和辅助诊疗手段,新生儿父母往往不能及时发现而错过了最佳治疗时间.因此,本文开发了一个具有实际应用价值的预诊算法,通过新生儿粪便图片预测新生儿是否患有新生儿胆道闭锁,并提醒新生儿父母及时就诊.为了让算法在应用场景下识别率更高,本文的算法基于一个真实场景下拍摄的新生儿粪图片数据集开发.首先我们设计了一个自注意力网络模型BANet(Biliary Atresia Network),将图片的浅层特征和深层特征相结合,可以得到更好的分类效果.由于拍摄自应用场景下的图片存在过暗和过曝等问题.通过分析数据集的亮度分布,我们设计了一个自动亮度调节算法解决.此外,图片中的阴影也会对识别结果造成干扰,因此我们在训练阶段增加了一种阴影数据增强方式来缓解这一问题.为验证本文提出算法的有效性,本文设计了一个和医生的对比试验.结果证明BANet在四分类的识别率、二分类的识别率、特异性和敏感性等客观评价指标上占有明显优势.本文提出的BANet能够有效利用图片中的颜色、异常点...  相似文献   

14.
提出了基于Dempster -Shafer理论进行多个神经网络分类器组合的一种可行算法 ,该算法考虑了每个分类器对不同类的识别能力不同这一经验知识 .在UCI数据库的分类和一个多传感器融合工件识别系统中的应用结果 ,表明了该算法的有效性  相似文献   

15.
数据集的质量会极大地影响分类算法的精度,针对一类隐式互斥的数值型数据提出了一致性分类方法.借鉴连续函数的思想,提出了数值型连续数据的分类一致性定义;改进了SOM算法的计算过程,使其满足文中提出的分类一致性最优条件.通过改进的SOM方法得到一个新的聚类数据集,减少了原始数据集中容易出现的隐式分类不一致性问题,从而有效地提高了分类方法的效率和分类精度.通过在一个实际的数据集上的比较,表明提出的算法的预测精度明显优于其他算法.进而还从VC维的角度分析了提出算法的优点.  相似文献   

16.
地震属性可以用来解释与预测地质构造,因此地震属性被广泛地运用在煤矿地质构造的识别。但一般情况下,勘探区中无构造区域与有构造区域分布不均衡,无构造区域远远多于有构造区域。机器学习中,传统的分类器更习惯于偏向多数类,这使得如何有效地识别出构造体成为一个难题。为了解决这一问题,提出了一种针对不平衡数据集的改进极限梯度提升(extreme gradient boosting, XGBoost)构造识别方法。该方法的原理是,首先,以基于三维地震勘探成果数据体提取的12种地震属性为数据集特征,以实际揭露后的地质构造为数据集标签构建多属性数据集,然后以特征对标签的相关性为标准,过滤掉冗余的特征;其次,将边界样本分类算法(boundary sample classification, BSC)与合成少数类过采样技术(synthetic minority over-sampling technique, SMOTE)相结合形成BSC-SMOTE算法。用BSC-SMOTE算法对原始数据集进行平衡,再利用平衡后的数据集训练XGBoost分类器,并用贝叶斯优化(Bayesian optimization, B...  相似文献   

17.
基于自建的汉语篇章结构语料库以及语料库中连接词和连接词关系类别的标注, 抽取自动句法树和标准句法树的句法、词法和位置特征, 利用有监督的方法进行连接词识别和分类。实验结果表明, 连接词识别的F1值为69.2%, 连接词自动识别并分类的总正确率为89.1%。  相似文献   

18.
为改善患者身体健康,降低非计划再入院率,减轻患者负担和社会资源浪费,本研究基于我国某区域卫生信息平台的医疗数据,利用机器学习方法,构建了非计划再入院风险预测模型.不同于已有仅预测了再入院概率的研究,本研究通过将风险预测建模为多分类问题,实现了在时间和可能性两个维度对再入院风险进行预测.通过调整机器学习算法参数设置,构建了基于神经网络、随机森林和支持向量机算法的3大类共10个再入院风险备选预测模型.基于真实数据集的实验结果表明,在备选风险预测模型中,使用多项式核函数的支持向量机模型预测效果最好,预测准确率达到96.65%.本研究成果可以使医疗机构基于患者历史医疗数据,从时间和可能性两个维度更全面、精准地评估患者再入院风险,进而采取必要的干预措施,降低非计划再入院率.   相似文献   

19.
近年来,稳态视觉诱发电位(steady-state visual evoked potential, SSVEP)范式脑机接口(Brain-computer interface, BCI)得到了日益广泛的研究。如何选择不同的分类特征,对于提高频率识别的准确率,改善SSVEP-BCI系统至关重要。针对少目标刺激范式的SSVEP-BCI系统,本文提出小波包变换(wavelet packet transform, WPT)同多变量同步指数(multivariate synchronization index,MSI)相结合的方法,对10名被试者的400组SSVEP数据进行特征提取并分类。在分类过程中,讨论了在导联数量和数据长度两个参数对改进算法的影响。实验结果表明:在数据长度为1.5 s,导联7导的条件下,基于WPT-MSI的SSVEP算法的分类准确率达到98.94%,信息传输率为76.24 bit/min。明显优于典型的MSI算法和其他改进算法,具有显著提高的频率识别正确率。  相似文献   

20.
评价准则对分类器的构建起着重要作用, 在不平衡数据学习(IDL)中这更是如此. 众多研究已表明, 绝大部分传统的以精度准则为优化目标而获得的分类器是不适于IDL的. 那么其他准则又如何呢? 本文致力于回答这个问题. 通过在支持向量机(SVM)模型上进行“元学习”(Meta-Learning), 我们研究了若干常用的评价准则对IDL的影响, 这些准则包括ACC(精度)、BAC(平衡精度)、 GMean(几何平均)、F1(F1得分)、 IG(信息增益)、AUC(ROC曲线下方图面积)以及本文提出的两个新准则GAF和GBF. 在16个来自UCI的不平衡数据集上进行了仿真实验; 对实验结果的统计分析表明, 不同的准则对分类器性能的影响有显著差异. 即便是对于先进的学习方法SVM而言, 若以精度准则最大化选择分类器, 那么得到的SVM分类器也容易偏向预测多类(majority class). 然而, 通过在其他准则上优化, 我们能输出纠偏了的SVM分类器, 它们的整体性能更高, 尤其是在预测少类(minor class)能力方面得到了显著提高. 进一步地, 仿真实验发现在GAF以及GBF准则上优化所得的SVM分类器具有稳定且良好的性能, 这表明它们是值得采用的评价准则.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号