排序方式: 共有88条查询结果,搜索用时 15 毫秒
61.
针对在数据样本不均衡时,K近邻(K-nearest Neighbor,KNN)方法的预测结果会偏向样本数占优类的问题,本文提出了一种基于合成少数类过采样方法(SMOTE)的KNN不均衡样本分类优化方法(KSID)。该方法过程为:首先使用SMOTE方法将不均衡的训练集均衡化,并训练逻辑回归模型;然后使用逻辑回归模型对训练集进行预测,获取预测为正样本的数据,通过使用SMOTE方法均衡化该正样本,并训练KNN模型;最后把测试集放入该结合逻辑回归方法的KNN模型进行预测,得到最终的预测结果。围绕6个不均衡数据集,将KSID与逻辑回归、KNN和支持向量机(SVM)决策树等方法进行对比实验,结果表明,KSID方法在准确率、查全率、查准率、F1值这4个性能指标上均优于其他3种方法。通过引入SMOTE,KSID方法克服了KNN模型遇到样本不均衡数据集时,产生分类偏向的问题,为进一步研究KNN方法的优化和应用提供参考。 相似文献
62.
探讨了中文网页倾向性分类的原理和实现方法,利用文本自动分类技术结合Web页面中的结构信息,提出了LSI-KNN-Naive Bayes的褒贬分类模型.并在部分网页数据集上,对上述理论进行了实验验证,取得了较好的成效. 相似文献
63.
人名、机构名在基于概念的文本分类中的应用研究 总被引:1,自引:0,他引:1
基于概念的文本分类方法,能对同义词、多义词进行比较好的处理,是一种比较优秀的文本分类算法.但是此方法往往对人名、机构名等具有分类特征的词不能很好地处理,依然停留在关键词的层次.提出了一种将语义词典与一部人名、机构名构成的专有名词词典相结合的新的概念分类方法,并经过实验验证了其有效性. 相似文献
64.
针对传统的特征选择算法只专注于特征间的相关性和冗余性而没有考虑特征之间交互作用的问题,提出一种基于交互信息的混合特征选择(hybrid feature selection based onmutual information,MIHFS)算法,该算法以K-最近邻算法的分类准确率作为衡量所选特征分类性能的评价指标,有效地去除了冗余和不相关的特征,保留了具有交互作用的特征。为了评估该算法的性能,从分类准确率、所选特征数量以及算法稳定性三方面,与最大相关最小冗余、联合互信息等7种特征选择算法在8个数据集上进行了实验比较和分析。实验结果表明:MIHFS算法具有较强的稳定性,不仅有效降低了特征空间的维数,而且在所选特征的分类性能方面明显优于其他特征选择算法。最后将MIHFS算法与灰色关联分析法-逼近理想解的排序技术法相结合并应用到高邮凹陷永安地区戴一段地质评价中,其评价结果准确率为80%,与实际钻探结果基本吻合,具有较高的可靠性,能够有效指导油气地质评价。 相似文献
65.
KNN算法是一种思想简单且容易实现的分类算法,但在训练集较大以及特征属性较多时候,其效率低、时间开销大.针对这一问题,论文提出了基于模糊C-means的改进型KNN分类算法,该算法在传统的KNN分类算法基础上引入了模糊C-means理论,通过对样本数据进行聚类处理,用形成的子簇代替该子簇所有的样本集,以减少训练集的数量,从而减少KNN分类过程的工作量、提高分类效率,使KNN算法更好地应用于数据挖掘.通过理论分析和实验结果表明,论文所提算法在面对较大数据时能有效提高算法的效率和精确性,满足处理数据的需求. 相似文献
66.
针对现行避雷器在线监测系统中缺陷诊断规则不完善而导致大量漏报和误报事件发生的情况,通过分析避雷器三相全电流和阻性电流、三相电压和阻性电流的Pearson相关系数,并考虑环境因素影响,提取环境温湿度、三相阻性电流和三相电压作为避雷器缺陷诊断的特征参数。提出了一种基于反距离加权改进KNN算法的避雷器缺陷诊断方法,通过实例验证所提方法较其他方法具有更优的诊断正确率(97.28%)和泛化能力,为避雷器缺陷诊断提供了新思路。 相似文献
67.
采用传统的固相反应法和普通的烧结工艺,分别制备了(Ko.48Nao.52)1-χ。(LiSb)χNb1-O3(χ=0.055,0.060,0.065)和χ=0.055,0=0.065按摩尔比1:1复合的无铅压电陶瓷样品(55-65),并对样品的压电、介电等性能进行了测试研究.实验结果表明:55-65不等同于χ=0.060的组分,其压电性能远低于χ=0.060的样品,进一步研究表明,相同烧结温度下,55-65样品的损耗较高,晶粒难以生长,相对较小,较小的晶粒可能在样品形变时产生的应力较大,这可能是55—65 相似文献
68.
提出了一种基于伪标签-1D DenseNet-KNN的光伏阵列故障诊断方法,实现在少标签样本下的光伏阵列复合故障开集识别。首先,分析了各种常见单一故障及灰尘覆盖下复合故障的I-V曲线特性。然后,为了克服常规的半监督机器学习算法需手动提取数据特征,采用一种伪标签与1D DenseNet相结合的半监督方法自动提取特征。最后,将对训练数据提取的特征、训练数据预测的标签及测试样本提取的特征输入K最近邻(KNN)算法进行开集复合故障诊断。实验表明,该方法不仅能准确分类各种已知类样本,而且能识别出未知类别故障,并且模型的训练仅需少量标签数据。 相似文献
69.
为了从海量的信息资源库中快速、准确地进行分类并提取出有用的信息,提出了一种基于粗糙集和KNN混合的Web文本分类模型。利用粗糙集的属性约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征选择过程采用互信息量计算方法,并对该混合算法进行了实验,同时结合传统的KNN方法对该混合算法进行比较,验证该算法的可行性。 相似文献
70.
提出了一种有效的快速k近邻分类文本分类算法,即PSOKNN算法,该算法利用粒子群优化方法的随机搜索能力在训练文档集中进行有指导的全局随机搜索. 在搜索k近邻的过程中,粒子群跳跃式移动,掠过大量不可能成为k近邻的文档向量,从而可以快速找到测试样本的k个近邻. 以Reuters 21578文档集分类为例验证算法的有效性,结果表明,保持k近邻法分类精度,新算法比KNN算法降低分类时间70%. 相似文献