共查询到20条相似文献,搜索用时 101 毫秒
1.
【目的】针对基于密度峰值聚类的自训练算法中错误标记样本会造成分类正确率降低,以及当已标记样本分散时密度峰值聚类算法结果易受到截断距离影响的问题,提出了结合合成实例与adaboostENN的密度峰值自训练算法。【方法】首先,用合成实例方法增加已标记样本的数量并提升空间分布的可靠性;其次,通过密度峰值聚类算法揭示数据空间结构,从而选择有代表性的无标记样本进行标记预测;最后,用集成噪声滤波器来更准确地检测出被错误标记的样本并将它删除。【结果】通过12个UCI数据集上的实验验证了所提出算法的有效性。【结论】提出的算法不仅能有效地解决无标记样本被错误标记的问题,而且使得密度峰值聚类算法不易受到截断距离的影响。 相似文献
2.
垃圾短信发送者会不断尝试修改垃圾短信内容以欺骗过滤系统,导致识别准确率降低,为此提出一种基于自分簇自学习算法的识别方法.首先以最小编辑距离的方式构建垃圾短信关系链,使用MeanShift算法对其进行聚类实现自分簇功能.之后计算每个簇核心,并以与核心的距离确定每个样本的权值,以权值样本训练分类器,当新垃圾短信样本被分类器识别后,会被归类到某个簇并重新计算该簇的核心和各个样本的权值,并更新分类器,重复此过程实现自学习功能.实验结果表明,新方法准确率提高约2.51% ~5.14%,且能长时间保持. 相似文献
3.
针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。 相似文献
4.
[目的]针对协同训练算法在视图分割时未考虑噪声影响和两视图分类器对无标记样本标注不一致问题,提出了基于加权主成分分析和改进密度峰值聚类的协同训练算法.[方法]首先引入加权主成分分析对数据进行预处理,通过寻求初始有标记样本中特征和类标记之间的依赖关系求得各特征加权系数,再对加权变换后的数据进行降维并提取高贡献度特征进行视... 相似文献
5.
6.
密度峰值聚类算法(Denisity peaks clustering,DPC)具有聚类速度快、实现简单、参数较少等优点,但该算法的截断距离参数需要人工干预,并且参数的选取对于该算法的结果影响较大。为了解决这一缺陷,该文提出了结合蝙蝠算法改进的密度峰值聚类算法。该算法利用蝙蝠算法较强的寻优能力,寻找合适的截断距离取值,同时对蝙蝠算法的速度更新公式加入了自适应惯性权重来加强全局搜索能力。该算法选择多种数据集进行了实验仿真,并与其他同类算法进行对比。经过对比验证,结合蝙蝠算法改进的密度峰值聚类算法在聚类准确率上要明显优于其他算法。 相似文献
7.
【目的】为了在迭代自训练之前探索数据集分布情况,挑选出所含信息量较大且置信度较高的无标记样本加入训练集训练,让训练出的初始分类器有较高的准确性,提高自训练方法的泛化性。【方法】以聚类假设为基础,先对无标记样本集进行密度峰值聚类,在人工地选出聚类中心后,将新的聚类中心作为模糊聚类的初始聚类中心进行模糊聚类,从而筛选出有用的无标记样本。【结果】通过使用密度峰值优化模糊聚类算法,筛选出所含信息量大且置信度高的样本加入了训练集,训练出泛化性更强、分类精度更高的分类器。【结论】实验结果表明,改进后的自训练方法能快速发现样本集原始空间结构,筛选出有用无标记样本加入训练集,与结合其他聚类算法的自训练方法相比分类精度有所提高。 相似文献
8.
快速搜索与发现密度峰值聚类(clustering by fast search and find of density peaks, DPC)算法对聚类中心点进行了全新的定义,能够得到更优的聚类结果。但该算法需要手动选取聚类中心,容易出现多选、漏选聚类中心的问题。提出一种自动选取聚类中心的密度峰值聚类算法。将参数积γ引入新算法以扩大聚类中心的选取范围,利用KL散度的差异性度量准则对聚类中心点和非聚类中心点进行清晰划分,以Dkl排序图中的拐点作为分界点实现了对聚类中心的自动选取。在人工以及UCI数据集上的实验表明,新算法能够在自动选取聚类中心的同时,获得更好的聚类效果。 相似文献
9.
基于样本密度的FCM改进算法 总被引:6,自引:0,他引:6
从聚类中心的直观属性出发,选取样本中密度较大的点作为FCM算法的初始聚类中心。解决了FCM算法对初始值敏感、收敛结果容易陷入局部极小等问题。实验结果证明这一算法的合理性和有效性。 相似文献
10.
针对密度峰值聚类(DPC)算法存在的dc值难选择及近邻原则聚合操作在低密度区效果不佳的问题, 提出一种基于人工蜂群与CDbw聚类指标优化的密度峰值聚类(BeeDPC)算法, 以实现类簇间数据点的自动识别和合理聚类, 并解决DPC对类簇间数据点类别识别上存在的缺陷. 实验结果表明, BeeDPC算法具有自动识别并合理聚类类簇间数据点、 自动识别类簇中心点和类簇数量及自动处理任意分布数据集的优势. 相似文献
11.
针对飞鼠搜索算法(SSA)求解精度不高、容易早熟等缺点,提出一种采用反向学习和差分进化改进的飞鼠搜索算法(ODESSA).首先对最初种群使用反向学习生成其反向种群,增加初始种群的多样性.其次,在SSA中利用差分进化算法中的变异、交叉、选择机制扩大飞鼠搜索范围,以此增强算法的全局勘探能力.最后再次利用反向学习生成所有搜索... 相似文献
12.
提出B样条网络的一种改进的学习算法。在这种算法中,非零B样条基函数对应的内结点位置和连接权通过梯度下降法调整。计算机模拟结果表明该算法比现有的B样条网络学习算法更加有效和实用。 相似文献
13.
优化PI控制的自适应主动队列管理算法 总被引:1,自引:0,他引:1
主动队列管理算法是解决网络拥塞问题的研究热点,在分析基于控制论的PI主动队列管理算法存在缺陷的基础上,提出了具有自适应特性的ONPI算法,该算法通过引入新的参数设置办法来改善网络的性能。经仿真软件ns2实验证明,新算法能快速地收敛队列、保证队列的稳定性和自适应性。 相似文献
14.
15.
设计了一种电台主域积分双谱(PIB)特征参数提取方法,利用双谱特征的对称性,简化计算,提高计算效率。针对PIB特征参数冗余仍然较大,导致分类器复杂、识别效率低的问题,提出了一种改进的带监督局部线性嵌入(LLE)流形学习方法,利用电台数据类别信息的监督距离改进LLE算法中的邻域点搜索方法,并用于PIB参数的降维。将上述方法用于电台个体识别,采用概率神经网络作为识别分类器,对同型号同工作参数的10部电台进行个体识别实验。实验结果验证了上述方法的有效性,在接收信号信噪比为20 dB时电台的正确识别率超过90%。 相似文献
16.
根据人眼视觉特性,对小波子带进行视觉加权处理.通过整除求余,将视觉加权后的小波系数分组、缩小,以加快逐次逼近量化的进程.并取消EZW算法中的辅扫描过程,由此编码的时间复杂度得以降低.通过仿真试验对比,改进的EZW算法在峰值信噪比、编码时间以及复原图像的视觉效果方面,都有较大改善. 相似文献
17.
通过构建向量空间模型可以获得表征网页数据的词-文本权重矩阵,然而直接基于此高维矩阵进行分类学习效率较低,为此提出一种结合改进非负矩阵分解的模糊网页文本分类算法.首先,通过迭代的归一化压缩非负矩阵分解将高维的原数据映射到低维语义空间,以降低问题的复杂性.然后,将模糊逻辑引入分类模型,通过特征词与类别的模糊隶属度来生成文本的类别模糊集,以解决确定性矩阵难以判定语义模糊词所属类别的问题.实验结果表明,与其他方法相比,所提出的分类算法具有较高的分类准确度和较好的时间性能. 相似文献
18.
目前已有的学习路径推荐领域多为学习资源推荐,而课程知识图谱应用率较低,与蚁群算法的结合普遍缺乏对学习者知识水平的精确建模.因此,提出将知识图谱技术、深度知识追踪模型以及蚁群算法三者相结合,同时分类蚁群改进传统的蚁群算法:首先,抽象出课程知识点图谱作为路径基础,将深度知识追踪应用于不同水平学习者的分类,并与知识点难度权重相结合;然后,采用蚁群算法进行相应的路径规划,将蚁群按照不同的学习者类别进行划分,在保障相对最短学习路径的同时考虑不同学习群体客观知识水平情况,从而得到个性化的高效率学习路径推荐;最后,在ASSISTment数据集上验证了本方法的有效性. 相似文献
19.
针对等误差竞争学习矢量量化算法的初始码书生成随机性较强和搜索获胜码字计算量较大这2个缺点,提出了一种改进算法。对于初始码书的缺点,改进算法采用一种基于训练矢量的统计特征量的分类平均初始码书生成算法,同时改进算法利用3个不等式来快速排除大量候选码字,从而解决了原算法计算量较大的问题。仿真实验表明,改进算法的计算量比原算法减小了80%,而图像效果即峰值信噪比(PSNR)比原算法平均提升了0.5 dB左右。 相似文献
20.
为了实现空气质量的在线预测,提出了一种基于XGBoost算法的改进集成学习算法OPGBoost。首先对PI(plant information)实时数据库系统进行二次开发,构成大数据挖掘与分析平台,运用数据融合工具对原始数据进行预处理,并采用Boruta算法进行特征选择,从而构造出包含更多属性特征量的有效数据集。然后对XGBoost算法中的一阶和二阶导数进行优化,并通过时间滑动窗口和衰减函数机制获取训练数据以及训练模型的权重,最后采用Bagging集成学习策略构成OPGBoost组合模型。实验结果表明,针对基于PM2.5浓度和AQI表征的空气质量预测,本文方法与4种已有算法相比在准确性和实用性方面具有明显的优势,能够较精确地预测未来1、12、24h的空气污染情况。 相似文献