首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 46 毫秒
1.
针对不完整基因表达数据的聚类问题,提出了一种多目标NSGA-Ⅱ框架下缺失值填补与聚类协同优化的算法.算法根据欧式距离确定不完整基因的近邻基因,以缺失值的最近邻区间为约束,采用混合编码将缺失值填补与聚类中心优化融入NSGA-Ⅱ进化过程,通过将数据集的统计信息与聚类结果共同作为缺失值填补因素,提升不完整基因表达数据的填补准...  相似文献   

2.
针对模糊c均值聚类算法的一些不足之处提出了一种新的均值漂移聚类算法--无监督多尺度聚类算法.该算法不受初始化的影响,不用假定数据的聚类个数以及聚类中心的初始位置,能够利用模糊聚类的方法来获得硬的聚类划分,能够从不同的"划分尺度"揭示数据的聚类结构,并能自动的确定聚类个数.为了满足处理大数据集的需要,设计了快速无监督多尺度模糊聚类算法.通过实验证明无监督多尺度聚类算法在多数数据集上都表现良好且具有最好的总体聚类性能,并能成功揭示出数据的聚类结构.实验还证明快速无监督多尺度模糊聚类算法具有较快的速度和较高的识别精度且适用于大数据集.2个算法都取得了令人满意的实验结果.  相似文献   

3.
4.
传统的零件分类一般根据零件编码从特征矩阵中得到分类结果,未能很好地表达各个零件之间的相似关系,对工艺设计也不能提供启发性的推理策略.此外,零件分类矩阵本身的相似性标准也难以确定,给零件的工艺制作带来了很多困难.为此,提出了一种利用聚类技术构造树型结构表达零件相似性的方法,并根据零件之间的相似性建立层次结构以进行动态分类,进而构建一种有自学习能力的零件知识库.考虑到机器智能的局限性.分类结果可能不尽合理,分类树又能够在自动压缩优化的基础上进行手工优化,并将优化结果记录于分类树中.该知识库能及时反映零件信息的动态更新,并对零件进行多层次、细粒度的动态分类,使零件分类粒度不受数据规模的限制,从而可以通过建立索引结构,实现自适应的工艺设计自动化。  相似文献   

5.
一种新的最近邻聚类算法   总被引:1,自引:0,他引:1  
在分析现有最近邻聚类算法所存在问题的基础上,提出了一种先利用均值规格化的思想来确定算法的初始半径,然后根据启发式规则修改聚类半径的新的最近邻聚类算法.同时,给出了聚类有效性函数对得到的聚类结果进行合理性判断.  相似文献   

6.
提出了一种基于密度聚类的领导粒子选择策略的多目标粒子群优化算法。首先,将粒子进行分类;然后,对外部档案采用改进的循环拥挤距离排序,并将高斯变异引入到进化种群,在保持具有全局搜索能力的同时,也避免了陷入局部最优。对WFG系列测试函数的仿真结果表明,与经典多目标优化算法相比,本文算法在解的收敛性和多样性等方面有显著的提升。  相似文献   

7.
为了探索多标签数据集中每个标签所具有的特定特征,针对标签特定特征进行有效的利用,提出基于聚类提升树的多标签学习方法(multi-label leaning based on boosting clustering trees,MLL-BCT).建立MLL-BCT整体框架,通过引入聚类特征树来挖掘数据样本之间的相关性,以...  相似文献   

8.
目前在半监督聚类的研究中,尤其是当有类标信息的类的数量少于整个数据集的类的数量时,其聚类效果并不好.本文在现有半监督聚类技术的基础上,通过特征加权来提高同一类文档的相似性,从而得到更好的聚类效果.为了验证这一思想的有效性,实验不仅在单语言数据集上进行,还在中、英双语数据集上进行了只包含中文或英文类标时的聚类实验.实验结...  相似文献   

9.
一种提高文本聚类算法质量的方法   总被引:1,自引:0,他引:1  
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题.  相似文献   

10.
同时使用标号点和成对约束信息,设计了半监督的最近邻分类算法。为了解决可能无法为某些数据点分配类标号的问题,提出了ratio排序方法以降低冲突点的个数,并采用基于Citation-kNN评分的主动式学习策略,通过获取一些与周围数据点不一致的点的标号来改善半监督学习的效果,以寻找有价值的监督信息。实验结果表明,本文的学习策略可以提高算法的聚类效果,其CRI指标好于COP-kmeans和CCL算法。  相似文献   

11.
RNN(相互最近邻)算法是一种基于层次的聚类算法,它比其他传统的层次聚类算法聚类更快.由于利用RNN算法对同一个数据集聚类,若选择不同簇间距离度量方式,那么聚类结果就会不同.因此在分析聚类结果对距离度量方式依赖性的基础上,采用用聚类聚集的思想,找出一种新的聚类方式,从而使得聚类效果更好.  相似文献   

12.
一种基于语义距离的高效文本聚类算法   总被引:6,自引:0,他引:6  
摘 要:提出了一种基于语义进行文本聚类的新方法。该方法从语义上具体分析文档,利用文档具体语义计算文档间的相似度,使得文档聚类结果更合理。文本聚类主要采用最近邻聚类算法,并提出第二次聚类算法改进最近邻算法对输入次序敏感的问题。类特征词的选择上根据相似度权重优胜略汰类特征词,使得最后类特征词越来越逼近类的主题。实验结果表明本文所提出的算法在聚类精度和召回率上均优于基于VSM的K-Means聚类算法。  相似文献   

13.
定义了一种新的基于马氏距离的半监督模糊聚类算法,并推导出它的迭代公式.该算法能够提高聚类算法的运行效率.在人工数据集和真实数据集上的实验结果验证了这种方法的有效性.提取了黄瓜叶片7个色调特征,Fisher降维之后进行半监督聚类分析.对于已标识类别属性的叶片,聚类结果与已知属性的一致率达100%,而对于未标识数据,一致率也达到96%以上.  相似文献   

14.
特征提取与多目标机器学习研究及应用   总被引:1,自引:0,他引:1  
特征提取与多目标机器学习算法是基于多目标协同EA提出的,该算法通过对学习样本多属性进行特征提取找出其核属性,由核属性与其他非核属性组成属性组,从而提高了分类的精度。各属性组再按相似性和类标签进行有监督地聚成类簇,类簇个数和中心根据适应度矢量函数通过机器学习算法自动确定,这样类簇个数和中心就不受主观因素的影响并且保证了这两个关键要素的优化性质。待分类样本的类属是按离某个类簇中心距离最近邻法则和该类簇的类标签来判定。最后,将算法应用到UCI数据集中的Liver Disorders和Hepatitis两个数据集,以及浙江省北部地区夏天异常高温天气预测。通过实验表明,特征提取与机器学习算法优于著名的朴素贝叶斯、C4.5、SVM算法。  相似文献   

15.
虽然最邻近决策规则能很好地解决数据集的非线性和非平衡性问题,但其没有学习过程.在此基础上,提出了一种利用聚类方法来浓缩训练样本,再根据最近邻准则进行决策的方法——核最近表面分类方法.通过实验将其与几种常用的统计分类方法进行对比,结果表明,核最近表面分类方法具有决策速度快、存储空间需求小等优点,同时也能够很好地处理非平衡...  相似文献   

16.
针对传统的多模型建模方法在聚类过程中不考虑模型的输出误差而导致最终的模型存在较大误差的问题,提出了一种带监督的仿射传播聚类多模型建模方法.该方法先由仿射传播聚类算法得到初始聚类,然后,根据输出误差对聚类进行循环调整至各类别不再变化为止,最后,得到准确划分的聚类并采用最小二乘支持向量机建立子模型来实现对输出的估计,并将本文的建模方法应用到某双酚A反应釜出口丙酮含量的软测量建模中进行仿真.结果表明,该方法可以获得比传统的多模型建模方法更好的建模效果.  相似文献   

17.
改进GA法在水污染控制系统多目标规划中的应用   总被引:6,自引:1,他引:5  
本文提出应用一种改进GA法求解水污染控制系统中存在的多目标规划问题,该算法采用十进制编码原理,所有操作均在实数域内进行,从而避免了二进制中编码和解码的麻烦.同时引入变权数综合距离评判模型和多个体交叉机制,对多目标函数进行求解.通过实例研究表明,改进的GA法得到最小适应度函数值在[0.0468,0.0567]之间,当自变量为(0、0337,0.5663,0.4,0,0,0.4,0.1373,0,0.5,0,0.3,0,0.2154,0.1346)。时达到最优、所对应的目标函数分别是:工程费用函数312.785万元,地下水总用量0.30125m^3/s和河流断面氧亏值6.69426mg/L.因此,改进的GA法具有很好的全局优化性能,不但可以有效克服传统遗传算法所存在的缺陷,而且求解过程简单,优化结果合理,在水污染控制规划中具有良好的应用前景.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号