共查询到20条相似文献,搜索用时 15 毫秒
1.
《黑龙江大学自然科学学报》2016,(4)
基因组数据的聚类分析,可以从多个数据集中识别与特定的生物学表型相关联的基因。传统的聚类方法仅进行单向聚类,即仅对基因表达谱的特征(基因)或样本进行聚类,没有考虑基因与样本的关联性。针对基因表达数据提出了一种新的无监督双向聚类算法,同时对基因和样本进行聚类。对已提出的聚类性能评价指标进行了改进,利用改进的指标确定双向聚类算法最优的聚类个数。将该方法分别应用到乳腺癌和青少年类风湿性关节炎基因表达数据中,结果显示,与传统方法相比,本方法具有较好的聚类效果。 相似文献
2.
基于分层聚类的k-means算法 总被引:8,自引:0,他引:8
为了更好地实现聚类,在分析分层聚类和k-means算法优缺点的基础上提出了一种改进的聚类算法.改进算法将分层聚类和k-means聚类算法的优点相结合,首先采用分层聚类,得到一个初始的聚类结果,然后应用k-means聚类算法继续聚类.实验结果表明,改进算法较原先传统的聚类算法,不但算法执行速度快、效率高,而且聚类效果也比较好。 相似文献
3.
随着计算机和网络在人们工作和生活中的广泛普及,图片数据也成几何倍地急剧膨胀。面对日益增多的海量图像数据,如何进行有效的存储及图像信息数据的快速挖掘,是目前需要解决的主要问题。本文借助云平台Hadoop的分布式文件系统(HDFS)和分布式并行计算框架(MapReduce),进行海量数字图像的数据挖掘。构建基于Hadoop云平台的海量数字图像数据挖掘系统,实现海量数字图像信息数据挖掘。 相似文献
4.
针对某劳务众包平台——拍照赚钱APP的任务定价,根据数据位置及分布的统计特征,充分挖掘所给数据信息,利用R软件,基于K-Means聚类算法计算出每一价格任务到聚类中心的最短距离,建立任务价格与距离的非线性回归模型.探讨任务的定价机制,发现任务的定价与其距聚类中心的距离存在幂函数关系,并提出了优化任务定价的建议. 相似文献
5.
针对聚类算法并行化的需求,该文对基于Hadoop平台Kmeans算法进行了改进,选用Canopy算法对数据进行预处理,并在具有一定数据结构的电影数据集上进行了单机对比实验,集群加速比实验和集群扩展率实验,分别体现改进后算法实现的高效性、良好的加速比和可扩展性,从而可以有效地运用在实际海量数据挖掘中. 相似文献
6.
7.
8.
KNN算法通过近邻样本的个数分类,Entropy-KNN算法给出新的相似度定义,而且投票时综合待测样本与近邻样本的个数和各类近邻的平均距离,但两种算法均未考虑近邻样本间的相似.提出的基于层次聚类法的Entropy-KNN算法,首先对训练集按类别进行层次聚类,接着在与待测样本最相似的子类中选取近邻样本,使得近邻样本具有较高的相似度,最后结合Entropy-KNN算法进行分类.在蘑菇数据集上的实验结果表明,该算法的分类准确率高于Entropy-KNN算法. 相似文献
9.
针对车险续保概率,运用K-means聚类算法,混合因素分析法建立了客户分群模型,广义线性混合模型,使用MATLAB,SPSS,Excel等软件进行处理分析.研究得出车险客户的精准画像并给出了客户分析报告和相应的续保概率.总结出了一套车险费率算法,为不同类型的客户量身定制了车险方案,以提高车险客户的续保概率. 相似文献
10.
《哈尔滨师范大学自然科学学报》2016,(5)
文章先分析了云计算任务调度的内涵,综述了蜂群算法的原理,继而通过云计算调度问题的描述,提出云计算调度的数学模型,最后通过仿真实验,证明改进的蜂群算法可以很好地改善云任务调度系统的性能,有一定的借鉴意义. 相似文献
11.
DBSCAN算法是一种基于密度的空间数据聚类方法,聚类速度快,且能够有效处理噪声点和发现任意形状的空间聚类.但是数据量大时要求较大的内存支持和IO消耗,当空间聚类的密度不均匀,聚类间距离相差很大时,聚类质量较差.本文在DBSCAN算法的基础上提出一个划分不同密度分别聚类的算法.测试结果表明可以改善聚类效果. 相似文献
12.
Web日志模糊聚类算法的研究 总被引:3,自引:0,他引:3
本文提出了一种新的Web事务模糊聚类算法.给出了新的Web事务定义和相异度定义,聚类准则函数是所有样本与C个代表中心的相异度之和,我们的目标是使这个聚类准则函数最小.同时给出了改进算法.经过试验证明,改进的算法更有效. 相似文献
13.
对线粒体DNA序列可通过图形表示及计算曲线的散度均值来构造模糊论中的相似矩阵,基于这些,提出一种新的方法:用模糊聚类图论法中的Kruskal算法来进行系统进化树的重构,并选取了8个物种的线粒体DNA序列来说明此方法. 相似文献
14.
《湖南师范大学自然科学学报》2016,(3)
针对常用的文本数据挖掘系统在处理海量文本数据时时间效率较低的问题,论文提出了一种基于改进Hadoop云平台的海量文本数据挖掘方法.该方法首先将传统Hadoop云平台进行改进以适应海量文本数据挖掘的需要,然后将海量文本数据集和挖掘任务分解到该改进平台上的多台计算机上并行处理,从而实现了一个基于改进Hadoop云平台的海量文本数据挖掘平台,并通过对10 000篇新闻材料组成的实验数据集进行挖掘验证了该平台的有效性和高效性. 相似文献
15.
16.
《哈尔滨师范大学自然科学学报》2016,(5)
无线传感器网络(Wireless Sensor Networks,简称WSNs)是一种多跳、自组织式的网络,传感器节点在能量、通信能力以及计算能力等方面均受限,并且在数据传输过程中也存在安全隐患,基于此提出了一种基于K-means聚类的安全高效的数据聚集算法KSEDA(K-means Safe and Efficient Data Aggregation).该算法采用K-means聚类算法对传感器节点进行分簇,通过分析节点的剩余能量进行选择簇头节点;并在向汇聚节点Sink传递过程中通过安全多方计算协议进行数据安全聚集.通过与CPDA算法进行实验对比,算法具有低能耗、高安全性等特点. 相似文献
17.
为了提高银行客户分类的正确率,使银行的收益最大化,提出一种基于改进K均值聚类的银行客户分类算法.算法定义了类间最大相似度均值(AMS),并根据该定义确定最佳聚类数.当计算出的当下AMS值比前一次的AMS值小时,根据距离原则选择初始聚类中心;当计算出的当下AMS值比前一次的AMS值大时,把该最小AMS值相匹配的聚类中心看作初始聚类中心.利用最佳聚类数和初始聚类中心实现银行客户的细分.仿真结果表明,提出的算法能够跳出局部最优,并提高客户分类的正确率. 相似文献
18.
在进行大规模遥感卫星体系论证时,针对单个用户部门、一星一议式的遥感卫星需求的传统分析方法已不再适用.为了解决这个问题,以光学遥感应用需求为研究对象提出一种遥感应用需求聚类算法.首先,通过需求指标分析提取出空间分辨率等5个体系级需求指标,以实现需求结构化表达;然后,构造基于需求满足度评估的相似性测度,并以需求满足度作为衡量需求间相似性的量化指标;最后,设计基于满足度测度的最大最小距离聚类算法,进而提取出中心类别需求.实验结果表明,该方法可以很好地合并同类需求,所得结果能支撑后续的体系设计与载荷研制工作. 相似文献
19.
针对海量Web文本的关键词提取问题,提出一种基于Hadoop分布式计算平台的关键词提取方案.首先,配置Hadoop平台,使其能够支持自然语言处理过程;然后,使用GATE工具对Web文本进行词句分割、词性标注和注释规则操作,得到候选关键词集;最后,利用单词位置和跨度重要性因子对传统TF-IDF算法进行加权,从而计算候选关键词与文档之间的相关性,最终获得该文档的关键词以标注文档属性.实验结果表明,提出的分布式关键词提取方案能够快速准确地提取Web文档的关键词. 相似文献
20.
针对K均值聚类算法存在的缺点,提出了一种基于自适应权重的粒子群优化(PSO)和K均值混合聚类算法.该算法在运行过程中通过引入非线性动态惯性权重系数,提高了混合聚类算法全局搜索能力和局部改良能力,并根据群体的适应度方差来确定K均值算法操作时机,增强算法局部搜索能力的同时缩短了收敛时间.将该算法与K均值聚类算法、基本PSO聚类算法和基于传统的粒子群K均值聚类算法进行比较,表明该算法不仅能有效地克服陷入局部最优,而且全局收敛能力和收敛速度都有所提高. 相似文献