首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
中医证候的多元统计分析及方法研究   总被引:1,自引:0,他引:1  
从“高脂血症及动脉粥样硬化痰瘀证候的蛋白质组学研究”的数据出发,研究影响中医证候的各主要因素。对11种可能的标志蛋白质(群)数据进行分析,以统计聚类为主导思想,给出变量聚类和样本数据聚类综合应用的方法,并结合医学角度对变量聚类结果的分析,指导组内和组间两种样本聚类讨论;同时,通过假设检验,从统计理论上对所得分类予以支持。最后得到标志蛋白质群{结合珠蛋白前体,α-胰蛋白酶抑制剂轻链,脂肪细胞脂质结合蛋白异构体3,补体C4}或{纤维蛋白原γ链,α-胰蛋白酶抑制剂轻链,未确定名称的蛋白(ID1485)}。考虑可能是区分高脂血症及动脉粥样硬化痰证和瘀证的标志蛋白质群,从而给出蛋白质水平上对痰证和瘀证判决方法的建议。  相似文献   

2.
蛋白质的二级结构序列和结构型   总被引:1,自引:0,他引:1  
从蛋白质的二级结构序列出发 ,提出了冗余的概念 ,定义了冗余数量和冗余长度 ,给出了不同结构型蛋白的冗余数量和长度的分布特性 .统计结果表明 α类蛋白中 30 %、β类蛋白中84 %、α/β类蛋白中 95 %的序列不同程度的存在冗余 ,冗余数量和冗余长度主要分布在 1~ 3的范围 .以主二级结构序列三联体为参数 ,利用信息聚类方法对 α类、β类、α/ β类、α β类的6 0 0个蛋白进行了聚类 ,结果表明 ,对冗余较少的α类蛋白 85 %以上能够较好地聚类在一枝中 ,但对于冗余较多的其它类蛋白不能分在一个大支中 ,大部分可以分散在多个小支中 .以主二级结构序列三联体为参数 ,利用 Mahalanobis距离方法对上述四种结构型进行预测 ,预测的总体准确率为 81 .1 % .聚类结果和利用 Mahalanobis距离分类结果充分展示了蛋白质二级结构序列对结构型的特殊作用 ,但由于冗余的影响使得二级结构序列的信息并未充分显示出来 .说明从蛋白质二级结构序列出发预测结构型和构建蛋白质框架结构是合理的选择  相似文献   

3.
利用蛋白质序列的循环关系,采用循环匹配算法对数据进行预处理,得到相关联蛋白质数据集,再利用该数据集构造蛋白质的网络图,在此基础上采用图聚类算法,对待预测的蛋白质相关的各个蛋白聚类,并进行子群分割,对各个子群采用z值进一步计算并得出作为预测结果的蛋白质功能.经实验,该方法与其它最新方法相比较,预测结果的最终衡量指标F1-measure具有明显的提升.  相似文献   

4.
覆盖聚类算法   总被引:9,自引:0,他引:9  
首先比较几类主要的聚类算法,给出每类算法的基本概念、原理、每类的代表性算法,及这些算法的主要特征。在此分析基础上,提出一种新的聚类算法———覆盖聚类算法,该算法采用覆盖的概念将比较集中的样本聚合在一起,从而发现隐含在样本集中的类,对于周围稀疏的样本结合最短距离法,获得聚类效果,并用实验数据对分层聚类方法、LBG方法与覆盖聚类算法进行比较,证明了覆盖聚类算法的可行性和有效性。最后给出了算法的研究方向。  相似文献   

5.
郑珩  高扬 《科技资讯》2009,(24):207-208
旅游业的发展对于各省的经济起着重要的作用,本文从国际旅游竞争力.星级饭店实力、旅行社规模与收益、旅游业从业人员、旅游技术人员培养这五个方面选取14个指标组成各省份旅游业发展评价指标体系,运用多元统计中的因子分析提取了五个公因子,并结合因子得分给出了31个省际城市的旅游业发展综合排名,最后分别对原变量和公因子进行6种方法的系统聚类,通过比较聚类结果,给出了中国各省旅游业发展的评价与建议。  相似文献   

6.
多维数据的聚类结果可视化技术综述   总被引:1,自引:0,他引:1  
在很多情况下,人们不仅需要聚类算法给出类标,还需要掌握聚类结构和数据分布情况.为满足后一项需求,出现了许多聚类结果的可视化(简称聚类可视化)技术,以图形的方式将多维数据和其聚类结果显示在二维或三维空间.从直接在二维或三维空间显示数据及其聚类结果、数据经降维(或映射)后显示以及其它显示方式3种角度综述了常用的30多种聚类可视化方法,并对各种方法的优缺点和适用性进行了分析和讨论.  相似文献   

7.
在聚类分析中,如何选择恰当的聚类个数是一个非常复杂而又必须面对的问题.尽管针对数值型数据聚类个数的选择算法已经进行了广泛地研究,但如何确定符号型数据的聚类个数仍然是一个富有挑战性的问题.结合划分和层次聚类的思想,提出一种符号数据聚类个数的确定算法.在UCI数据集上的实验结果表明该方法是有效的.  相似文献   

8.
聚类算法是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法.目前其研究已深入到数据库、数据挖掘、统计等领域并取得了很大的成绩。但是由于聚类算法的多样性,使其在很多行业应用中有着不同的应用效果,基于此。本文通过聚类算法三种指标的比较,给出了一种聚类方法应用效果评估的方法.该方法结合电信的案例应用与K-Means、SOM、BIRCH等聚类方法结果的分析,最后得出K-Means方法在电信客户细分中的应用优越性.  相似文献   

9.
聚类算法通常用于数据的聚类,但只要对算法结果从另一角度进行分析,则可发现它还可以用于异常数据的检测. 首先介绍了数据挖掘中的聚类算法,进而结合具体实例给出应用基于密度的聚类算法DBSCAN进行异常检测的过程,最后指出最终异常数据集的确定还应结合领域专家意见.  相似文献   

10.
从蛋白质的氨基酸组成出发,用信息聚类方法给出了蛋白质的聚类树状图,发现树状图的分支与蛋白质二级结构的含量有较强的相关性.  相似文献   

11.
基于山峰聚类的聚类上限确定方法   总被引:1,自引:0,他引:1  
文章提出了一种基于山峰聚类的聚类上限检测方法,依靠山峰聚类确定聚类数目的上限,仿真试验表明,这种方法能将聚类上限确定在一个合理的范围之内,从而加快聚类的效率.  相似文献   

12.
一种新的层次谱聚类算法   总被引:1,自引:1,他引:0  
提出一种新的聚类算法——层次谱聚类算法.该算法在传统二分的SM谱聚类的过程中嵌入了层次聚类算法,目的是为了提高谱聚类的聚类正确率,同时又利用谱聚类纠正了层次聚类过程中所得到的歪斜划分.实验结果表明:提出的层次谱聚类算法的聚类正确率比层次聚类算法、谱聚类算法的聚类正确率都要高,同时又纠正了层次聚类过程中的歪斜划分.  相似文献   

13.
14.
We propose a new clustering algorithm that assists the researchers to quickly and accurately analyze data. We call this algorithm Combined Density-based and Constraint-based Algorithm (CDC). CDC consists of two phases. In the first phase, CDC employs the idea of density-based clustering algorithm to split the original data into a number of fragmented clusters. At the same time, CDC cuts off the noises and outliers. In the second phase, CDC employs the concept of K-means clustering algorithm to select a greater cluster to be the center. Then, the greater cluster merges some smaller clusters which satisfy some constraint rules.Due to the merged clusters around the center cluster, the clustering results show high accu racy. Moreover, CDC reduces the calculations and speeds up the clustering process. In this paper, the accuracy of CDC is evaluated and compared with those of K-means, hierarchical clustering, and the genetic clustering algorithm (GCA)proposed in 2004. Experimental results show that CDC has better performance.  相似文献   

15.
陈雪芳 《科学技术与工程》2013,13(12):3297-3300
提出了基于远近距离的说话人聚类算法:首先,使用端点检测算法把语音分割成读音段,然后,采用T2公式对近距离的说话人语音段进行聚类得到语音块,最后,使用谱聚类的方法估计说话人数目,对远距离的说话人(语音块)进行聚类。实验结果表明,在近距离的说话人聚类中,使用T2公式比使用BIC和KL在语音块准确率方面分别高出2.62%和13.84%,在远距离的说话人聚类中,使用谱聚类算法基本上可以把语音中的说话人数目计算出来,当说话人数目为15时,类纯度和说话人纯度可以达到78%,说明该算法可以有效地对说话人进行聚类。  相似文献   

16.
针对k-prototype算法在处理复杂的数据集时,常出现一些纯度不高的簇,影响了聚类质量的问题,提出一种基于k-prototype的多层次聚类改进算法,利用属性自动选择的方法将一些纯度不高的簇进行再聚类,以提高聚类质量.以UCI标准测试数据集进行实验,实验结果表明,该改进算法能够明显提高混合型数据集的聚类质量,并且在数据约简方面有良好表现.  相似文献   

17.
Conceptual clustering is mainly used for solving the deficiency and incompleteness of domain knowledge. Based on conceptual clustering technology and aiming at theinstitutional framework and characteristic of Web theme informauon, this paper proposes and implements dynamic conceptual clustering algorithm and merging algorithm for Web documents, and also analyses the super performance of the clustering algorithm in efficiency and clustering accuracy.  相似文献   

18.
一种增量式文本软聚类算法   总被引:1,自引:0,他引:1  
针对传统文本聚类算法时间复杂度较高,而与距离无关的算法又不适用于动态、变化的文本集等问题,提出了一种基于语义序列的增量式文本软聚类算法.该算法考虑了长文本的多主题特性,并利用语义序列相似关系计算相似语义序列集合的覆盖度,同时将每次选择的具有最小熵重叠值的候选类作为一个结果聚类,这样在整个聚类的过程中大大减小了文本向量空间的维数,缩短了计算时间.由于所提算法的语义序列只与文本自身相关,所以它适用于增量式聚类.实验结果表明,算法的聚类精度高于同条件下的其他聚类算法,尤其适合于长文本集的软聚类.  相似文献   

19.
聚类分析是一种基本的数据分析方法,它在数据挖掘,统计学,空间数据库技术,人工智能,生物学研究,机器学习,模式识别等领域都得到了广泛的应用.论文介绍了各类主要的聚类算法,并概述了其主要应用领域.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号