共查询到20条相似文献,搜索用时 449 毫秒
1.
DNA microarray technology is a high throughput and parallel technique for genomic investigation due to its advantages of simultaneously surveying features of large scales complex data in biology. This paper aims to find feature subset to build the classifier for gene expression data analysis. At first, K-means clustering algorithm was carried out on the dataset of yeast cell cycle. Based on rand calculation, a statistical method was used to pick out the data points (genes) for classifier design. Meanwhile, the principal component analysis was applied to help to construct the classifier. For the validation of classifier built and prediction of a target subset of genes, discriminant analysis in terms of partial least square regression and artificial neural network were also performed. 相似文献
2.
聚类分析在犯罪数据分析中的应用 总被引:1,自引:0,他引:1
针对犯罪情报数据的特点,文章利用聚类分析将具有相似特征的案件或犯罪人员从海量数据库分拣出来,单独形成特征类型数据库,找出每类中大部分犯罪分子及犯罪活动中的特征信息,根据不同分类,将犯罪特征应用到该类其他案件的侦破中去,为犯罪案件的串并及破案提供有益帮助. 相似文献
3.
针对基因表达数据空间分布的特性,提出了一种基于模糊核判别分析的基因表达数据分析方法.方法综合了模糊数学以及核判别分析方法的优点,提高了对基因表达数据分类识别的准确性.以多发性骨髓瘤的基因表达数据为例进行了实验,从实验结果可以看出,采用模糊核判别分析方法可以得到最佳的识别效果. 相似文献
4.
数据预处理在商业企业数据仓库的应用 总被引:1,自引:2,他引:1
数据预处理是数据挖掘过程中重要环节 ,对数据预处理技术进行研究具有现实意义。文章在介绍数据预处理方法的基础上 ,结合大型商业营销企业数据仓库数据的特点和数据挖掘过程中对数据的要求 ,详细论述了数据预处理技术在大型商业营销企业数据仓库中的应用 ,提出改善数据质量是预处理技术的关键。 相似文献
5.
数据挖掘商业应用平台的数据预处理管理 总被引:6,自引:0,他引:6
如何提高数据预处理的效率,提高数据挖掘过程的可管理性,是数据挖掘者必须考虑的问题之一。通过对一个电信增值行业客户行为的分析,介绍了如何应用数据挖掘商业应用平台所提供的可视化流程图进行数据预处理,以期提高数据预处理的效率和过程的可管理性。 相似文献
6.
miR-1/133基因簇在心肌和骨骼肌中特异性表达,对心脏以及骨骼肌的发育及生理病理具有重要作用.该研究采用生物信息学方法,研究了miR-1/133基因簇的进化特征,预测了其靶基因及其调控的生物学过程.利用miRBase数据库对23种不同物种间miR-1/133基因簇的序列、组织方式进行了比较.采用最大似然法构建miR-1/133基因簇的系统进化树,显示该基因簇的进化与物种进化关系有一定差异.利用在线数据库对miR-1/133基因簇上游转录因子及下游靶基因进行预测,并对其进行综合分析,绘制出该基因簇的网络调控图,表明miR-1/133基因簇参与了骨骼肌与心肌发育、胰岛素受体信号通路、经典Wnt信号通路、p53信号通路等体内重要生理过程,为进一步阐明miR-1/133基因簇的生物学功能提供了理论依据. 相似文献
7.
聚类分析法在公交网络评价中的应用 总被引:2,自引:0,他引:2
依据公交网络优化调整的原则,提出了分别用于交通分区公交线网和公交线路的聚类指标,应用聚类分析法对城市公交网络和单条公交线路的特征进行了分析、评价,归纳出了各类线路的特征,分析了不合理线路及其原因。在此基础上,提出了现有公交线网的改进措施。 相似文献
8.
Isomap在基因表达谱数据聚类分析中的应用 总被引:8,自引:0,他引:8
基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。基于非线性降维算法等容特征映射 ,提出了一种新的大规模基因表达谱数据聚类算法 ,该方法改进了样本向量之间的距离度量 ,用测地距离代替传统的欧式距离 ,有助于挖掘高维数据内在的几何结构。将该算法应用于两个公开的基因表达数据集 ,并用一种新的评价方法Normalized Cut将聚类结果与其他聚类方法的结果进行了比较。结果表明 ,该文的聚类算法优于其他聚类算法 ,聚类结果具有明显的生物学意义 ,并能对数据的类别数作出较好的预测和评估 相似文献
9.
协作过滤是当今应用较为成功的个性化服务技术,Web日志可以为个性化服务技术提供重要的数据源,只要对日志数据进行高效预处理,就能提高协作过滤算法有效性和个性化服务质量。结合实际日志数据的处理,给出了基于协作过滤的Web日志数据预处理过程结构图和一种可行的数据预处理方法,该方法不仅可以提供更加干净、规则的数据源,而且在用户兴趣度量方面,弥补了以往诸多兴趣度量方法的不足,为协作过滤算法提供了更加准确的数据支持。 相似文献
10.
基于协作过滤的Web日志数据预处理研究 总被引:2,自引:0,他引:2
协作过滤是当今应用较为成功的个性化服务技术,Web日志可以为个性化服务技术提供重要的数据源,只要对日志数据进行高效预处理,就能提高协作过滤算法有效性和个性化服务质量。结合实际日志数据的处理,给出了基于协作过滤的Web日志数据预处理过程结构图和一种可行的数据预处理方法,该方法不仅可以提供更加干净、规则的数据源,而且在用户兴趣度量方面,弥补了以往诸多兴趣度量方法的不足,为协作过滤算法提供了更加准确的数据支持。 相似文献
11.
模糊聚类分析在建立统计分析指标体系中的应用 总被引:3,自引:0,他引:3
祁玉海 《青海师范大学学报(自然科学版)》2002,(2):9-11
本文利用模糊聚类分析法的有关知识,对统计分析中就简化指标体系问题进行初步研究。 相似文献
12.
基于分类指标优化的聚类分析 总被引:1,自引:0,他引:1
针对当前应用聚类分析直接从现成指标入手的现状,指出了其局限性.应用多元统计分析,首先对初步建立的分类指标中关联性大的指标进行优化整合,得到一组更为科学合理的分类指标,再进行模糊聚类分析,聚类结果证明此思路是正确的. 相似文献
13.
提出了一种计算机机群环境下JOIN算法,防止数据偏斜对机群执行效率的影响.给出了数据分布树的形式化定义,构造了基于数据分布树的数据均衡分布机制、抗数据偏斜的JOIN算法.分析和实验表明,该算法适合于海量数据查询并能有效地解决机群并行环境下数据偏斜所造成的查询性能低下的问题. 相似文献
14.
针对基于路径的半结构化数据结构相似度度量方法不能很好地处理路径部分相似以及忽略了元素之间兄弟关系的问题,提出一种基于频繁关联标签序列的结构相似度度量方法,该方法将半结构化数据的结构信息视为标签序列的集合,采用数据挖掘技术中频繁模式和关联项集的概念及算法,从半结构化数据中挖掘频繁关联标签序列并以此作为特征计算其结构相似度.实验结果证明:提出的基于频繁关联标签序列的半结构化数据结构相似度度量方法可以解决基于路径方法的不足,计算的结构相似度更准确、更合理. 相似文献
15.
采用相空间重构和改进符号的非线性动力学相似性模型,研究了2007—2012年全球金融危机前后美国与英国、法国、德国、日本、中国金融股指的相似性.计算数据表明,各国的市场指数都在不同时段和不同程度对美国指数表现出动力学相似性,即经济繁荣阶段,美国经济影响其他国家;金融危机时期,危机也确实从美国传染到了他国市场.模型计算的走势及反应的现象证明使用改进符号的非线性动力学相似性模型适用于金融市场,是一种研究金融危机传染的可行新方法. 相似文献
16.
对基因表达数据进行双聚类分析是生物信息学领域的一种重要技术方法,但双聚类问题已被证明属于NP难问题.目前针对基因表达数据的双聚类算法都存在时间效率较低的问题.为此,采用遗传算法与粒子群优化算法相结合的混合进化算法来求解基因表达数据的双聚类问题.实验结果表明,所提算法在明显减少运行时间的同时,仍能保证良好的聚类效果. 相似文献
17.
提出一种改进的非负矩阵因子分解算法.在非负矩阵因子分解的迭代计算过程中加入了数据平滑处理来解决抖动问题,并用于一组白血病微阵列数据分析.实验结果表明,改进过的非负矩阵分解算法提高了分类的准确率,同时这个方法避免了NMF算法的“零值”问题. 相似文献
18.
Protecting the security of sensitive information has become a matter of great concern to everyone. Data hiding technique solves the problem to some extent, but still, some shortcomings remain for researching. To improve the capability of hiding huge data file in disk with high efficiency. In this paper, we propose a novel approach called CryptFS, which is achieved by utilizing the file access mechanism and modifying the cluster chain structure to hide data. CryptFS can quickly hide data file with G bytes size in less than 0.1s. The time used for hiding and recovering data is irrelevant to the size of data file, and the reliability of the hidden file is high, which will not be overlaid by new created file and disk defragment. 相似文献
19.
介绍了数据聚类算法,提出了采用基于相似度的聚类算法进行客户分类的思路,给出了相似度的计算方法及客户分类的算法,并通过试验结果证明了算法对客户分类的有效性. 相似文献
20.
采用60个人(癌变、正常和未知类型各20个)的各自111条基因的表达值为研究对象,使用聚类分析法、线性判别分析法对未知类别对象进行了分类,结果显示所得分类结果基本一致.所用分类方法可操作性较强,能为有关研究者提供理论支持和具体操作方法及程序,也能为相关部门提供决策依据. 相似文献