共查询到20条相似文献,搜索用时 93 毫秒
1.
单细胞转录组测序(single-cell RNA-sequencing, scRNA-seq)数据具有高稀疏性、高噪声、高维度、结构信息和位置信息缺乏等特点,且数据规模迅速增大,使得单细胞聚类面临较大的挑战。为便于对不同的scRNA-seq数据选择合适的分析方法,本研究对scRNA-seq数据的质量控制、基因选择和聚类等方法进行比较分析。首先,分析质量控制中过滤和归一化的方法及其阈值设置;然后,从模型因子、测序技术、方法局限性和优势等方面,对6种典型的基因选择方法进行比较;最后,详细阐述6种典型的单细胞聚类方法,并分析其适用的数据规模和优缺点。收集14个带有真实标签的金标准scRNA-seq数据集,包括5个全长测序数据集和9个双端测序数据集,其中5个数据集包含的细胞数大于3 000个,对6种典型的基因选择方法和6种单细胞聚类方法进行实验比较,分析它们在识别高差异基因时和在聚类性能上的差异。结果发现,不同的基因选择方法在Adam和Wang_Lung数据集分别可以检测到182个和124个共有基因,以及一些独有基因。此外,Seurat、SC3、Monocle 3和scDeepCluster的... 相似文献
2.
《信阳师范学院学报(自然科学版)》2021,(3)
单细胞RNA测序(scRNA-seq)是一种在单细胞水平上分析复杂组织转录的技术,可以识别单细胞基因组突变引起的差异基因表达,以及新的细胞特异性标记和细胞类型.在肿瘤研究的各个方面,scRNA-seq起着重要的作用.利用49篇文献综述了scRNA-seq的原理,重点是scRNA-seq在肿瘤异质性、发病机制和治疗中的应用.scRNA-seq为肿瘤研究提供了新的技术手段. 相似文献
3.
单细胞RNA测序(scRNA-seq)数据插补方法用于解决scRNA-seq数据观测中存在的大量“漏失”(dropout)噪音,改善下游分析,scRNA-seq数据插补方法设计是单细胞数据研究的热点方向之一.本文首先对20种主要的scRNA-seq数据插补方法进行介绍,包括基于模型的插补方法(6种)、基于平滑的插补方法(3种)、基于深度学习的插补方法(8种)和基于低秩矩阵的插补方法(3种),分析了各类方法的优势和缺点;其次,简要综述了插补方法比较研究的相关成果;然后,针对4种下游数据分析评估了以上方法(除scGNN外)的性能;最后,分析目前scRNAseq插补所面临的挑战,并指出新的研究方向. 相似文献
4.
通过基因表达的变化可以推断基因调控网络.单细胞RNA测序(scRNA-seq)为推断细胞周期或分化等时间依赖性生物过程的基因调控网络提供了新的可能性,基于scRNA-seq数据的基因调控网络推断算法成为一个相对活跃的研究方向.本文首先对26种基因调控网络推断算法进行介绍,包括3种针对批量RNA测序数据的推断算法和23种针对scRNA-seq数据的推断算法(基于布尔网络的算法2种、基于微分方程的算法3种、基于伪时序基因相关性集成策略的算法5种、基于共表达基因的算法4种、基于细胞特异性的算法3种、基于深度学习的算法6种),详细描述了每类算法的方法原理和算法优缺点,对算法进行综合比较;然后分析了推断算法比较研究的相关成果,并使用scRNA-seq数据简单评估了26种算法的性能;最后探讨当前基因调控网络推断算法面临的机遇与挑战. 相似文献
5.
正则化是scRNA-seq数据分析的核心并影响决定下游分析的质量.相比bulk RNA-seq,由于scRNA-seq的zero inflation,其正则化是一个尚未解决的问题.本研究给出了一个bias analysis framework对现有的scRNA-seq正则化方法进行评估比较.这个bias analysis framework对scRNA-seq正则化提供了理论基础.同时作者比较了广为使用的bulk RNA-seq正则化方法,以及专为scRNA-seq设计的正则化方法在scRNA-seq基准数据聚类中的作用. 相似文献
6.
为解决脑脊液病理图像中部分细胞膜较为模糊,与图像背景难以区分的问题,采用了基于注意力机制的U-Net深度学习方法对脑脊液病理图像做全自动分割.在深度学习网络中加入注意力机制对细胞进行定位,抑制无关信息,提高语义的特征表达,提高对细胞整体分割的精确性.通过镜像、旋转等操作对数据集进行扩充预处理.采用VGG16预训练模型进行迁移学习,交叉熵与Dice损失相结合作为损失函数,分别在脑脊液临床图像与公开数据集2018 Data Science Bowl上进行验证;并与Otsu, PSPnet, Segnet, DeeplabV3+, U-Net进行对比,结果表明, 本文方法在各项指标上均优于其他分割方法. 相似文献
7.
为了准确地挑选出微带青烟叶,提出了基于MobileNet和迁移学习的微带青烟叶图像识别方法.首先收集烟叶图像建立样本数据集;其次,对在ImageNet数据集上训练好的MobileNet进行微调,以使其适应烟叶图像识别;最后,基于迁移学习方法利用烟草样本训练集对微调后的MoblieNet模型进行训练,从而准确识别微带青烟叶. 相似文献
8.
一种基于小数据集的贝叶斯网络学习方法 总被引:1,自引:0,他引:1
贝叶斯网络是用来表示不确定变量集合联合分布的图形模型,反映了变量间潜在的依赖关系.从完备数据集和不完备数据集上学习贝叶斯网络是研究的热点之一,要求有大数据集.针对实际应用中常常只能获得小样本数据,提出了基于Bootstrap抽样的网络结构学习的遗传算法,实验结果表明该方法在小数据集上学习贝叶斯网络具有一定的有效性. 相似文献
9.
将一种跨域字典学习算法应用于人体行为识别中, 通过引入辅助域数据集, 与原始训练集(目标域)共同进行字典学习, 获得字典对, 进而得到动作类的稀疏编码, 有效扩充了训练集的类内多样性. 该算法为字典学习与训练分类相结合的学习框架, 可利用字典对学习过程中的重建误差进行分类. 实验在MATLAB仿真条件下进行, 将UCF YouTube数据集作为原始训练集, 将HMDB51数据集作为辅助域数据集, 选取两个数据集动作类别一致的7个动作, 根据提出的算法流程进行识别. 将该方法与其他两种人体行为识别算法进行对比. 结果表明, 该方法识别率显著提高, 证明了跨域字典学习算法在人体行为识别上的有效性. 相似文献
10.
针对单细胞转录组数据上细胞分类准确率较低的问题, 提出一种新的细胞集成分类算法. 该方法能充分利用不同分类模型的优点, 降低单细胞数据的分类误差. 分别在慢性粒细胞白血病单细胞测序数据和三阴性乳腺癌单细胞测序数据两个不同数据集上进行实验验证, 实验结果表明, 由集成算法划分的细胞分类更清晰准确, 验证了该算法的有效性. 相似文献
11.
提出一种改进的结合情感词典的主动贝叶斯情感分类方法(SLAB).为了证明提出方法的有效性,选用康奈尔影评数据集和互联网电影资料库(IMDB)数据集作为实验数据,并与基于不确定性采样策略的主动学习方法进行比较.结果表明:文中提出的方法在较少的标注训练集下,能够取得更高的分类准确率,一定程度上解决了基于不确定性采样策略的主动学习方法中的误差累积问题. 相似文献
12.
《北京师范大学学报(自然科学版)》2020,(1)
PU学习是指从正例样本和无标记样本中训练分类器的一种学习方法.针对传统PU学习中所含初始正例过少,难以有效地从无标记样本中选出可靠负例,且分类过程易受噪声点影响等问题.本文提出了一种基于数据模糊性来提取无标记样本中有效信息的PU学习方法:先对正例无标记样本集进行半监督聚类,选出靠近正例样本的低模糊度数据来扩充初始正例集,并选择远离正例样本的低模糊度数据作为可靠负例;再剪辑掉无标记样本中高模糊度数据;最后在扩充后的正例样本集和可靠负例集上训练分类器,对初始无标记样本集进行分类.在标准数据集上的对比实验证实了提出算法的有效性. 相似文献
13.
jj提出用发现聚类结构的神经网络对地质数据进行聚类分析.基于神经网络的聚类分析方法通用性强.运算速度快,为地质数据的聚类分析提供了新方法. 相似文献
14.
现有算法实现了事务内到事务间最大频繁项目集的转换,能够直接发现不同用户之间的关联关系.但在处理较大的事务数据库时,由于是在原数据库基础上进行关联分析,产生了大量的虚假规则.针对上述问题提出一种基于聚类分析的事务间关联规则挖掘算法,利用聚类分析将初始的复杂的数据集进行约简,去掉冗余数据,缩小数据集,避免了多次扫描数据库和... 相似文献
15.
为降低高炉生产焦炭的消耗,对高炉操作参数和燃料比指标进行关联性分析,提出了一种组合聚类分析与神经网络进行高炉焦比指标预测的方法.聚类分析将数据集聚划分为几类,数据的相似度比较高,分类训练相应的神经网络模型,实现高炉焦比指标的预测.结合聚类分析构建的神经网络模型,用某高炉生产数据进行仿真学习,并跟传统的神经网络模型进行比较.结果表明,加入聚类分析的神经网络模型平均绝对误差降低3.13 kg/t,平均相对误差降低5.19%. 相似文献
16.
文章针对聚类分析中部分数据缺失问题,提出了一种改进的K均值聚类算法,即改变原算法中计算每个数据到各簇距离的度量方法和新中心点生成方法,从而屏蔽空值数据的影响;通过选择UCI中Iris数据集,随机抽空部分数据进行测试表明,该算法可直接对存在数据空缺的数据集合进行聚类分析,并能有效屏蔽数据空缺对聚类结果的影响. 相似文献
17.
异常检测是数据挖掘的重要研究方向之一.工业设备的各项指标以多元时间序列的形式被传感器监测,多元时间序列的异常检测对保障安全和提高服务质量至关重要,但是异常的定义相对模糊,具有异常标签的数据很稀少.此外,多元时间序列具有复杂的时间依赖性和随机性,使异常检测存在许多问题.提出CPCGAN模型,使用自监督学习的方法对多元时序数据进行异常检测.首先使用对比学习的方法得到多元时序数据的表示向量,再将具有先验信息的表示向量作为输入用来训练生成式对抗网络,通过生成式对抗网络的重构误差来确定异常.在五个数据集上与五种无监督异常检测方法进行对比,实验结果证明提出的方法能有效地检测两类异常,并且,在大多数数据集上的表现更好. 相似文献
18.
针对目前公开已有珊瑚数据集种类、样本少等问题.为构建种类丰富的大规模珊瑚数据集,本文首先以珊瑚属名为关键词,通过爬虫技术在网络中搜集大量珊瑚图片形成初始数据集;其次使用感知哈希算法对初始数据集中的图片进行去重处理;再次采用YOLO V3深度学习网络对去重后的数据集进行清洗,去除大噪声样本;然后通过旋转、镜像、随机裁剪、改变亮度和对比度等方法进行数据增强,均衡各个珊瑚属包含的图像数量;最后,构建了一个包含34个珊瑚属,218 467张珊瑚图像的珊瑚数据集.所构建的珊瑚数据集种类和样本数均高于已有的、公开的珊瑚数据集.所提出的珊瑚数据集构建方法也适用于其他难以获得样本的数据集的构建. 相似文献
19.
命名实体识别研究中常见的公开数据集普遍存在数据类别标记不平衡的问题,限制了基于统计学习模型方法性能的进一步提高.针对上述问题,提出了基于遗传算法的数据类别标记平衡方法.该方法基于原始数据集中已有的标记数据,通过修改遗传算法中的指标适应度函数和基因组合规则,合成类别分布均衡的文本用以扩充原始数据集,降低标记数据不平衡性从而改善命名实体识别的效果.为验证该方法的有效性,采用Bi-LSTM-CRF模型分别基于CoNLL 2003及JNLPBA数据集设计了该方法与平衡欠采样、随机过采样方法的对比实验.从实验中发现,提出的方法在CoNLL2003数据集上模型召回率提高3.26%,F_1值提高1.70%;在JNLPBA数据集上召回率提高2.44%,F_1值提高1.03%.实验结果表明,提出的方法能够有效地缓解类别标记失衡问题达到提高命名实体识别效果的目的. 相似文献
20.
针对互联网虚假评论大肆横行,在虚假评论研究领域却没有完全公开的中文数据集可供中文虚假评论检测研究的问题,提出了一种基于生成对抗网络的中文虚假评论数据生成模型.首先,对生成器生成的文字序列通过蒙特卡洛搜索获取一批样本;然后,采用强化学习方法将判别器、分类器和重构器的反馈化为奖励分数;最后,传回生成器,对生成器进行参数优化,以生成贴近真实世界的具有相应类标签属性及特征的虚假评论数据.以BLEU值为评估指标,实验结果表明,所提出的模型在本文数据集上取得了更好的BLEU值,具有较好的生成效果. 相似文献