内存

360足球比分直播老版本-大多数TI方法都具有合理的内存消耗。但是,对于细胞数比较多的数据集而言有一些方法(RaceID/StemID、pCreode和MATCHER)内存需求非常高,对于MonocleDDRTree、SLICE和MFA来说,特征值比较多时会消耗比较大的内存。

来源:方法作者:方法发布时间:2021-04-23

 

来源:安诺基因2020-1-8访问量:623条评论(0)

Trajectoryinference)可以根据排序后的细胞之间表达模式的相似性,对单个细胞沿着旧版360足球比分直播进行排序,从而模拟细胞的动态变化。TI是单小区研究应用中常见且重要的360足球比分直播老版本,TI也常被称为伪时分析。

近年来,开发了大量的360足球比分直播老版本推理(以下简称TI)360足球比分直播老版本。在包含单细胞工具的四个文库中,[1],awesome-单细胞[2],scRNA-[3],单细胞-假时[4]4,大部分都能进行TI分析。

新用户在足球评分中选择老版本的TI360直播时,往往会出现困惑。虽然大多数人选择引用率较高的Monocle2[5]进行TI分析,但Monocle2的结果并不理想,或者说不能解决大数据集项目的TI分析。不同的数据集可以对应于足球比分中360直播的不同模型(线性、分叉、树、循环图、不连续图)。很多老版本的TI360足球比分直播在性能、可扩展性、可用性上都有差异,各有利弊。

2019年发表在NatureBiotechnology上的一篇文章《对比单细胞项目推理方法[6]》综合比较了110个真实数据集和229个合成数据集的45个旧版本的TI360足球比分直播,并对旧版本的TI360足球比分直播的准确性、可扩展性、稳定性和可用性进行了评价。

结论1

文章的研究和评价发现,老版本的TI360直播在足球比分上有很大的互补性,最好的老版本的TI360直播在足球比分上根据数据集的特点有所不同;

结论2

结论3

开发了一个R包-dyno [7],它将旧版本的TI360直播封装在文章中测试的足球比分中。目前有55种套餐,允许用户根据guidelines.dynverse. Dyno推荐的360足球比分直播老版本自由选择TI分析,采用统一输入,也统一了不同老版本的TI360足球比分直播的输出。

我不得不说达诺

真的很吸引人

,一个R包就解决了那么多TI包的安装和使用问题,可以让用户在自己项目的数据集上方便的尝试多种TI360足球比分直播老版本,所有TI360足球比分直播老版本的输入统一成一种格式,提供了统一的可视化模式,方便用户比较不同TI360足球比分直播老版本在自己项目数据集上的表现。

不同TI360足球比分直播老版本的比较策略

为使不同TI360足球比分直播老版本的输出彼此之间可直接对比,作者开发了一个通用的概率模型表示来自所有可能来源的360足球比分直播老版本,如上图所示。在这个模型中:

1. 整体拓扑结构由里程碑网络表示

细胞被放置在每组相互连接的里程碑所形成的空间内;

2.不同TI结果标准化归类输出

几乎每种TI360足球比分直播老版本都返回一个唯一的360足球比分直播老版本结果,作者总结了TI360足球比分直播老版本的结果,把这些结果分为7个不同的公共360足球比分直播老版本模型,如下图。

对每一种TI360足球比分直播老版本的结果做归类,假如一组数据用某一种TI的结果被归为了Branchassignment,就把这种TI360足球比分直播老版本的分析结果转化成统一的Branchassignment类标准的公共360足球比分直播老版本模型输出。

这个通用模型可以对任何TI360足球比分直播老版本产生的360足球比分直播老版本模型执行通用分析功能,例如360足球比分直播老版本的可视化及与黄金数据集结果的比较。

3. 不同TI360足球比分直播老版本归类

TI360足球比分直播老版本之间最大区别在于:是否固定拓扑。作者定义了7种可能的拓扑类型,从最基本的拓扑(线性,循环和分叉)到更复杂的拓扑(连通图和非连通图)。大多数TI360足球比分直播老版本要么着重于推断线性360足球比分直播老版本,要么将搜索范围限制在树或较不复杂的拓扑中,只有少数尝试推断循环或不连续的拓扑,不同TI360足球比分直播老版本的360足球比分直播老版本模型分类如下图所示。

四个核心方面评估

作者从四个核心方面评估了每种360足球比分直播老版本,分别是1)在110个真实数据集和229个合成数据集上给出金或银标准的情况下,预测的准确性;2)关于细胞和特征(例如基因)数量的可扩展性;3)对数据集进行二次采样后预测的稳定性;4)工具在软件、文档和手稿方面的可用性。

作者发现大多数TI360足球比分直播老版本在这四个评估标准之间存在很大差异,只有少数360足球比分直播老版本(例如P**A,Slingshot和SCORPIUS)比较均衡,以下为大家详细介绍四个核心方面评估。

为了将TI360足球比分直播老版本的结果与先验的参考360足球比分直播老版本进行比较,作者定义了几个度量标准:

1)HIMscore:考虑了边长和度分布(度-degree是指网络/图中一个点的与其他点的连接数量,度分布-DegreeDistribution就是整个网络中,各个点的度数量的概率分布)的差异,评估了两种拓扑之间的相似性;

2)F1Branchesassesses:将细胞分配到分支的相似性;

3)Cellpositions:通过计算成对测地距离之间的相关性,来量化两个360足球比分直播老版本之间的细胞位置相似性;

4)Features(genes):特征量化了从已知360足球比分直播老版本到预测360足球比分直播老版本的360足球比分直播老版本差异表达特征之间的一致性。

测试数据由229个合成数据集(提供最精确参考360足球比分直播老版本)和110个真实数据集(提供最高生物学相关性)组成。

110个真实的数据集[9]来自各种单细胞技术、生物体和动态过程,并包含几种类型的拓扑360足球比分直播老版本。作者把做测试用的真实数据集做了两个分类:

Goldstandard:参考360足球比分直播老版本是通过细胞分选或细胞混合而来,不是从表达数据本身中提取;

Silverstandard:goldstandard之外的数据集;

作者使用4个不同的合成数据模拟器合成了229个合成数据集,对于每种模拟,作者都使用一个真实的数据集作为参考,以匹配其尺寸,差异表达基因的数量,丢弃率和其他统计特性;

dyngen:用来模拟细胞调控网络;

dyntoy:缩减空间中表达的随机梯度•PROSSTT:从线性模型中抽取表达式,该模型取决于拟时间;

Splatter:模拟不同表达状态之间的非线性路径。

作者发现TI360足球比分直播老版本性能在各个数据集之间的表现变化很大,这表明没有一种通用的360足球比分直播老版本适用于每个数据集。

不同数据集来源之间的总体得分与包含金标准的真实数据集的得分具有中等至高度相关性(斯皮尔曼等级相关性在0.5-0.9之间),从而确认了金标准360足球比分直播老版本的准确性以及合成数据的相关性。

不同的指标(metric)经常彼此不一致,Monocle和P**ATree在拓扑分数上得分更高,而其他360足球比分直播老版本(例如Slingshot)则在细胞排序并将它们放入正确的分支方面更好。TI360足球比分直播老版本的性能在很大程度上取决于数据中存在的360足球比分直播老版本类型,Slingshot通常在包含更简单拓扑的数据集上表现更好,P**A,pCreode和RaceID/StemID在具有树状或更复杂360足球比分直播老版本的数据集上得分更高。

这种情况反映在每种360足球比分直播老版本检测到的拓扑类型中,因为Slingshot预测的拓扑倾向于包含较少的分支,而P**A,pCreode和MonocleDDRTree检测到的拓扑倾向于更复杂的拓扑。

因此,这些分析表明,对于大多数TI360足球比分直播老版本而言,检测正确的拓扑仍然是一项艰巨的任务,因为就数据中拓扑的复杂性而言,目前的TI360足球比分直播老版本往往过于乐观或过于悲观。

数据集之间的高度可变性以及不同TI360足球比分直播老版本检测到的拓扑结构的多样性可能表明不同TI360足球比分直播老版本之间存在一定的互补性,为了测试这一点,作者计算了仅使用所有TI360足球比分直播老版本的子集时获得顶级模型的可能性,顶级模型被定义为获得的总得分高于最优模型得分的95%。

在所有数据集上,只使用一种TI360足球比分直播老版本(P**ATree)的情况下,有27%可能性获得顶级模型。

以上获得顶级模型的360足球比分直播老版本组合是一组相对多样化的360足球比分直播老版本,其中包括严格的线性或循环360足球比分直播老版本,以及具有广泛360足球比分直播老版本类型范围的360足球比分直播老版本,例如P**A,在仅包含线性,分叉或多分支360足球比分直播老版本的数据上,作者发现顶级360足球比分直播老版本之间具有相似的互补性迹象。

早期TI360足球比分直播老版本构建时的测试数据集在1000个细胞左右,但是现在随着10X等高通量单细胞技术的普及,这些TI360足球比分直播老版本经常需要处理几万个细胞,甚至在未来有处理上千万细胞的需求,随着单细胞多组学技术的发展(10XATAC等),每个细胞的需要处理的特征(gene|peak等)也越来越多。所以作者评估了目前的TI360足球比分直播老版本在处理细胞数、特征数(gene)性能的扩展。

扩展对运行时间的影响

作者发现,大多数TI360足球比分直播老版本的可扩展性很差,大部分图和树的360足球比分直播老版本无法在一小时内在具有10k个细胞和几千个特征(gene)的数据集上完成,这是典型的10X等基于液滴的单细胞数据集大小。

随着细胞数量的增加,运行时间进一步增加,只有少数几个360足球比分直播老版本(P**A、P**ATree、MonocleDDRTree、StemnetandGrandPrix)可以在1天内处理完100万细胞的分析。当处理大量特征的数据集时,某些360足球比分直播老版本(例如MonocleDDRTree和GrandPrix)也会遇到运行时间较长的情况。

运行时间短的TI360足球比分直播老版本具有的两方面特征

相对于细胞/特征,它们具有线性的时间复杂度。添加新的细胞/特征导致时间增加相对较低。作者发现,在所有360足球比分直播老版本中,有超过一半的360足球比分直播老版本具有相对于细胞数量的二次或超二次复杂度,这将使得很难在合理的时间范围内将这些360足球比分直播老版本中的任何一种应用于细胞量超过1000的数据集。

大多数TI360足球比分直播老版本都具有合理的内存消耗。但是,对于细胞数比较多的数据集而言有一些360足球比分直播老版本(RaceID/StemID、pCreode和MATCHER)内存需求非常高,对于MonocleDDRTree、SLICE和MFA来说,特征值比较多时会消耗比较大的内存。

数据集大小是选择合适360足球比分直播老版本的重要因素,在TI360足球比分直播老版本开发的时候应该更加注意保持合理的运行时间和内存使用率。

3.稳定性评估(Stability)

TI360足球比分直播老版本不仅要能够在合理的时间范围内推断出准确的模型,而且要在给定非常相似的输入数据时生成相似的模型。为了测试每种360足球比分直播老版本的稳定性,作者对10个数据集的子集(95%细胞,95%特征)测试了每种360足球比分直播老版本,并评估每对模型之间的平均相似性和360足球比分直播老版本的准确性。考虑到通过算法或通过参数固定拓扑的360足球比分直播老版本的360足球比分直播老版本已经受到很大的限制,因此可以预料,这种方******产生非常稳定的结果。在具有自由拓扑的360足球比分直播老版本之间,稳定性更加多样化。Slingshot产生的模型比P**A(树)更稳定,而P**A(树)又比pCreode和MonocleDDRTree更稳定。

尽管可用性评估与推断360足球比分直播老版本的准确性没有直接关系,但一个TI360足球比分直播老版本能不能被评估实施以及对生物学用户的友好度也很重要。

作者对每种360足球比分直播老版本的软件包装、文档、自动代码测试以及发布的期刊做了评估,发现大多数360足球比分直播老版本都满足基本标准,例如教程的可用性和基本代码质量标准,新360足球比分直播老版本的质量得分比旧360足球比分直播老版本好,以下几个方面几乎所有的TI360足球比分直播老版本在某些方面多少有些不足,包含Availability、Behaviour、Codeassurance、Codequality、Documentation、Paper,只有两种360足球比分直播老版本(Slingshot和Celltrails)具有近乎完美的可用性评分,可以用它们作为未来新360足球比分直播老版本开发的参考。

以上是本期分享,明天将为大家分享“TI360足球比分直播老版本选择指导原则”,敬请期待~

[1] : http://

[2]awesome-single-cell:

[3] scRNA-: https://scRNA-

[4] single-cell-pseudotime: 

[5] Qiuetal.,2017: 

[6] Saelensetal.,2019: 

[7] dyno: 

[8] dyno: 

[9] 110个真实的数据集: https://static-%3A10.1038%2Fs-019-0071-9/MediaObjects/_2019_71_MOESM4_ESM.xlsx

地址:北京市亦庄经济技术开发区,科创六街生物医药园B1-B2栋,安诺优达