Sensitivity, specificity, and reproducibility of RNA-Seq differential expression calls RNA-Seq差异表达调用的灵敏度特异性重复性

Sensitivity, specificity, and reproducibility of RNA-Seq differential expression calls

RNA-Seq差异表达调用的灵敏度特异性重复性

抽象
背景：
MAQC / SEQC联盟最近编制了一个关键基准，可用于测试微阵列和RNA-seq表达谱分析工具的最新发展。这些客观基准是基础研究和应用研究所需，对临床和监管结果至关重要。超越原始SEQC研究中提出的第一次比较，我们在此提出包括效果的扩展基准常见实验的典型优势。

结果：

通过因子分析和其他过滤器删除人工制品，用于基因组规模调查，对于所有检查的工具组合，差异表达调用的可重复性通常超过80％。这直接反映了不同研究中结果和再现性的稳健性。对于具有最强相对表达变化的排名靠前的候选人，观察到类似的改进，虽然这里的一些工具明显比其他工具表现更好，典型的再现性范围从60％到93％不等。

结论：

在我们用于RNA-seq数据分析的替代工具的基准测试中我们展示了可以带来的好处通过在使用参考标准样品的其他实验的背景下分析结果来获得。这允许计算识别和去除隐藏的混杂因素，例如，通过因子分析。在自身，这已经大大改善了经验性虚假发现率（eFDR），而没有改变整体敏感度。然而，需要进一步过滤假阳性以获得可接受的eFDR水平。适当的过滤器显着改善了跨站点和替代差异表达分析管道之间差异表达基因的一致性。

审稿：本研究论文的扩展摘要被选入2015年ISMB的CAMDA卫星会议

由CAMDA计划委员会提供。然后，完整的研究论文在一位负责任的CAMDA计划委员会成员的指导下进行了一轮公开同行评审，Lan Hu，博士（Bio-Rad Laboratories，Digital Biology Center-Cambridge）。

Open Peer Review由Charlotte Soneson博士（苏黎世大学）和MichałOkoniewski提供，博士（苏黎世联邦理工学院）。Reviewer Comments部分显示完整的评论和作者回复。

关键词：RNA-seq，灵敏度，特异性，再现性，差异表达调用

背景
多年来，MAQC [1]和SEQC [2,3]联盟编制了用于测试实验平台和用于表达谱分析的计算分析工具的性能的关键资源。这些客观基准是有效研究以及临床和监管应用所必需的。在这项研究中，基于最新的

在SEQC数据集中，我们研究了RNA-seq差异表达调用的灵敏度，特异性和可重复性。超越原始SEQC研究[2,3]中提出的第一次比较，我们在此提出扩展基准，包括常见实验的典型效应强度。

我们特别关注SEQC标准化参考样品A和C的比较，其中C由3份样品A和1份样品B组成（见方法）[1,2]。这对样品最小不同可能的平均效应强度（信号）MAQC / SEQC样本A，B，C和D的成对比较，允许我们也考虑更精细信号的表现，例如表达变化通常弱表达的分子开关。用于差异替代方法的综合基准表达分析，我们在这里考虑所有5574个已知的人类基因[4]，用于无偏见地评估RNA-seq管道选择的影响。我们对所选工具的比较代表了目前可用于基因表达估计和差异表达调用的各种算法，反映了该领域的快速发展。研究的指标涵盖敏感度，特异性和可重复性。我们的基准测试既测试了全基因组筛选或调查结果的一致性，也测试了具有最强相对表达变化的*候选者的稳健识别。

方法

实验研究设计和数据

该研究建立在SEQC联盟的主要合成基准数据集上，其中已知混合物在设置控制中，标准化参考样本的多个平台已经对其进行了排序用于实验室场地的特定效果[2]。尤其是，充分表征的参考RNA样品A.已经使用来自MAQC联盟的（Universal Human Reference RNA）和B（Human Brain Reference RNA）[1]。然后将样品A和B以已知比例3：1和1：3混合，分别构建样品C和D.在这数据分析基准我们的结果基于六个Illumina HiSeq 2000站点的样品A和C的子集其中每个样本都是具有4个技术重复的序列。

基因表达谱分析

在这项研究中，使用了AceView基因模型[4]。我们以前已经表明，尽管它的年龄，AceView仍然是人类最全面和准确的注释数据库[2]。已经通过表示表达谱分析中的现有技术的选定工具评估了人AceView基因的表达谱

分析。表达式估计以读取计数等价物的形式表示。 r-make（基于STAR）[5]和Subread [6]对基因组的序列读数进行比对，然后计数下降的读数进入已知的基因区域。具有'-G'选项的流行TopHat2工具[7]采用混合方法，其中基于提供的基因模型构建虚拟转录组并首先将读数与其对齐，与我们之前的分析一致，首先表明这改善了表达式估计的精确度[8]。在接下来的步骤中，这些对齐的读数被映射回基因组和剩余的未对齐的读数与基因组序列对齐。基因和转录物表达水平然后使用匹配的Cufflinks2 [9]工具估算，该工具处理基于基因组的比对。相比之下，BitSeq [10]直接使用转录组比对（这里我们使用SHRiMP2 [11]将读数与转录组比对）来评估转录本丰度。然后总结这些以获得基因的表达水平估计。kallisto [12]采用无对齐方法，其中基于伪对齐的思想直接从读数估计转录本丰度，以快速确定相容性用目标转录物序列读取，无需完全比对。这种轻量级的方法已经由Sailfish [13]推动，这里没有考虑。再次总结转录物表达估计以获得基因的表达估计。这种从转录水平结果获得基因水平估计的方法最近发现在RNA-seq的差异分析中改善基因水平推断[14]。所有工具如何运行的详细信息可以在原始的SEQC / MAQC-III研究的补充材料中找到; [2] kallisto已用于默认参数。

因子分析

进行因子分析以去除不想要的变化。我们检查了工具svaseq [15]，它为SVA [16]提供了对RNA-seq数据的适应性。 SVA [16]和PEER [17]是原始SEQC研究的主要预处理工具[3]。

所有样品的基因表达估计值用于检测潜在变量。包括与样本类型相关的共变量用于推断，推断的隐藏混杂因素是从信号中删除。

差异表达式调用

在样品A / C的差异表达分析中，我们可以关注样品A中下调的基因，因为任何潜在上调的效应强度被设计限制为最多4/3倍，因为样品C是3份样品A和样品B的一部分。因此，我们预计没有满足常用的上调基因效果强度的阈值。我们通过比较三种流行的替代方案来研究方法选择在差异表达分析中的作用：limma [18]，edgeR [19,20]和DESeq2[21]，每个都使用默认设置运行。例如，limma默认包括TMM [20] -normalization和voom [22]预处理。FDR由Benjamini-Hochberg调整进行多次测试。基因被称为差异表达，q <5％。可选的附加过滤规则应用，要求最小效果强度为1（即| log2（FC）|> 1，意味着倍数变化大于2）。此外，可选过滤器需要平均值表达高于特定阈值。为每种表达方法组合定义该阈值估计和差异表达调用，以便在svaseq校正后均衡站内灵敏度。设定为使得平均位点3,000个基因被鉴定为差异表达。相同的阈值已应用于站点间差异表达式调用。一旦应用效应强度滤波器，即使丢弃45％最不强烈表达的基因也会消除只有16％的剩余差异表达调用（表1和表2），仅占所有AceView基因的2.5％。

经验错误发现率

利用SEQC研究设计[2]，我们可以通过比较在跨站点同一比较中鉴定为差异表达的基因数量来推断经验性假发现率（eFDR）（A-vs-A和C-vs -C）具有差异表达的基因
A-vs-C比较：eFDR =（A1-vs-A2 + C1-vs-C2）/（A1-vs-C2 + A2-vs-C1），其中：XN -vs-YM是
当比较来自位点N的样品X和来自位点M的样品Y时，鉴定为差异表达的基因数量。

站点间重现性

差异表达基因列表之间的总体一致性已经计算为列表的比率交叉点和列表联合。前N个候选者的一致性被计算为来自比较的前N个基因的交叉长度的比率列表（差异表达的候选者按效果强度排序）除以N. 折叠变化的方向被考虑在内：显示相反变化方向的基因被认为不一致，因此被排除在计算列表交叉点评估协议之外。所有基因列表都是集合，包括或排除基因名称，没有基因计数超过一旦。

结果

在我们的基准分析中我们研究了各种差异表达分析工具。该分析通常包括两个步骤，有时通过不同的工具执行：基因/转录物表达水平的估计，以及差异表达的显着性调用。我们的比较基准评估了表达评估工具的代表性选择，包括r-make [5]，Subread [6]，TopHat2 / Cufflinks2 [7,9]，SHRiMP2 / BitSeq [10,11]和kallisto [12]，结合几种已建立的差分工具表达调用，包括limma [18,22,23]，edgeR [19,20]和DESeq2 [21]。虽然该领域正在迅速出现新工具，我们的比较调查中的选择涵盖了差异表达的RNA-seq分析的现有技术的主要方法分析。

Sensitivity, specificity, and reproducibility of RNA-Seq differential expression calls RNA-Seq差异表达调用的灵敏度 特异性 重复性

Sensitivity, specificity, and reproducibility of RNA-Seq differential expression calls RNA-Seq差异表达调用的灵敏度特异性重复性