GATK - VQSR（Variant Quality Score Recalibration）

为什么WES的数据无法使用VQSR进行变异质控？

其实不只是WES，还包括很多小panel的数据，如果样本量比较少的话基本都无法使用VQSR进行变异的质控。其原因就在VQSR的原理上。

VQSR的核心原理是利用机器学习算法构造一个区分“好”变异和“坏”变异的分类器。这个分类器在GATK中是通过GMM模型来构造的，它在构造的时候并不是盲目地使用所有数据来进行构造，而是挑出和已知的变异集合Overlap的位点（通常是HapMap数据集）——并分配相应的可信度权重来进行训练。

基于群体遗传的原理，这些已知且被严格验证的变异（如HapMap数据）会被认为是更加靠谱的变异，因此在初始化的时候先把它们当作是“好”的——也就是正确的变异。这个初始变异集很重要，然后利用这些好变异训练一个区分好变异的GMM，接着对全部数据进行打分，再把评分最低的那些拿出来，构成一个最不像正确变异的集合，用来构造一个区分坏变异的GMM，用来专门识别坏变异。最后同时用好和坏的GMM再一次同时对变异进行打分，看每个变异更像谁，就能够评判出这个变异可信的质量值了。越靠近好的GMM，质量就越高，这就是VQSR过滤的大致原理（如下图）。

GATK - VQSR（Variant Quality Score Recalibration） — VQSR区分好变异和坏变异的分类器

为了得到理想好的结果，VQSR在进行模型训练的时候就有一个最低可用位点数目的要求——通常是好和坏变异可供训练的数目必须超过5000个，如果Overlap位点太少，是无法用于训练一个合适的模型的，这对于全基因组来说是没任何问题的，但外显子区域加起来也就差不多50Mb左右，长度不大，单个样本里面包含的变异数目大约30K-40K。这些位点本来就不多，它们和已知高质量变异集Overlap的就更少了,最终就导致达不到模型训练的最低要求。所以单个样本的WES（或者样本数量较少的WES）都无法使用VQSR进行质控，小Panel的测序数据也是同理。

但随着样本数目的增加，群体中会有更多的变异也在这些外显子区域中被发现，从而增大了这个可用的训练集合，直到满足了最低训练要求，按照经验，通常是30个样本（随着捕获区域的差别，会略有差异），这也是为什么对于WES数据而言，GATK会提到至少需要30个样本才能进行VQSR的原因。

秒客网

GATK - VQSR（Variant Quality Score Recalibration）

相关文章