二代测序的fastq文件格式介绍

@HWUSI-EAS100R:6:73:941:1973#0/1

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT

+HWUSI-EAS100R:6:73:941:1973#0/1

!\'\'*((((***+))%%%++)(%%%%).1***-+*\'\'))**55CCF>>>>>>CCCCCCC6

其中第一行以@开头，后面是reads的ID以及其他信息，例如上例中 HWUSI-EAS100R代表Illmina设备名称，6代表flowcell中的第六个lane，73代表第六个lane中的第73个tile，941:1973代表该read在该tile中的x：y坐标信息；#0，若为多样本的混合作为输入样本，则该标志代表样本的编号，用来区分个样本中的reads；/1代表paired end中的前一个read。

补充说明：Illmina测序仪一个flowcell中包含8个lane，每个lane可以测一个样本或多样本的混合物，其中一个lane包含2列，每一列又包含60个tile，每一个tile又会种下不同的cluster，如下图所示。

第二行为read的序列，不用多说！

紧接着下面两行代表该read的质量。

第三行以“+”开头，跟随者该read的名称（一般于@后面的内容相同），但有时可以省略，但“+”一定不能省。

第四行代表reads的质量。这一行可以详细说一下！Illumina测序仪是按照荧光信号来判断所测序的碱基是哪一种的，例如红黄蓝绿分别对应ATCG，那么一旦出现一个紫色的信号该怎么判断呢，因此对每个结果都有一个概率的问题。起初sanger中心用Phred quality score来衡量该read中每个碱基的质量，既-10lgP ，其中P代表该碱基被测序错误的概率，如果该碱基测序出错的概率为0.001，则Q应该为30，那么30+33=63，那么63对应的ASCii码为“？”，则在第四行中该碱基对应的质量代表值即为“？”，ASCii参考如下。

一般地，碱基质量从

0-40，既ASCii码为从 “！”（0+33）到“I”(40+33）。以上是sanger中心采用记录read测序质量的方法，Illumina起初没有完全依照sanger中心的方法来定义测序质量，而是把P换成了p/(1-p). 其他完全按照sanger的定义来做。但是他这形式在某些情况下是不准确的，可以看出当测序质量很高的情况下两种形式几乎没区别，但低质量的碱基则有区别了。

因此，Illumina有更换了好几种版本，从1.3版本升级到1.5版本再到1.8，最后完全采用sanger中的规则来做。因此，现在Illumina给出的测序质量值完全可以参考刚说的sanger方法。

测序流程：

library：样本DNA经过PCR扩增

lane：测序时的一条泳道，一个泳道可以只接受一个library的，也可以是多个library的，不同的library在两段是用不同的街头序列连起来作为标识的。当接受多个library的时候也是一起出的结果，当我们需要的测序深度不是特别深的时候就可以采用这种办法，根据不同的接头序列将这些数据分开成为一个个单独样本的fastq数据，这也是经常为什么在跑fastqc（质控）可以看到那些非正常的过表达序列。当然，一个library的DNA也可以用多个泳道测，这在需要很高的测序深度的时候才采用该策略。可以考虑在后续的比对生成的bam文件那里把他们合并起来成为一个bam文件。

秒客网

二代测序的fastq文件格式介绍

相关文章