16SrDNA测序与生物信息分析

时间:2024-02-23 12:14:13

这个文章主要讲一下如何通过实例数据来进行16S测序数据分析的演示。

为什么要自己拿数据练习?
你需要进行大量数据分析的练习,因为生物信息是一项实践性非常强的工作,很多分析只有自己亲自操作一遍才能够掌握这个分析。而且在很多情况下数据分析都不可能达到立竿见影的效果,往往需要反复进行调整,比如选择不同的分析软件,设置不同的显性参数,同一选项设置不同的阈值等,然后比较不能条件下结果的差异。亲自去操作才会发现数据中呈现的细节问题。

去哪里找数据啊?
因为总不能让你自己写数据,所以我们还是要站在巨人的肩膀上,下载别的人的数据来进行练手。有非常多已发表出来的数据可以直接去下载。一般发的出来的测序文章都会给出数据的链接,这个链接一般是NCBI数据库的数据号,你可以直接复制去NCBI数据库进行下载。形如SRR1564122PRJNA024523等。搜索之后下拉页面找到BioProject即可进行数据下载。
在这里插入图片描述
除此之外也可以去HMP,EMP等大型网站进行下载。



数据下载

只是练手,所以进行下载,有数据的略过这一步即可。我用到的是MiSeq的现成数据,数据来源可以看这里:数据来源
你可以点击下载部分数据:https://www.mothur.org/w/images/d/d6/MiSeqSOPData.zip
嫌少的话还可以下载这个实验的全部数据:www.mothur.org/MiSeqDevelopmentData/StabilityNoMetaG.tar
如果你点不开或者下载不下来,可以找我文章中提供的数据包,我已经上传到CSDN了。
下载下来之后打开是这一个样子的,F3D1就是female,day3,女性第三天的取样。M2D165同理,是male,D165,男性第165天的取样结果。
在这里插入图片描述

数据质控

数据质控的非常重要的一个环节,如果数据质量不好而又没有做严格的数据质控和过滤而直接拿来做数据分析,这样往往不会得到好结果,有时候甚至会得到错误的结论,所以在数据分析之前一定要对数据进行质控分析,这是一个非常重要的过程。数据控制主要有一下,两个指标,图像可以由fastqc获得。(点击下载fastqc

碱基含量分布

碱基含量也就是这一数据中四种碱基的分布情况。测序是随机的,所以ATGC剪辑应该满足碱基互补配对原则,A=TG=CA=T,G=C,并且ATCG碱基含量的比例也应该于基因组中的比例相同。也就是测序数据中这些碱基的含量应该与物种中含量百分比相同,下图中纵坐标为碱基含量百分比,横坐标为位置,下图分割线分隔开两个,是两段从1-90BP的序列,每段序列都是从1-90的碱基。下图中可以看出ACGT都是互补的,两段开头部分波动较大是因为开头部分比较不稳定。
测序数据中有个N碱基,在机器识别不出是ACGT时候就会替换成N,所以N碱基越少越好。如果N碱基在一个位点突然升高,则证明这段碱基出现了问题,导致碱基无法读取,这种情况就需要对这段数据进行处理。
在这里插入图片描述

碱基质量分布

评价一个碱基的质量就要看Q值,即quality score(质量分数),简单说就是每个碱基测序正确率,Q值越高,错误率越低。

  • 质量值是Q20,则错误识别的概率是1%,即错误率1%
  • 质量值是Q30,则错误识别的概率是0.1%,即错误率0.1%
  • 质量值是Q40,则错误识别的概率是0.01%,即错误率0.01%

Q20百分比:质量值大于20碱基占总碱基的比例。这个用于评估数据质量。例如实验中采用Q20标准的话,质量值>=Q20则证明该碱基是好碱基,测10w个碱基,有9.5w碱基质量值>=Q20,则证明这个实验中Q20比例为95%。
下图中纵坐标为质量值,横坐标为两个测试位置,每个测试位置1-90碱基。从图中可以看出每个位点碱基质量的分布情况。图中可以看出发部分碱基都在Q20上,则证明这段碱基的质量比较好。
在这里插入图片描述


数据处理

再经过数据质控之后,我们就对数据有一个整体的印象,然而发现测试数据有问题之后,不是测试数据质量不好,我们就直接丢掉,而是要对数据进行处理,最大程度的来利用数据,挖掘数据的价值,其实即使是质量好的数据同样还是要进行处理,这一数据处理的过程就是对数据进行一下过滤。

过滤数据

  1. 非“基因组”本身序列
    • adapter接头
    • 测序引物
    • barcode
    • index等
  2. 去除N碱基过多的reads
    例如16S的V4区域,一般长度250BP,如果出现10个N碱基,这些N碱基可能连续也可能不连续,这样就可能达不到97%的比对要求。
  3. 去除低质量
    • 以Q20作为判断标准
    • 低于Q20碱基占一条reads总碱基的比率
    • 例如低于Q20比率占30%
  4. pairend 的reads只要有一个不满足条件;同时去掉两条reads
  5. 出现duplication(两对reads,reads1完全一致,reads2完全一致)在16S中不能去除!!!

数据处理原则

1、不要求100%精确,原则是不影响后续分析
2、可以根据最终结果,重新过滤数据


QIIME安装

官网:http://qiime.org/
官方有英文教程,自己动手。
需要Python环境,记得下个2.7版本以上的Python。


……太懒了以后再写