8.windows ubuntu 子系统:karken2,bracken微生物物种注释

时间:2024-03-27 09:03:34

上次,我们对测序数据去了人源序列。接下来我们就要对去人源的reads进行微生物物种注释。

我们选择karken2和bracken。

首先是建立karken2的数据库,有多种方法。

方法一:kraken2-build --standard    --threads 4 --db ./standardDB #时间太慢

方法二:直接下载官方提供的数据库(包括kraken2及bracken),解压即可
wget https://genome-idx.s3.amazonaws.com/kraken/k2_pluspf_20210517.tar.gz
wget https://genome-idx.s3.amazonaws.com/kraken/k2_pluspf_8gb_20210517.tar.gz
wget https://genome-idx.s3.amazonaws.com/kraken/k2_standard_20210517.tar.gz  #时间太慢

# 方法3:手动构建数据库  #时间太慢
## step1 从 NCBI 下载分类文件
kraken2-build --download-taxonomy --db  ./K2db
## step2 下载序列数据
kraken2-build  --download-library UniVec_Core  --threads 15  --db  ./K2db
kraken2-build  --download-library UniVec  --threads 4  --15  ./K2db
## step3 构建数据库
kraken2-build  --build --threads 4  --db  ./K2db

前三种时间都比较慢,所以我不用。

第四种方法为 在windows环境下登录官网https://benlangmead.github.io/aws-indexes/k2下载自己想要的数据库,官网中有诸多类型的数据库。

官网里面有很多已经做好的数据库。我们可以选择合适的使用。
我这里先下载 standard-8 数据库
#解压缩,kracken和bracken的数据就都好了。
tar -zxvf k2_standard_08gb_20231009.tar.gz

解压缩出来的是这些文件。

接下来就可以跑数据了。

 kraken2 --threads 15 --paired --db /mnt/h/db/kraken2.db --report A1.kreport --output A1.kraken read_hont_removed.1.fq.gz read_hont_removed.2.fq.gz 

  1. kraken2: 运行 Kraken 2 软件。

  2. --threads 15: 指定使用的线程数为 15,即并行处理的线程数。

  3. --paired: 表示输入的是 paired-end 测序数据。

  4. --db /mnt/h/db/kraken2.db: 指定 Kraken 2 数据库的路径,即要用于比对和分类的数据库。

  5. --report A1.kreport: 指定输出报告文件的名称为 A1.kreport,该报告包含了分类和注释的结果信息。

  6. --output A1.kraken: 指定输出文件的名称为 A1.kraken,该文件包含了每个 reads 的分类结果。

  7. read_hont_removed.1.fq.gz read_hont_removed.2.fq.gz: 输入的 paired-end 测序数据文件,分别是第一端和第二端的 fastq 文件。

接下来就是bracken.

 bracken -d /mnt/h/db/kraken2.db -i A1.kreport -o A1.bracken.S -w A1.bracken.S.kreport -l S -t 15

  1. bracken: 运行 Bracken 软件。

  2. -d /mnt/h/db/kraken2.db: 指定 Kraken 2 数据库的路径,即要用于物种丰度估计的数据库。

  3. -i A1.kreport: 指定输入的 Kraken 2 分类报告文件,即 A1.kreport。

  4. -o A1.bracken.S: 指定输出文件的名称为 A1.bracken.S,该文件包含了物种丰度的估计结果。

  5. -w A1.bracken.S.kreport: 指定输出详细报告文件的名称为 A1.bracken.S.kreport,该文件包含了对每个分类水平的物种丰度估计结果。

  6. -l S: 指定要进行物种丰度估计的分类水平为 species level(物种水平)。

  7. -t 15: 指定使用的线程数为 15,即并行处理的线程数。

这就是karken2和bracken最基础的应用了,想要结果更好,还需向深处探索。

我推荐文章《Metagenome analysis using the Kraken software suite》

Kraken: ultrafast metagenomic sequence classification using exact alignments》