UCSC genome browser 个人track 安装

时间:2023-02-25 12:30:26

处理基因组数据,很多时候我们会觉得直接看序列文件不够直观,如果绘图的话,把n多G把数据用画图出来不仅费劲,就算操作也不方便。因此我们可以用UCSC开发出的genome browser,可以直接把数据信息写成track,连上genome browser 上查看,它还支持安装到本地服务器上(genome browser in box ,简称GBIB),genome browser 支持的格式有bedGraph, GTF, PSL, BED, bigBed, WIG, bigGenePred, bigMaf, bigChain, bigPsl, bigWig, BAM, CRAM, VCF, MAF, BED detail, Personal Genome SNP, broadPeak, narrowPeak, and microarray (BED15),GFF和GTF文件必须tab分隔。 废话少说,直接入门。本文主要讲SAM,BAM,WIG,bigWig,VCF,BED文件上传及使用。

一、格式的前期处理

1.1    WIG 和 bigWig

WIG 文件格式,有两种可选的格式,variableStep和fixedStep。variableStep用于区间变化的,fixedStep用于区间固定的。

variableStep WIG文件以variableStep 开头,chrom染色体,可选参数span(默认span=1),指定每一行的位置区间,比如2,区间就是chromStart~chromStart+2。chromStart染色体位置,dataValue染色体位置上的值。

 variableStep  chrom=chrN
[span=windowSize]
chromStartA dataValueA
chromStartB dataValueB
... etc ... ... etc ...

fixedStep文件以fixedStep开头,chrom染色体,start是起始固定的位置,step是每两个起始position之间的间隔,span和variableStep中的step一样,指定每一行的位置区间。

这样dataValue1对应的position是start~start+span,dataValue2对应的position是start+step~start+step+span.

 fixedStep  chrom=chrN
start=position step=stepInterval
[span=windowSize]
dataValue1
dataValue2
... etc ...

WIG格式要在genome browser 上查看最好转换为bigWig文件,bigWig文件是index后的二进制WIG文件,在genome browser上查看更加快速,用wigToBigWig命令

 wigToBigWig sample.wig chrom.sizes output.bw

chromsizes 文件可以从UCSC上下载,就是各个染色体的长度大小hg19.chrom.sizes可以从这里直接复制。

 chr1
chr2
chr3
chr4
chr5
chr6
chr7
chrX
chr8
chr9
chr10
chr11
chr12
chr13
chr14
chr15
chr16
chr17
chr18
chr20
chrY
chr19
chr22
chr21
chr6_ssto_hap7
chr6_mcf_hap5
chr6_cox_hap2
chr6_mann_hap4
chr6_apd_hap1
chr6_qbl_hap6
chr6_dbb_hap3
chr17_ctg5_hap1
chr4_ctg9_hap1
chr1_gl000192_random
chrUn_gl000225
chr4_gl000194_random
chr4_gl000193_random
chr9_gl000200_random
chrUn_gl000222
chrUn_gl000212
chr7_gl000195_random
chrUn_gl000223
chrUn_gl000224
chrUn_gl000219
chr17_gl000205_random
chrUn_gl000215
chrUn_gl000216
chrUn_gl000217
chr9_gl000199_random
chrUn_gl000211
chrUn_gl000213
chrUn_gl000220
chrUn_gl000218
chr19_gl000209_random
chrUn_gl000221
chrUn_gl000214
chrUn_gl000228
chrUn_gl000227
chr1_gl000191_random
chr19_gl000208_random
chr9_gl000198_random
chr17_gl000204_random
chrUn_gl000233
chrUn_gl000237
chrUn_gl000230
chrUn_gl000242
chrUn_gl000243
chrUn_gl000241
chrUn_gl000236
chrUn_gl000240
chr17_gl000206_random
chrUn_gl000232
chrUn_gl000234
chr11_gl000202_random
chrUn_gl000238
chrUn_gl000244
chrUn_gl000248
chr8_gl000196_random
chrUn_gl000249
chrUn_gl000246
chr17_gl000203_random
chr8_gl000197_random
chrUn_gl000245
chrUn_gl000247
chr9_gl000201_random
chrUn_gl000235
chrUn_gl000239
chr21_gl000210_random
chrUn_gl000231
chrUn_gl000229
chrM
chrUn_gl000226
chr18_gl000207_random

genome.sizes

1.2  sam 和 bam文件

sam/bam 格式是mapping后的序列比对文件,sam文件需要先转成bam,sam/bam文件传到genome browser上可以看到reads在chrom上的分布。bam文件需要sort后建立index,并且要将index 文件*.bai放到bam文件所在目录下。

如果是sam 文件,先转变为bam文件

 samtools view -S -b -o sample.bam sample

进行sort,并且建立index

     samtools sort sample.bam sample.sorted
samtools index sample.sorted.bam

1.3  VCF文件

vcf 文件是千人基因组计划发展出的存储基因组变异信息的文件,包括SNP和结构变异信息。传到genome browser上可以看到不同位点的变异信息。

先要对vcf 格式就行sort,用vcftools 中的vcf-sort,没有的话需要去下载,https://sourceforge.net/projects/vcftools/

 vcf-sort sample.vcf > sample.sorted.vcf

要下载bgzip 和 tabix 程序,https://sourceforge.net/projects/samtools/files/tabix/.

对sort后的vcf 进行压缩

 bgzip sample.sorted.vcf sample.sorted.vcf.gz

对vcf.gz文件建立index

 tabix -p vcf sample.sorted.vcf.gz

建立track的时候,要把tbi格式的index放在vcf.gz所在的文件夹下。

1.4 bed和bigBed文件

1.4.1 bed文件格式

1.4.1.1 必须的三个区域:

1.chrom  染色体

2.chromStart  在染色体上的起始位置

3.chromEnd  在染色体上的结束位置

1.4.1.2有九个额外的可选的区域

4.name  行名

5.score  分值 0-1000,影响显示的灰色深度

6.strand  正负链,"."无方向,或者“+”或者"-"

7.thickStart  开始浓密绘制的位置

8.thickEnd 结束浓密绘制的位置

9.itemRgb RGB值,R、G、B值(比如255,0,0),如果itemRgb属性设置为开的话,RGB将设置这一行的颜色

10.blockCount  该行的区块(外显子)数目

11.blockSizes  逗号分隔的区块大小的列表,

12.blockStarts  逗号分隔的区块开始位置,所以的区块开始位置都应该能由chromStart计算出来,位置数目应该与blockSizes数目相裂隙。

bed文件可以在前面添加track和browser行,作为一个track传上genome browser。后面会详细说明。

1.4.2 bigBed文件

如果bed文件有点大(大于50Mb),你应该将它转换成bigBed文件,放到服务器上,再链接到genome browser上查看。

先sort bed文件

 bedSort unsorted.bed > input.bed

将sort后的bed文件进行转换,必须去除track和browser行

 bedToBigBed input.bed chrom.sizes myBigBed.bb

二、在UCSC上查看数据

2.1  UCSC 上My Data 下的Custom Track

所有文件都可以直接添加自己定制的Custom Track,分为两步,1.定义browser行 ,2.定义track行

1.browser行       

 browser attribute_name attribute_value(s)

postion  定义genome browser起始查看的位置

hide all  隐藏全部track

hide  < track_primary_talbe_name(s)> 需要隐藏的tracks列表,空格分隔,下面一样

dense all   密度显示全部track

dense <track_primary_talbe_name(s)>  需要密度显示的tracks列表

pack all   压紧模式显示全部track

pack  <track_primary_talbe_name(s)>   需要压紧模式显示的tracks列表

squish all 压扁模式显示

full all    全部显示track

full  <track_primary_talbe_name(s)>  全部显示模式显示的track列表

2.track行

         name=<track_label>  定义track的标签

description=<center_label>  定义显示的时候track的中间的标签

         type=<track_type>    定义track类型,可以定义为BAM, BED detail, bedGraph, bigBed, bigWig, broadPeak, narrowPeak, Microarray, VCF and WIG

visibility=<display_mode>   定义显示模式,定义track的起始显示模式,包括0 - hide, 1 - dense, 2 - full, 3 - pack, and 4 - squish

color=<RRR,GGG,BBB>    定义注释track的主演色,包括三个逗号分隔的0-255之间的数字,默认0,0,0黑色

itemRgb=On   如果开了这个选项,bed文件定义的itemRgb生效

colorByStrand=<RRR,GGG,BBB,RRR,GGG,BBB>  设置正负链的颜色,默认0,0,0,0,0,0 都是黑色

useScore=<use_score>   默认是0,使用bed score值定义的颜色,如果是1,会使用数据行来决定颜色深浅

group=<group>    定义track组,会在genome browser上显示

priority=<priority>    定义组内排列位置,没有分组的话会定义默认组(user)的排列位置

db=<UCSC_assembly_name>   定义要比对的数据库,比如hg18,mm8等

offset=<offset>    补偿,定义添加到全部坐标上的数值,默认0

maxitems<#>    定义track能包括的最大条目,默认250,必须小心设置,不然会导致系统不稳定

url=<external_url>   定义track 的额外链接内容

htmlUrl=<external_url>   定义track描述页面的链接内容

bigDataUrl=<external_url>   定义数据文件的url,就是放在服务器上的文件地址,

下面是UCSC给出的例子

 browser position chr21:,,-,,
track type=bigBed name="bigBed Example One" description="A bigBed file" bigDataUrl=http://genome.ucsc.edu/goldenPath/help/examples/bigBedExample.bb

bed文件格式可以直接写入track中,如下,在基因组固定位置显示蓝色和绿色标记

 browser position chr22:-
track name=spacer description="Blue ticks every 10000 bases" color=,,,
chr22
chr22
chr22
track name=even description="Red ticks every 100 bases, skip 100" color=,,
chr22 first
chr22 second
chr22 third     

 

    2.2  UCSC 的MyData下的track hub

track hub 是track 的收集,hub中的track在genome browser浏览页面中以蓝色显示。

首先在存放hub文件的文件夹下写一个hub文件,格式如下

 hub hub_name  # hub的名称
shortLabel hub_short_label #hub的短标签,便于显示
longLabel hub_long_label  #hub具体的标签
genomesFile genomes_filelist #要对比的基因组列表文件路径  
email email_address    #自己的email地址
descriptionUrl descriptionUrl   # 对这个track的描述

接下来编辑基因组列表文件

 genome assembly_database_1 #对比到的基因组,比如hg19
trackDb assembly_1_path/trackDb.txt   #trackDb文件,包括对比到hg19的所有track genome assembly_database_2
trackDb assembly_2_path/trackDb.txt

上面是两个不同的trackDb(track数据库),分别对比到不同的基因组,而trackDb中写入有很多不同的对比到该基因组的hub track

最后编辑trackDb文件

 track dnaseSignal  #在genome browser上显示的track名,必须独一无二
bigDataUrl dnaseSignal.bigWig  #文件的url,默认在trackDb所在文件夹
shortLabel DNAse Signal
longLabel Depth of alignments of DNAse reads
type bigWig track dnaseReads
bigDataUrl dnaseReads.bam
shortLabel DNAse Reads
longLabel DNAse reads mapped with MAQ
type bam

上面写入了两个track,一个是bigWig格式的文件,一个是bam文件.而vcf 文件如下

 track GC_WGS_tumour_vcf_by_lumpy
type vcfTabix
bigDataUrl GC_WGS_tumour.sorted.vcf.gz
shortLabel GC_WGS tumour vcf lumpy
longLabel GC_WGS tumour vcf by lumpy

上面几个是基本参数,更多可选的hub track的参数参见hub track 定义文档

最后上图一张

UCSC genome browser 个人track 安装

参考文献

UCSC custom track:  http://genome-asia.ucsc.edu/goldenPath/help/customTrack.html

UCSC track hub : http://genome-asia.ucsc.edu/goldenPath/help/hgTrackHubHelp.html

UCSC hub track 定义文档 :http://genome-asia.ucsc.edu/goldenPath/help/trackDb/trackDbHub.html

UCSC genome browser 个人track 安装的更多相关文章

  1. 使用UCSC Genome Browser下载人类所有mRNA序列

    打开UCSC Genome Browser官网.网址:http://genome.ucsc.edu/ 点击导航栏的Genome Data 在新的页面中,点击human,可快速定位至页面中人类基因组数据 ...

  2. ucsc genome brower的用法和说明(一)

    官网说明书:http://genome.ucsc.edu/goldenpath/help/hgTracksHelp.html 1.genome brower的作用 a,展示任何尺度的基因组片段.比如, ...

  3. 生物信息大数据&amp&semi;数据库(NCBI、EBI、UCSC、TCGA)

    想系统的学习生信数据库可以先看一下北大的公开课,有一章专门讲的数据库与软件: -生物信息学:导论与方法 北大\ 生物信息数据库及软件资源 一个优秀的生信开发者能够解决如下问题: 如何鉴定一个重要的且没 ...

  4. 利用mysql客户端查询UCSC数据库

    UCSC Genome Browser是由University of California Santa Cruz (UCSC) 创立和维护的,该站点包含有人类.小鼠和大鼠等多个物种的基因组草图和注释信 ...

  5. ChIP-seq 核心分析 下游分析

    http://icb.med.cornell.edu/wiki/index.php/Elementolab/ChIPseeqer_Tutorial [怪毛匠子 整理] ChIP-seq[核心分析 下游 ...

  6. bed文件格式解读

    1)BED文件 BED 文件(Browser Extensible Data)格式是ucsc 的genome browser的一个格式 ,提供了一种灵活的方式来定义的数据行,以用来描述注释信息.BED ...

  7. How to use liftover

    First step, installation: download from UCSC genome browser chmod + x Second, very important: to dow ...

  8. ChIP-seq基本流程及工具

    ChIP-seq数据分析整理 1.Alignment 2.Peak detection 3.Peak annotation 1. GO analysis 2. Pathway analysis 4.D ...

  9. GWAS &vert; 全基因组关联分析 &vert; Linkage disequilibrium &lpar;LD&rpar;连锁不平衡 &vert; 曼哈顿图 Manhattan&lowbar;plot &vert; QQ&lowbar;plot &vert; haplotype phasing

    现在GWAS已经属于比较古老的技术了,主要是碰到严重的瓶颈了,单纯的snp与表现的关联已经不够,需要具体的生物学解释,这些snp是如何具体导致疾病的发生的. 而且,大多数病找到的都不是个别显著的snp ...

随机推荐

  1. php面向对象中的静态与抽象,接口

    静态又包括: 普通成员: 普通成员是属于对象的 静态成员: 静态成员是属于类的 关键字:static self关键字:在类里面代表该类,前面不用加$ 在静态方法里面不能调用普通成员 在普通方法里面能够 ...

  2. &lbrack;POJ2828&rsqb;Buy Tickets&lpar;线段树,单点更新,二分,逆序&rpar;

    题目链接:http://poj.org/problem?id=2828 由于最后一个人的位置一定是不会变的,所以我们倒着做,先插入最后一个人. 我们每次处理的时候,由于已经知道了这个人的位置k,这个位 ...

  3. mysqll 数据库相互堵塞问题

    192.168.11.186 远程访问192.168.11.185 数据库 186上看到: centos6.5:/root#mysql -uroot -p'kjk123123' -h192.168.1 ...

  4. Typecho中文验证码Captcha插件

    前言实在是受不了每天都要删除掉上百条的垃圾评论,干脆自己做了个验证码插件,顺带做的完善了些,分享给大家. 本插件是在评论验证码插件基础上完善而来.所不同的是,采用了最新的securimage 3.0. ...

  5. Java中对整数格式化

    Java中对整数格式化 1.说明    对整数进行格式化:%[index$][标识][最小宽度]转换方式 2.实例分析 (1)源码 /** * 1. 对整数进行格式化:%[index$][标识][最小 ...

  6. 关于APS在企业生产计划上的应用

    本人本身是一个码农,已经服务了*各项事业(好像是说得有点漂,没办法段子看多了)大约一半工作时候了(按60岁退休的话),从一线的小码农,到现在成了老农,出产了不少或优或劣的各种码,几乎啥都做过.近几 ...

  7. Compare AURO OtoSys IM100 with OtoSys IM600

    The main difference lies in Mercedes-Benz, VW, Audi software and adapters to work with. Software dif ...

  8. JAVA循环语句

    while循环 求1到5的和 循环输出26个英文字母分两行输出 do while循环 猜拳游戏 这里包含随机数的生成方法Math.random()中数为double[0,1)通过*10和强制类型转换可 ...

  9. apache两种工作模式详解

    prefork模式 这个多路处理模块(MPM)实现了一个非线程型的.预派生的web服务器,它的工作方式类似于Apache 1.3.它适合于没有线程安全库,需要避免线程兼容性问题的系统.它是要求将每个请 ...

  10. http post发送请求

    一: 用java自带URL发送 public synchronized JSONObject getJSON(String url2, String param) { try { URL url = ...