生物数据库

时间:2024-03-27 18:47:57

生物数据库之核酸数据库

参考:山东大学生物信息学MOOC(学习笔记)

一、为什么需要生物数据库?

生物数据库

-上图这密密麻麻是啥?

-答对了,就是DNA

事实上,**这是HIV I病毒的整个基因组,包含9752个碱基,编码9个基因。**差不多一页A4纸,正反面打印,就能讲这九千多个碱基记录下来。

当然病毒的基因组很小,与之相比,我们人类的基因组要大得多啦!

人的基因组有3G bp, 也就是3,000,000,000个碱基,一页A4纸可以打印5000个碱基的话,我们需要打印60万页,才能把整个人类的基因组给记录下来。

所以,这么宏大的信息量,我们必须要建立电子数据库来保存。

​ 事实上,一块3T的硬盘就能将上述信息收集保存,但是我们不仅仅要记录,还要支持访问、管理和更新,这样一套存储空间加上完整的管理系统才能构成我们所说的数据库系统。

因此我们说,生物数据库是被组织起来的大量生物数据,这些数据通过计算机可以被方便的访问、管理及更新。

说到这,我们要了解一下天文数字单位

生物数据库

下面的关系千万不要弄混淆了喔:
1T=103G=106M=109K 1T=10^3G=10^6M=10^9K

二、生物数据库的分类

​ 著名的学术期刊NAR(Nucleic Acids Research)有一个生物数据库专刊,到目前累计收录了2000多个数据库,有点规模的生物数据库都争相在此发表,包括PDB和GenBank都在NAR上传更新自己的版本。

生物数据库

我们这里将其分为三大类,分别是核酸数据库、蛋白质数据库、专用数据库。

核酸数据库和蛋白质数据库又划分出一级数据库和二级数据库。蛋白质的一级数据库有能细化为一级蛋白质结构数据库和一级蛋白质序列数据库。

  • 一级数据库:存储的是通过各种科学手段得到的基础数据。比如测序获得的DNA序列、X射线衍射法等得到的蛋白质三维结构等。

  • 二级数据库:通过对一级数据库的资源进行分析整理、归纳注释的具有特殊生物学意义的有专门用途的数据库。比如蛋白质分类数据库CATH和SCOP等。

生物数据库

三、文献数据库PubMed

PubMed是超过拥有两百四十万的生物医学文献的数据库。它们来源于MEDLINE(生物医学文献数据库)、生命科学领域学术杂志以及在线的专业书籍。这些文献部分提供全文链接。

生物数据库

  • 搜索条规则:关键词[索引名]

生物数据库

四、一级核酸数据库

  • 主要包括三大核酸数据库和基因组数据库。

  • 三大核酸数据库:共同构成国际核酸序列数据库合作联盟INSDC

    • Genbank(NCBI):由NCBI(美国国家生物技术信息中心)开发和维护,NCBI隶属于美国国立卫生研究院(National Institute Of Health,NIH)。
    • ENA(EMBL):欧洲分子生物学研究室开发并负责维护。
    • DDBJ:日本DNA数据库,由日本静冈的*立遗传学研究所(NIG)开发维护。
  • 我们先复习一下原核生物和真核生物基因的不同:

基因的区别 原核生物 真核生物
基因组大小 小,0.5-91 million bp 大,10-670,000million bp
基因密度 高,1基因/1000碱基 低,1基因/100,000碱基(人)
编码区含量 高,70% 低,5%
基因是否线性分布
mRNA有无内含子

翻译蛋白的外显子被内含子分割开,即真核生物的mRNA要经历剪切过程,剪切后的成熟mRNA才能进行翻译,这就是原核生物和真核生物基因的最大区别。也导致了这两种基因在数据库内不同的存储和注释方式。

  • 登陆到NCBI主页,选择Nucleotide:也就是调动Genbank数据库进行搜索。

生物数据库

一)解读Genbank(NCBI)

1、我们先来浏览编码大肠杆菌(原核生物)dUTPase 的DNA序列信息:X01714(这也是基因的检索号,在数据库中是唯一且不变的。)

生物数据库

注意:”基因真名“Locus和“基因学号”Accession不一定相同,当一个基因的序列发生了改变,它的检索号(Accession)不会变,但会被赋予一个新的版本号和GI号。(容易混淆的就是 LOCUS,ACCESSION,VERSION 和 GI。后面的都很好理解。

  • KEYWORDS 提供能够大致描述该条目的几个关键词,可用于数据库搜索。

  • SOURCE 基因序列所属物种的俗名。他下面还有一个子条目。

  • ORGANISM 是对所属物种更详细的定义,包括他的科学分类。

  • REFERENCE 是基因序列来源的科学文献。有时一条基因序列的不同片段可能来源于不同的文献,那样的话,就会有很多个 REFERENCE 条目出现。

    • REFERENCE 的子条目包括文献的作者、题目和刊物。
    • 刊物下面还包括 PubMed ID 作为其子条目。
    • COMMENT 是*撰写的内容,比如致谢,或者是无法归入前面几项的内容。

生物数据库

  • features是最重要的!!!

上条博客有仔细掰***features***的解读喔~

2、我们现在来浏览一下真核生物的核酸序列。

真核生物的基因与原核生物不同,是非线性排列的,也就是基因里有外显子和内含子。因此真核生物核酸序列的数据库记录要要比原核生物复杂得多。 有时需要几条记录拼凑在一起才能描述出一个完整的基因。

2.1 我们先来看看编码【人】的dUTPase 的成熟 mRNA 序列。

成熟 mRNA 是已经剪切掉了内含子、只剩外显子的序列,所以这条成熟 mRNA 序列和我们之前看到的原核生物的 DNA 序列从拓扑结构上看是几乎一样的,都是线性的。

  • 输入这条成熟 mRNA 序列的检索号U90223,搜索! 打开数据库记录,基本的注释内容和原核生物的差不多。

生物数据库

大家看到 KEYWORDS 后面只有一个点。这个点提示我们,数据库并不是完美的,所有 数据库都存在数据不完整的问题。因此,**忠言逆耳:别指望 Genbank 或任何一个数据库能够百分百做到数据无误且实时更新。 **

这条真核生物序列的 Genbank 注释看起来和原核生物的差不多,这是因为我们很小心的挑了一条成熟 mRNA 的序列。

二)解读基因组数据库

1.人基因组数据库Ensemble

人类基因组这才是真的天书。。

没关系,用多少学多少~

Ensemble收入了各种动物的基因组,特别是那些离我们人类近的动物(脊椎动物)。这些基因组的注释都是通过配套开发的软件自动添加的。

用途:从染色体入手找到更多的基因

2.微生物宏基因组数据库:JCVI

美国国立研究所(NIH)建立了人类微生物组学计划(HMP)

HMP:人类微生物组学计划。主要包括了人类鼻腔、口腔、皮肤、胃肠道、泌尿生殖道宏观基因组样本数量以及流程。

五、二级核酸数据库

其中 NCBI 下属的三个数据库经常会用到:

他们是 RefSeq 数据库,dbEST 数据库和 Gene 数据库。

  • RefSeq 数据库,也叫参考序列数据库,是通过自动及人工精选出的非冗余数据库,包括基因组序列、转录序列和蛋白质序列。凡是叫 ref 什么的数据库都是非冗余数据库,就是已经帮你把重复的内容去除掉了。

  • dbEST 数据库, 也就是表达序列标签数据库,存储的是不同物种的表达序列标签。

  • Gene 数据库,以基因为记录对象为用户提供基因序列注释和检索服务,收录了来自 5300 多个物种的 430 万条基因记录。

此外,

  • 非编码 RNA 数据库,提供非编码 RNA 的序列和功能信息。非编码 RNA 不编码蛋白质但在细胞中起调节作用。目前该数据库包含来源于 99 种细菌,古细菌和真核生物的 3 万多条序列。

  • microRNA 数据库 ,主要存放已发表的 microRNA 序列和注释。这个数据库可以分析 microRNA 在基因组中的定位和挖掘 microRNA 序列间的关系。

关于核酸数据库就给大家介绍到这里。