circRNA 序列提取中的难点

时间:2023-03-09 16:28:52
circRNA  序列提取中的难点

在预测circRNA时,都是检测breakpoint 处的reads 数,最后给出的环状RNA的ID 都是诸如 chr14:106994222-107183708 这样的形式,给出了起始和终止位置;

对于某一个基因来说,其可能产生的circRNA的类型是多样的,以下图为例进行说明

circRNA  序列提取中的难点

1) 由单个外显子组成的环状RNA, 比如

  circRNA  序列提取中的难点circRNA  序列提取中的难点circRNA  序列提取中的难点circRNA  序列提取中的难点

2)有多个外显子组成的环状RNA, 比如

  circRNA  序列提取中的难点

以上的两种circRNA在序列提取时都非常容易,只需要将circRNA的起始和终止位置能够和某些外显子正好对应上,那么就可以确定其序列就是起始外显子和终止外显子之间的所有外显子构成的序列

3)只由内含子组成的环状RNA

circRNA  序列提取中的难点

  这种环状RNA也可以方便的提取序列,直接确定起始和终止位置在基因组上的位置,将对应的序列提取出来即可

4)起始外显子和终止外显子之间有多个外显子,比如

  circRNA  序列提取中的难点 circRNA  序列提取中的难点

5)起始外显子和终止外显子之间有内含子,比如

circRNA  序列提取中的难点

  预测环状RNA时,只能够确定起始外显子和终止外显子,却不能确定在该circRNA中间到底有哪几个外显子,而且到底包不包含内含子序列,由于可变剪切的存在,可能存在多个外显子,也可能包含内含子,是不能够准确的提取circRNA对应的序列;能够做的只是将包括起始外显子和终止外显子以及之间的所有外显子连起来作为circRNA的序列

  以上面的exon1-exon4 之间形成的环状RNA为例,我们只能将exon1-exon2-exon3-exon4的序列作为该环状RNA的序列,但是和实际的环状RNA的序列肯定是存在误差的;

  目前分析手段没办法很好的解决这个问题,也许随着对环状RNA认识的加深和分析方法的改进,可以准确的识别circRNA的序列;

  为了准确的确定circRNA的序列,只能是针对breakpoint 两边的序列设计特异性引物,将circRNA 扩增出来,再测序,准确的识别序列;