蛋白质芯片查找与GEO2R进行初步分析

时间:2024-03-17 21:15:03

1、蛋白质芯片查找

GEO网站:https://www.ncbi.nlm.nih.gov/gds

检索词:Pancreatic cancer;Protein profiling by protein array

蛋白质芯片查找与GEO2R进行初步分析

          我们可以看到搜索结果为11个,选择第一个数据GSE29676作为分析的数据集;该数据集共609个样本,平台为13669,点击Analyze with GEO2R发送到GEO2R进行数据的初步分析。

2、GEO2R进行初步分析

2.1、根据disease将数据分成两组

       根据实际情况,将实验对象选定为帕金森组和控制组(老年组);点击top250开始分析。

蛋白质芯片查找与GEO2R进行初步分析

                                                                                   组别分类前

蛋白质芯片查找与GEO2R进行初步分析

                                                                                   组别分类后

蛋白质芯片查找与GEO2R进行初步分析

                                                                         点击top250后开始分析 

2.2、获取分析结果 并保存相关的矩阵,做进一步分析

     获取选中的149个样本(29个胰腺癌、120个老年控制组),可观察到校正后的p值、p值。每一条记录可点击展开,每个样本该蛋白质的表达量可通过条形图的高低展示出来;数据共有9481条,自动化筛选出的差异表达蛋白有限但是可用于大致的观察;点击save all results另存为可以下载所有处理后的数据;利用R语言做后续的处理;可点击view distribution观察样本的分布情况。

蛋白质芯片查找与GEO2R进行初步分析

                                                                            GEO2R的展示结果

蛋白质芯片查找与GEO2R进行初步分析

                                                                             下载后的数据截图

蛋白质芯片查找与GEO2R进行初步分析

                                                               此处为样本表达含量的boxplot图 

2.3、利用R语言提取差异表达的蛋白质的ID号

      保存后的处理文件为geo2r.txt,利用R语言提取所有的gene ID号。我们可以观察到geo2r是随着行数的增多,差异性是越来越小的。取前100行为我们的差异表达基因。

R语言代码:

data<-read.table("geo2r.txt",header=T)
takeLine<-seq(1,100)
geneId<-data$ID[takeLine]
write.table(geneId,"differe.txt",col.names=F,row.names=F)

处理结果:

蛋白质芯片查找与GEO2R进行初步分析

3、kegg和go分析

网址:http://geneontology.org/

将提取出的id数据放到go网站上,做biological process分析,可以观察到gene主要集中在regulation of biological quality,biological process和 cellular compont分析可以明显的观察到数据和神经的信号传到相关。

 

蛋白质芯片查找与GEO2R进行初步分析

                                                                  biological process分析结果

蛋白质芯片查找与GEO2R进行初步分析

                                                                         cellular compont分析