GeneMiner:Insight数据工程项目2018

时间:2021-05-16 11:46:56
【文件属性】:
文件名称:GeneMiner:Insight数据工程项目2018
文件大小:1.22MB
文件格式:ZIP
更新时间:2021-05-16 11:46:56
Python Gene Miner-癌症数据分析的集成平台 2018年Insight数据工程项目 表中的内容 概述 该项目通过Spark将来自癌症研究数据提取并集成到Amazon RDS上PostgreSQL患者索引表中,从而能够通过SQL或其他分析工具对癌症数据进行全癌症,全基因组查询。 管道 ETL管道如下所述: 管道可以分为两个阶段: 生成文件查找表 单个文件解析和信息提取。 文件查找表 在美国国家癌症研究所的数据门户中,每个患者可能具有多个特征文件,并且每个特征文件都包含来自一个个体患者的信息的一个方面。 而且,不可能直接从文件中分辨出一个文件属于哪个患者。 为了索引从NCI下载的文件,我在psql创建了一个文件查找表,其中包含两个元数据文件: 清单文件:表格CSV文件,我从中检索文件名以及下载后将文件存储在何处。 MetaInfo文件: Json文件,我从中检索文件名,文件类型,患
【文件预览】:
GeneMiner-master
----.gitignore(229B)
----images()
--------pipeline.png(225KB)
--------website-2.png(539KB)
--------website-1.png(491KB)
--------datatype.png(65KB)
----flask-dash-app()
--------app()
--------run.py(79B)
--------__init__.py(0B)
--------README.md(180B)
--------tornadoapp.py(512B)
----src()
--------ref_genome()
--------__init__.py(0B)
--------pipeline()
----__init__.py(0B)
----legacy()
--------xml_processor_legacy.py(5KB)
--------legacy_flask-app()
--------__init__.py(0B)
--------README.md(228B)
----LICENSE(1KB)
----README.md(9KB)
----environment.yml(3KB)
----querys()
--------top10.sql(16KB)
--------README.md(289B)
--------comparison.sql(18KB)

网友评论