goodreads_etl_pipeline:用于构建数据湖，数据仓库和分析平台的端到端GoodReads数据管道下载

【文件属性】：

文件名称：goodreads_etl_pipeline:用于构建数据湖，数据仓库和分析平台的端到端GoodReads数据管道

文件大小：1.26MB

文件格式：ZIP

更新时间：2024-04-09 13:33:44

python airflow spark apache-spark scheduler

GoodReads数据管道建筑学管道包括各种模块： ETL职位 Redshift仓库模块分析模块概述使用Goodreads Python包装器从Goodreads API实时捕获数据（查看用法）。从Goodreads API收集的数据存储在本地磁盘上，并及时移至AWS S3上的Landing Bucket。 ETL作业以火花形式编写，并按气流计划以每10分钟运行一次。 ETL流程从API收集的数据将移至着陆区s3存储桶。 ETL作业具有s3模块，该模块将数据从着陆区复制到工作区。数据移至工作区后，将触发火花作业，该火花作业将从工作区读取数据并进行转换。数据集已重新分区并移至“已处理区域”。 ETL作业的仓库模块从已处理区域中拾取数据并将其分段到Redshift临时表中。使用Redshift暂存表并在Data Warehouse表上执行UPSERT操作以更新数据集。

立即下载

【文件预览】：
goodreads_etl_pipeline-master
----Utility()
--------bootstrap_script.txt(592B)
----src()
--------logging.ini(439B)
--------goodreads_driver.py(3KB)
--------warehouse()
--------__init__.py(0B)
--------README.md(339B)
--------s3_module.py(3KB)
--------goodreads_udf.py(634B)
--------goodreads.log(1B)
--------goodreads_transform.py(6KB)
----LICENSE(1KB)
----README.md(7KB)
----SampleData()
--------author.csv(202KB)
--------book.csv(1.79MB)
--------reviews.csv(593KB)
--------user.csv(505KB)
----docs()
--------images()
--------Images.docx(148KB)
--------Airflow_Connections.md(479B)
----goodreadsfaker()
--------generate_fake_data.py(10KB)
--------__init__.py(0B)
----airflow()
--------plugins()
--------dags()
----.gitignore(145B)

秒客网

goodreads_etl_pipeline:用于构建数据湖，数据仓库和分析平台的端到端GoodReads数据管道

网友评论

相关文章