分布式任务调度

时间:2022-11-27 16:01:47


宙斯是一个完整的Hadoop的作业平台

从Hadoop任务的调试运行到生产任务的周期调度 宙斯支持任务的整个生命周期

从功能上来说,支持:

Hadoop MapReduce任务的调试运行

Hive任务的调试运行

Shell任务的运行

Hive元数据的可视化查询与数据预览

Hadoop任务的自动调度

完整的文档管理

 

宙斯开源,不仅仅是开源技术,更是开源产品。

 

 

 

课程介绍:详解Hadoop作业平台宙斯Zeus

 

课程大纲:

zeus简介

zeus架构

zeus与其他调度系统对比

支持yarn的zeus2

zeus使用注意事项

zeus2的后续计划

 

【适合群体】 :

1. 系统架构师、系统分析师、高级程序员、资深开发人员。  

2. 牵涉到大数据处理的数据中心运行、规划、设计负责人。  

3. *机关,金融保险、移动和互联网等大数据来源单位的负责人。  

4. 高校、科研院所涉及到大数据与分布式数据处理的项目负责人。  

5. 数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员。 

 

 

以下是视频过程QA:

 

这个跟tws调度是不是有些像?

答:对tws不是很了解,具体不太请求,跟oozie比较像

 

Zeus也是apache的开源组件吗?代码托管到哪了?

答:不是apache的,是阿里的,github地址为https://github.com/alibaba/zeus

 

Master挂掉之后worker还会继续执行作业吗?

答:Worker会杀死自身的任务,然后连接到新的Master

 

zookeeper在里面起什么作用?

答:主要是做任务失败通知,不是必须的

 

taobao不用这个了吗?github上都一年没更新了?Zeus在阿里主要做那块任务?

答:淘宝据我了解一直在使用,代码现在确实没有更新,所有有新版zeus2:https://github.com/michael8335/zeus2

 

好像淘宝有个开源项目tbschedule任务调度系统,和这个有什么区别?

答:tbschedule也是一个批处理调度引擎,但zeus更专注与hadoop

 

Worker竞争分布式锁,会不会死锁呢?

答:不会,原子操作

 

可以举一个Zeus实际的应用实例吗?

答:很多公司都用来做hadoop集群调度,最常用的就是MR和Hive

 

如果使用用zeus还是zues2好?

答:这个还是根据实际情况来,如果是hadoop1,最好直接用zeus,如果是hadoop2,个人建议使用zeus2

 

当前正在执行的所有worker的任务清单,存储在哪里?如果当前master宕机,新的master怎么能取到、并重新下发任务?

答:任务每个关键点都会记录在数据库中,新Master直接从数据库中就可以获得

 

新的Master怎么知道之前所有正在执行的任务,然后下发?

答:新Master可以从数据库的任务历史表中获取正在执行的任务

 

zeus对算法的管理与调度,支持样本数据的模拟结果吗?因为算法场景和效率区别还是比较大得

答:zeus只是一个工作流引擎,具体的算法是自己的job实现

 

zeus在淘宝应用规模有多大?请老师再介绍一下宙斯诞生发展的背景过程.

答:这个应用规模不便说,背景主要是为了给hadoop集群提供友好的调度管理

zeus和azkaban和oozie做一下比较?

答:都是hadoop集群的工作流引擎

 

使用宙斯的任务调度跑HiveQL有时会遇到找不到hive表或者找不到jar包的情况,但是手动执行重跑又可以执行了,请问这个是怎么回事?

答:这个是环境变量没有配置正确的原因

 

zeus支持yarn吗?想问一下宙斯1现在存在哪些bug?

答:zeus1不支持,zeus2支持,具体的BUG可以到https://github.com/michael8335/zeus2 wiki中查看

 

宙斯的master和yearn的ResourceManager有啥联系吗?

答:没有

 

公司在用宙斯任务调度时不时的有任务进入任务队列不执行的情况,然后就只能重启宙斯,这也是宙斯1的bug吧?

答:这个得具体分析,可以私下联系我

 

请问现在可以对接到Hadoop2.4版本吗?什么时候支持hive0.13

答:没有,暂时没有必要