Dataworks数据集成开发规范

时间:2023-02-10 11:02:53

1 数据集成概念

   数据集成,从字表意思理解,数据的集中,也就是说将源数据从各个数据系统集成到dataworks中,或者从dataworks推送到各个目标系统中,以下将会介绍具体的数据集成的规范。

1.1 数据集成开发

1.1.1、位置

    数据开发 -> 点击业务流程 -> 点击新建 -> 选择“离线同步”,如下图:

Dataworks数据集成开发规范

1.1.2、操作

a、在新建选项卡页面,输入你的数据集成的名字,点击提交

Dataworks数据集成开发规范

  b、点击提交后页面如下所示,可以看到主要分为四部分功能区,下面将进行每一部分功能区的简述。

Dataworks数据集成开发规范

  • 左上角功能区主要是保存和运行提交功能区,第一个功能键为保存;第二个功能键为运行,参数取数按照上次运行的参数值或者默认值为准;第三个功能键为带参运行,顾名思义,就是需要你选定参数值,然后进行运行脚本;第四个功能键为任务提交到任务发布功能区,以待发布到生产环境;第五个功能键为任务提交并允许其他人编辑;第六个功能键为任务运行中的停止操作;第七个功能键为转换脚本,即将页面式拖拉脚本转化为脚本语言,正常人不太会用的功能。
  • 数据来源,指数据集成的数据来自于哪种类型数据库的哪个数据源,该数据源是指在前文中《2.2.2 数据源的创立》提到的数据源;
  • 数据去向,指数据集成的数据落表到哪种类型数据库的哪个数据源,该数据源是指在前文中《2.2.2 数据源的创立》提到的数据源;
  • 右侧功能区东西比较多,需要后续进行介绍

   待选择好数据来源选项卡中的数据源以及表名,数据去向选项卡中的数据源以及表名后,上述页面会变成如下页面:

Dataworks数据集成开发规范

  • 第1部分——数据来源选项卡中,多了开发项目名和生产项目名两个项目名,意思是该业务可以在开发跟生产环境下均可运行;第二部分是会有一个默认的分区信息,这个信息一般不需要我们处理,按照默认即可。
  • 第2部分——数据去向选项卡中,如果我们的去向数据库选择的是关系型数据库,即会出现上述两个选项:导入前准备语句和导入后完成语句,这两个选项的作用就在于,往关系型数据库写入数据的时候,在插入前或者插入后是否需要进行删除数据或者更新数据,如果需要,请按照去向数据库语法sql规则进行书写DDL sql语句。
  • 第3部分——字段映射选项卡中,是指数据源表与数据目标表中的字段映射关系,即dataworks底层数据就按照这个对应关系来同步或者推送数据;看右侧选项,如果数据源表与目标表的字段一致,我们可以用同名映射;如果数据源表与目标表的字段顺序一致,我们可以用同行映射;如果数据源表与目标表的字段不一致,包括字段名称或者顺序,我们可以手工进行拖拽字段的映射关系。

需要注意的一点是:在我们修改数据集成的,比如目标表或者原表的字段顺序发生改变,需要我们重新映射一下字段关系,否则,字段映射可能会混乱,因为dataworks本身无法进行自动字段映射。

  • 第4部分——通道控制选项卡中,按照默认设置即可,不需要改动。

   而在调度配置选项卡中,具体的示例如下。而此部分的配置是我们在数据集成乃至数据开发中的最重要的配置,具体如下:

Dataworks数据集成开发规范

  • 参数:可以直接加载代码中的参数,会将脚本中的参数自动加载出来
  • 时间属性:
      实例生成方式 有两种,T+1次日生成,即任务上线生产环境后,需要到第二天到达其设定的调度时间后开始运行;发布后即时生成,指节点发布后可以立刻在生产运维中心周期实例面板中看到该实例:情况1,节点定时时间在节点发布时间点后10分钟的周期实例会正常运行;情况2,节点定时时间在节点发布时间点后10分以内或者节点发布时间点之前,那么实例会空跑。

每天23:30分后进行节点变更操作并发布,节点生效时间为第三天才会生效。

更加详细的描述请参见官方文档 实例生成方式

  •  调度类型 分为三种,正常调度,暂停调度,空跑调度,我们以默认正常调度即可。
      调度周期 支持分钟,小时,日,周,月和年调度,即在生产环境调度系统中,多久会真实执行一次节点中的代码逻辑

更加详细的描述请参见官方文档 调度周期

  •  定时调度时间 可以选择具体调度的时间,并且结合上面的调度周期,生成具体的调度周期和具体的执行任务的时间

具体生成的cron表达式不了解的可以参见文档 cron表达式

  •  超时定义 一般以默认为准,除非你的任务有具体的超时要求
      重跑属性 正常以默认选项即可,运行成功或失败后均可重跑:如果节点多次重跑不会影响结果,可选择“运行成功或失败后皆可重跑”;运行成功后不可重跑,运行失败后可以重跑:如果节点运行一次成功后重跑会影响结果,而运行失败后重跑不会影响结果,可选择“运行成功后不可重跑,运行失败后可以重跑”;运行成功或失败后皆不可重跑:如果节点不管运行成功或失败重跑都会影响结果(如某些数据同步节点),可选择“运行成功或失败后皆不可重跑”,当选择这个选项时,如果系统出故障,在故障恢复后系统也不会自动重跑节点。
  • 调度依赖

 依赖的上游节点 将数据来源的表名复制到输入框中,查到该任务名并添加
  本节点的输出 将原默认的输出任务删除,将数据去向的表名复制到输入框中,查到该任务并添加

   在版本选项卡下,需要配置的信息不多,但是对于我们任务调度后出现问题,会很有用,如下图

Dataworks数据集成开发规范

   通过上图可以看到,这个任务我们有三个版本,目前生产上的版本为V3,如果说我们因为某种原因,需要将版本回退到V2,那么就点击V2后的操作选项卡下的回滚,即可回滚到V2版本。

   在资源集成资源组配置标签下,需要我们配置的只有一个,即需要手工选择方案,我们统一选择测试资源组即可。具体示例如下:


Dataworks数据集成开发规范

1.2 数据集成发布

   数据集成发布有两种方式:

1.2.1 在数据集成任务中,左上叫有一个发布的按钮,如下图:

Dataworks数据集成开发规范

  1.2.2 在业务流程中(如何打开该页面,展开业务流程选项卡,双击我们开发的业务流程,即可出现),如下图:

   但是操作完上述操作其实并没有将任务发布到生产环境,而是仅仅将任务发布到任务发布中心,如下图,点击进入任务发布中心

Dataworks数据集成开发规范

   然后选择需要发布到生产的任务点击发布选中项,即发布成功,具体如下图:

Dataworks数据集成开发规范