阿里DataWorks使用配置

时间:2023-02-06 12:00:08

阿里DataWorks使用配置

1 DataWorks工作空间配置数据源

链接URL:​https://setting-cn-beijing.data.aliyun.com/?defaultProjectId=80602#/dataSource

阿里DataWorks使用配置

2 数据源配置

2.1 数据源类型选择

关系型数据库:

MySQL、SQL Server、PostgreSQL、Oracle、DM、DRDS、PolarDB、HybridDB for MySQL、AnalyticDB for PostgreSQL、AnalyticDB for MySQL2.0、AnalyticDB for MySQL3.0、ApsaraDB for OceanBase、SAP HANA、MariaDB、DB2、Kudu。

大数据存储:

MaxCompute、DataHub、Data Lake Analytics(DLA)、Vertica、GBase8a、Hive、HBase、Hologres、KingbaseES、ClikHouse

半结构化存储:

OSS、HDFS、FTP、Rest API

NoSQL:

MongoDB、Memcache(ocs)、Redis、OTS-Internal  OTS、Graph Database、Elasticsearch、Cassandra

消息队列:

LogHub、kafka

阿里DataWorks使用配置

2.2 数据源配置

连接串模式配置示例:jdbc:mysql:// IP:3316/dataset  配置完点击完成保存即可。

阿里DataWorks使用配置

3 点击DataStudio进入数据开发(创建数据清洗加工任务,并编排,将编排后的任务提交、发布至生产环境进行周期调度)。

阿里DataWorks使用配置

3.1 DataStudio操作--新建业务流程(业务流程点击鼠标右键新建业务流程)

阿里DataWorks使用配置

3.2 流程编排---服务流程

节点组:

3.2.1、数据集成

离线同步节点配置(拖拉拽将节点移动到流程编辑画布自定义节点名称):

3.2.1.1、数据源配置(选择数据源配置信息配置数据来源端和数据去向端)

阿里DataWorks使用配置

3.2.1.2、字段映射(根据配置自动映射也可以根据需要自定义字段映射关系)

阿里DataWorks使用配置

3.2.1.3、通道控制(配置数据通道信息--限流配置)

阿里DataWorks使用配置

3.2.1.4、数据集成资源组配置

阿里DataWorks使用配置

3.2.1.4.1、点击更多方案

阿里DataWorks使用配置

3.2.1.4.2、方案选择调试资源组

阿里DataWorks使用配置

3.2.1.5、点击保存按钮保存离线同步节点配置信息

阿里DataWorks使用配置

3.2.2 虚拟节点--没有实际的意义作为任务调度的总开关调度任务

阿里DataWorks使用配置

3.2.3 流程提交--点击提交按钮提交流程节点信息

阿里DataWorks使用配置