活动Q&A回顾 | Linkis新版本的特性介绍以及使用

时间:2022-09-30 08:50:36


       活动Q&A回顾 | Linkis新版本的特性介绍以及使用

近日,WeDataSphere和Apache Linkis (Incubating)社区举办了2022年第一场 Meetup。本次活动邀请了Linkis PPMC 邸帅 和 Linkis Contributor 张延召,给大家带来《Linkis 1.0.3 新版本特性介绍》和《基于Linkis的企业大数据平台改造之路》的分享 活动回顾 | Linkis新版本的特性介绍以及使用实践 (qq.com)

直播期间收到大家的很多反馈和鼓励,社区给提问互动的小伙伴送出了社区的周边T恤,书包等,具体代表性的问答内容,也在此罗列分享给大家。


邸帅老师的问答交流内容 

Q1:请多讲讲DSS的内容(@俄文)

A:本次会议集中于Linkis的内容, 后续将安排DSS内容的分享。DSS 1.0.1已经版本,对 links 1.0.3版本进行了完整适配。也包括 DSS  App connector 引擎复用的修复等问题。


Q2:Trino有计划支持么(@大强)

A:当前没有。欢迎感兴趣的同学加入到我们的社区开发者群,在开发者群里面和我们一起规划,大家形成类似于 SIG 的team,讨论怎么样去实现,小助手ID:WeDataSphere。


Q3:Qualitis计划有独立版本吗?(@Gnixoag)

A:Qualitis 有计划独立版 ,3 月份会发布适配 Linkis 1.0.3的版本;顺便提一下,之前在DSS中没有很好支持的WeDataSphere组件,如Exchanges 之前未对接 DSS 的工作流、App connector 对接规范,在新的版本中都会去完成相关对接。这样大家就能够在工作流中实现像Scriptist ,Visuails 去使用Exchange 。


Q4: DataSource服务设计思路以及应用,可以说下吗?(@我不是杨小强)

A:因为 Linkis 要连接到很多的后台个计算存储引擎集群,包括hadoop 、Hive等不同的数据源、数据库如 MySQL等。当前的引擎集群连接信息的一些地址、版本等,目前 Linkis 里面还没有一个比较好的复用的管理服务。所以简单来说, DSS DataSource 服务的设计就是为了解决这个问题,去提供对于后台计算存储引擎集群的连接信息。也可以说是,元数据连接相关的元数据的集中管理和复用的位置。


Q5:DataSource之后是可以每个type的多实例吗?(@我不是杨小强)

A:按照每个type的多实例是每一种计算存储引擎比如说多个版本或者多个集群的管理的角度,DataSource是可以每个type多实例的。


Q6:DSS建议建议支持跨数据源SQL查询?(@我是搬砖的)

A:这个和 Auxtrator 模块相关。首先在 DSS ,建议大家1.0.1版,我们已经支持通过Linkis层去指定底层的数据源。但是跨数据源联合 join ,当前 Linkis   Auxtrator模块,高级计算策略的支持,还没有做相关的实现。大家可以参与进来,一起把这块给实现。


Q7:Linkis JDBC引擎支持多数据源查询的支持吗?(@海森堡)

A:一次在一个底层 JDBC 集群/引擎去提交查询的话,已经支持了。如果跨数据源查询,当前还没有支持。我们需要在 Auxtrator 去开发对应的计算策略支持数据。


Q8:数据湖平台的数据后面有没有开发计划?(@东篱采菊)

A:按照数据湖平台是流批一体相关的新引擎支持的理解来,我们在微众银行内部,有做试点。当前还未明确开发计划,欢迎大家加入开发群,我们一起讨论看怎样排期。


Q9:DSS对接Linkis1.0.3版本什么时候发布?(@大强)

A:已经发布,可以到https://github.com/WeBankFinTech/DataSphereStudio了解。


Q10:Linkis 目前的正式使用案例和哪些公司在用的情况,可以介绍下吗?(@东篱采菊)

A:目前跟我们取得联系的已经在生产的公司近 100 家,跟我们有沟通和联系的试用用户超过 600 多家。Apache Linkis PPMC、PMC 团队的成员都是 Linkis 的核心生产用户,包括天翼云、BOSS 直聘等。其中,高并发相当高的用户,如 BOSS 直聘的使用用户数比项目发起方微众银行在生产的用户还要多,他们有1500+用户在进行使用,Linkis 日均任务 3 万多。欢迎大家访问 Linkis 网站了解 “Who is user Linkis ?” 网址 linkis.apache.org


Q11:DSS怎么使用Data source 包括hive、spark(@Zosimer)

Q12:Scriptis可以使用DSS的链接信息吗?(@海森堡)

Q13:连接集群的元数据,这种权限检验有没有和ranger等的对接?(@大强)

A(11-13):DSS的定位是提供一个统一的数据源相关连接信息存储,以及提供服务的能力。在数据源信息保存的基础之上,提供对于数据源信息所在数据源的查询能力,也就是源数据的查询能力。后面会把所有用到类似于数据源相关的服务全部切到目录 status 里面去,像 Exchange 1.0 数据源管理的能力已经用到了 Datasource。

接下来 Streamis 流式开发管理工具,也会使用 Linkis Datasource 管理流式数据相关的数据源,比如kafka数据源等。持续迭代后,Scriptis 后面的数据库模块等,以及 Qualitis  Visualis 的数据源管理模块等,都会逐步去和 Linkis Datasource 进行对接。后面用户只需要在 Linkis Datasource 录入一次数据源信息,就可以在上层所有应用工具里使用。上述是我们规划的内容,需要时间和社区的伙伴一起去把这块的功能进行实现。


Q14:Linkis 提交任务时隔一段时间之后会提示资源不足

A:这点在 Linkis1.0.3 中得到了很大的一个改善。我们优化了很多Linux manager 的一些日志文档和关于错误的提示。之所以会提示资源不足,一部分是因为一样的队列可能资源比较少,或者是本身我们所起的Linux跟 connect manager 现在资源不够,之前可能只是简单地提示说资源不够,现在会直接在错误码里面提示出来。


张延召老师的问答交流内容:

Q1:补数据是怎么实现的?(@俄文)

A:DolphinScheduler也会有会提供这个补数据的这个功能,提交一个任务,去进行一些的配置传输;根据上下文去把这些参数去解析好,build 成Linkis 的任务去执行。


Q2:这个是哪个版本?(@Jack)

A:DolphinScheduler是1.3.8/9,Linkis 1.0.2。


Q3:调度工具为什么要从 Azkaban 换成海豚调度器(@NULL)?

A:我们之前的调度是自己去做任务的解析。然后我们想引入Linkis ,还有海豚调度的一些设计理念,还有任务类型的设计和我们的需求比较类似,然后引入DolphinScheduler去支持我们这些引擎。


Q4:Linkis 会支持 jar包提交吗?(@Jack)

A:会支持,Linkis release 中 once engine模式,可以支持 streaming 架包的流式应用的提交后续也会去支持如Spark等任务的提交。


Q5:DolphinScheduler对接links,大概花了多久呢?(@Austin)

A:首先做secret 任务提交,这个过程的时间不长。另外他会扩展一些引擎,进行其他类型任务的提交,我们已经做了一个多月,由于春节假期有耽搁,另外还在做其它工作,现在由其它同事主要在跟,一共3个人,预计3、4月完成。


Q6:需要对 DolphinScheduler的源码修改吗?(@Zosimer)

Q7:有没有打算把改造的 DolphinScheduler开源,做分支支持(@东篱采菊)

A 6-7:需要修改一些, 需要新增 Linkis task 实现去继承上面的接口。目前没有 DolphinScheduler分支开源的计划,打算先在公司内部去跑。


Q8:非常精彩,希望分享一下DSS on Linkis是如何做资源管控的?还是yarn在实际控制吗?(@闪电先生)

A:下次meetup中对此话题展开介绍。


Q9:对spark3.X版本、flink高版本的支持,有相应计划吗?(@划破天空)

A:1.0.3的版本已经对 Flink 的 EngineConn 做了一系列的优化。后续会有安排。


感谢两位讲师、Apache Linkis PPMC 尹强、王和平的辅助问答,以及社区用户的参与,我们会持续用心做好 WeDataSphere,努力将 Linkis 打造成中国在 Apache基金会的*项目。


参与社区贡献的方式

(1新手任务:认领入门任务,详见https://github.com/apache/incubator-Linkis/issues/1161

(2)作品沉淀:发布WeDataSphere开源组建相关内容,包括但不限于安装部署教程、使用经验、案例实践等,形式不限,请投稿给小助手。如:

(3)贡献代码:PR和Issue;

(4)答疑:热心为开发者答疑,如社区群回答开发者问题、issue答疑等;

(5)其他:沙箱体验、参与活动、成为社区志愿者等;


如何获取讲师分享材料:公众号回复“Linkis新版本

阅读原文”跳转到B站获取直播回放。


活动Q&A回顾 | Linkis新版本的特性介绍以及使用


本文分享自微信公众号 - WeDataSphere(gh_273e85fce73b)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。