华为云MRS支持lakeformation能力,打造一站式湖仓,释放数据价值

时间:2023-02-09 10:11:20
摘要:对云端用户而言,业务价值发现是最重要的,华为MRS支持LakeFormation后,成功降低了数据应用的成本,帮助客户落地“存”与“算”的管理,加快推进了数智融合进程,更大程度地释放业务数据价值。

本文分享自华为云社区《华为云MRS支持lakeformation能力,打造一站式湖仓,释放数据价值》,作者:breakDawn。

1 背景

1.1 数仓和数据湖的概念

数据分析技术在2010~2019年间,以湖仓两层架构技术作为主流被各数据厂商所应用,即大数据数仓+数据湖的技术形式。

  • 大数据数仓:出现最早,也最完备,从单机向分布式、智能化发展。例如 Hive、华为DWS等
  • 数据湖:狭义上的湖主要是云厂商参与,以统一的对象存储底座结合云平台水平扩展的计算资源,让分析以数据为本、让业务快起来。

1.2 传统湖仓技术的挑战

以上技术在多年的实践中,逐步衍生出了以下的一些挑战:

  • 随着数据和AI业务持续创新,跨集群、跨服务的数据分析成为普遍需求。然而各集群、各服务各自持有元数据,难共享,难维持一致,需要元数据ETL操作才能共享。
  • 数据湖、数仓、AI数据化,导致数据虽然可以统一存储在OBS孤岛,但各服务元数据独自管理,形成数据管理的孤岛。
  • 湖仓协同仅能通过外表来访问,元数据、认证、权限都不能统一配置和管理,尤其是权限不统一严重阻碍了数据跨引擎共享。

上述问题导致了构建、保护和管理数据湖的过程复杂且耗时,通常需要大量开发和维护成本,解决这一问题的关键在于引擎元数据需要互通,只有构建满足各种引擎需求的数据湖统一元数据服务视图,才能实现数据共享避免其中额外的ETL成本以及降低链路的延时。

1.3 湖仓一体架构的出现

为了解决上述数据湖的相关挑战,2019年左右,业界开始出现一种新的数据架构,叫做DataLakehouse(湖仓一体),它同时吸收了数据仓库和数据湖的优势,能够在存算分离的基础上,构建统一元数据层,上层服务通过统一元数据层,便捷高效地共享数据和权限管理。因此数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,为公司进行数据治理带来更多的便利性。

华为云MRS支持lakeformation能力,打造一站式湖仓,释放数据价值