• Hudi源码|bootstrap源码分析总结(写Hudi)

    时间:2022-10-18 17:55:47

    前言 Apache Hudi bootstrap源码简要走读,不了解Hudi bootstrap的可以参考:利用Hudi Bootstrap转化现有Hive表的parquet/orc文件为Hudi表 版本 Hudi 0.12.0 Spark 2.4.4 入口 val bootstrapDF = sp...

  • 使用 Apache Hudi 实现 SCD-2(渐变维度)

    时间:2022-10-16 11:04:41

    数据是当今分析世界的宝贵资产。 在向最终用户提供数据时,跟踪数据在一段时间内的变化非常重要。 渐变维度 (SCD) 是随时间推移存储和管理当前和历史数据的维度。 在 SCD 的类型中,我们将特别关注类型 2(SCD 2),它保留了值的完整历史。 每条记录都包含有效时间和到期时间,以标识记录处于活动状...

  • 基于Apache Hudi + MinIO 构建流式数据湖

    时间:2022-10-11 16:09:03

    Apache Hudi 是一个流式数据湖平台,将核心仓库和数据库功能直接引入数据湖。Hudi 不满足于将自己称为 Delta 或 Apache Iceberg 之类的开放文件格式,它提供表、事务、更新/删除、高级索引、流式摄取服务、数据聚簇/压缩优化和并发性。Hudi 于 2016 年推出,牢牢扎根...

  • 基于 Apache Hudi 极致查询优化的探索实践

    时间:2022-09-26 11:10:56

    摘要:本文主要介绍 Presto 如何更好的利用 Hudi 的数据布局、索引信息来加速点查性能。华为云基于 Apache Hudi 极致查询优化的探索实践!》,作者:FI_mengtao。背景湖仓一体(LakeHouse)是一种新的开放式架构,它结合了数据湖和数据仓库的最佳元素,是当下大数据领域的重...

  • 基于 Apache Hudi + Presto + AWS S3 构建开放Lakehouse

    时间:2022-09-24 14:21:27

    数据仓库被认为是对结构化数据执行分析的标准,但它不能处理非结构化数据。 包括诸如文本、图像、音频、视频和其他格式的信息。 此外机器学习和人工智能在业务的各个方面变得越来越普遍,它们需要访问数据仓库之外的大量信息。开放的Lakehouse云计算发展引发了计算与存储分离,这利用了成本优势并能够灵活地存储...