什么是Azure Data Lake

时间:2024-03-14 15:17:08

作者简介: Max Shen(阿特),为了成为数据专家而努力,万一实现了呢!有多年的系统运维,数据库运维经验。近20年的IT从业经验,在微软有超过10年的工作经验。对数据库运维调优,排错,有独到能力。


备注:Blog具有时效性, 内容随着更新会发现变化,目前时间是2017年5月12日


在Azure.com已经推出了Data Lake,就是数据湖,数据湖是什么呢?azure已经有有数据库,数据仓库,数据工厂,现在有了数据湖?从字面上看,这是一个巨大的数据集合,超越了传统意义的数据库库和仓库。
大数据的视图下我们可以看到有以下的组件和视图。

什么是Azure Data Lake

Azure Data Lake主要包含两部分功能:

  • Azure Data Lake Store
  • Azure Data Lake Analytics

什么是Azure Data Lake Store(数据库存储)

Azure Data Lake Store 是一个企业范围的超大规模存储库,适用于大数据分析工作负荷。 使用 Azure Data Lake 可以在单个位置捕获任何大小、类型和引入速度的数据进行操作和探索分析

什么是Azure Data Lake

使用与 WebHDFS 兼容的 REST API,可以从 Hadoop(HDInsight 群集提供)访问 Azure Data Lake Store。 该服务专为存储数据分析而设计,并已针对数据分析方案优化了性能。 它现成地包含了现实企业用例不可或缺的所有企业级功能:安全性、可管理性、可缩放性、可靠性和可用性。

具备以下特点:

  • 专为 Hadoop 而构建

Azure Data Lake Store 是一个 Apache Hadoop 文件系统,该系统与 Hadoop 分布式文件系统 (HDFS) 兼容并与 Hadoop 生态系统一起工作。 采用 WebHDFS API 的现有 HDInsight 应用程序或服务可以轻松与 Data Lake Store 集成。 Data Lake Store 还为应用程序公开了 WebHDFS 兼容的 REST 接口

使用 Hadoop 分析框架(例如 MapReduce 或 Hive),可以轻松分析 Data Lake Store 中存储的数据。 可将 Microsoft Azure HDInsight 群集预配和配置为直接访问 Data Lake Store 中存储的数据。

  • 无限存储空间,PB 量级的文件

Azure Data Lake Store 提供无限存储空间,适合用于存储各种分析数据。 帐户大小、文件大小或 Data Lake 中可存储的数据量均无任何限制。 支持 KB 到 PB 量级的单个文件大小,非常适合用于存储任何类型的数据。 通过创建多个副本来长期存储数据,数据在 Data Lake 中的存储持续时间没有限制。

  • 针对大数据分析优化了性能

Azure Data Lake Store 旨在运行需要利用超大吞吐量查询和分析海量数据的大规模分析系统。 Data Lake 将文件的各个部分散在大量独立的存储服务器中。 这可改善执行数据分析时并行读取文件的吞吐量。

  • 随时可供企业使用:高度可用且安全

Azure Data Lake Store 提供符合行业标准的可用性和可靠性。 数据资产可通过创建冗余副本来长期存储,防范任何意外的故障。 企业可以在其解决方案中使用 Azure Data Lake 作为现有数据平台的重要组成部分。

  • 所有数据

Azure Data Lake Store 可按本机格式(原样)存储任何数据,不需要事先经过转换。 加载数据之前,Data Lake Store 不需要定义架构,而是等待独立的分析框架在分析时解释数据和定义架构。 Data Lake Store 能够存储任意大小和格式的文件,因此可以处理结构化、半结构化和非结构化数据。

Azure Data Lake Store 的数据容器本质上是文件夹和文件。 可以使用 SDK、Azure 门户和 Azure Powershell 来处理存储的数据。 只要使用这些接口和相应容器将数据放入存储,就能存储任何类型的数据。 Data Lake Store 不会根据其存储的数据类型对数据执行任何特殊处理。

什么是Azure Data Lake Analytics

Azure Data Lake Analytics 是一项按需分析作业服务,用于简化大数据分析。 集中精力编写、运行和管理作业,不用运行分布式基础结构。 无需部署、配置和调整硬件,只需编写查询即可转换数据并提取有价值的见解。 通过将表盘设置为所需值,该分析服务就可以立即处理任何规模的作业。 只需为运行作业付费,让服务变得更为经济高效。 该分析服务支持 Azure Active Directory,让用户可管理访问和角色,并与用户的本地识别系统集成。 它还包括了 U-SQL 语言,有效结合了 SQL 的优点和用户代码的表达力。 U-SQL 的可缩放分布式运行时可让用户高效地分析存储中的数据,以及跨 Azure 中的 SQL Server、Azure SQL 数据库和 Azure SQL 数据仓库的数据。

具备的关键功能如下:

  • 动态缩放

Data Lake Analytics 是针对云缩放和性能需求进行构建的。 它能动态地预配资源并让你以千吉字节甚至百亿亿字节为单位进行分析。 当作业完成时,它自动释放资源,你仅需为所用的处理功能付费。 增加或减少存储数据的大小或使用的计算量时,不需要重写代码。 用户可仅关注自己的业务逻辑,而非如何处理和存储大数据集。

  • 使用熟悉的工具更快开发、更智能调试和优化

Data Lake Analytics 与 Visual Studio 深度集成,从而你可以使用熟悉的工具运行、调试和调整你的代码。 U-SQL 作业可视化允许你看见你的代码如何大规模运行,因此你可以轻松找到性能瓶颈并优化成本。

  • U-SQL:简单熟悉、功能强大且易于扩展

Data Lake Analytics 包含 U-SQL,这是一种查询语言,扩展了 SQL 的简单熟悉的声明性本质和 C# 的表现力。 U-SQL 语言基于在 Microsoft 内部支持大数据系统的同一分布式运行时。 现在,数以百万计的 SQL 和 .NET 开发人员可以凭借自身已有的技能处理和分析自己的数据。

  • 与你的 IT 投资无缝集成

Data Lake Analytics 可以使用你现有的 IT 投资进行识别、管理、安全和数据仓库工作来应对这个挑战。 这样就简化了数据管理,使你当前的数据应用程序更容易扩展。 Data Lake Analytics 与适用于用户管理和权限的 Active Directory 集成且随附内置监视与审核功能。

  • 价格合理且经济高效

Data Lake Analytics 是用于运行大数据工作负荷的经济高效的解决方案。 处理数据时按每个作业付费。 无需硬件、许可证或服务特定的支持协议。 作业开始和完成时,系统自动缩放大小,这意味着你永远无需为你所需之外的东西付费。

  • 可用于所有 Azure 数据

Data Lake Analytics 已针对搭配使用 Azure Data Lake 而优化,可为大数据工作负荷提供*别的性能、吞吐量和并行化。 Data Lake Analytics 还可与 Azure Blob 存储和 Azure SQL 数据库搭配使用。

后序

从介绍只能了解其核心,需要是实践才能看到Data Lake的能量,我们一起去实践吧。