• 基于 Kubernetes 的企业级大数据平台,EMR on ACK 技术初探

    时间:2023-02-09 12:13:44

    *作者:容器服务团队*## 云上大数据的 Kubernetes 技术路线当前,大数据与机器学习领域颇为关注存储与计算分离架构,逐渐向云原生演进。以Spark 为例,云下或自有服务器可以选择 Hadoop 调度支持 Spark,云上的 Spark 则会考虑如何充分享有公共云的弹性资源、运维管控和存储服...

  • AWS EMR实例组竞价实例扩展失败切换按需实例方法

    时间:2023-02-06 16:06:15

     背景本文介绍如何解决EMR集群实例组模式下竞价实例请求失败后无法切换到按需实例问题,主要思路是通过CloudWatch+Lambda实现在EMR集群竞价实例请求失败情况下补充制定数量的按需实例到EMR集群。目前较多公司使用EMR构建大数据平台,使用按需实例+竞价实例混合配置完成计算任务所需资源,可...

  • 技术内幕 | 阿里云EMR StarRocks 极速数据湖分析

    时间:2023-01-13 12:10:50

    作者:阿里云智能技术专家 周康,StarRocks Active Contributor 郑志铨(本文为作者在 StarRocks Summit Asia 2022 上的分享)为了能够满足更多用户对于极速分析数据的需求,同时让 StarRocks 强大的分析能力应用在更加广泛的数据集上,阿里云EMR...

  • 阿里云开源大数据平台EMR全面升级 性能最高可提升6倍

    时间:2023-01-09 10:59:20

    12月27日,阿里云正式发布云原生开源大数据平台EMR 2.0,升级后的开源大数据平台在成本持平的情况下,扩缩容性能最高可提升6倍。据悉,阿里云EMR2.0为用户提供了全新的平台、开发、资源形态、分析场景等更优的产品体验,通过EMR Doctor健康检查、全面的服务巡检和事件通知、节点故障补偿等运维...

  • 技术内幕 | 阿里云EMR StarRocks 极速数据湖分析

    时间:2022-12-02 12:11:54

    作者:阿里云智能技术专家 周康,StarRocks Active Contributor 郑志铨(本文为作者在 StarRocks Summit Asia 2022 上的分享) 为了能够满足更多用户对于极速分析数据的需求,同时让 StarRocks 强大的分析能力应用在更加广泛的数据集上,阿里云EM...

  • EMR-StarRocks 与 Flink 在汇量实时写入场景的最佳实践

    时间:2022-11-25 18:04:41

    作者:刘腾飞 汇量后端开发工程师阿里云开源OLAP研发团队EMR-StarRocks介绍阿里云EMR在年初推出了StarRocks服务,StarRocks是新一代极速全场景MPP(Massively Parallel Processing)数据仓库,致力于构建极速和统一分析体验。EMR StarRo...

  • EMR-StarRocks 与 Flink 在汇量实时写入场景的最佳实践

    时间:2022-11-25 17:16:23

    作者: 刘腾飞 汇量后端开发工程师 阿里云开源OLAP研发团队 EMR-StarRocks介绍 阿里云EMR在年初推出了StarRocks服务,StarRocks是新一代极速全场景MPP(Massively Parallel Processing)数据仓库,致力于构建极速和统一分析体验。...

  • 基于StarRocks和腾讯云EMR构建云上Lakehouse

    时间:2022-11-07 19:06:44

    作者:腾讯云EMR业务负责人陈龙(本文为作者在 StarRocks Summit Asia 2022 上的分享) 我目前负责腾讯云EMR 的研发工作,此前先后在百度、支付宝做后端研发。2011年加入腾讯,先后参与了腾讯云Redis、腾讯云云数据库、Apache HBase(以下简称 HBase...

  • Spark on k8s 在阿里云 EMR 的优化实践

    时间:2022-10-28 12:14:29

    导读: 随着大数据技术的发展,Spark 成为当今大数据领域最受关注的计算引擎之一。在传统的生产环境中,Spark on YARN 成为主流的任务执行方式,而随着容器化概念以及存算分离思想的普及,尤其是 Spark3.1 版本下该模式的正式可用(GA),Spark on K8s 已成燎原之势。今天的...

  • 基于EMR的新一代数据湖存储加速技术详解

    时间:2022-10-08 17:15:39

    摘要:本文整理自阿里云开源大数据平台数据湖存储团队孙大鹏在7月17日阿里云数据湖技术专场交流会的分享。本篇内容主要分为两个部分: 背景介绍 JindoData 数据湖存储解决方案 点击查看直播回放 背景介绍 大数据行业蓬勃发展,主要源自于通讯技术的发展,全球数据规模,预计2025年...

  • Aws云服务EMR使用

    时间:2022-08-22 23:52:54

    Aws云服务EMR使用创建表结构创建abc库下的abc_user_i表字段s3://abc-server/abc-emr/shell/ABC_USER_HIVE.q:EXTERNAL 指定为外部表partitioned by (creat...

  • emr hadoop 参数调优

    时间:2022-05-27 22:35:40

    sethive.merge.mapfiles=true;sethive.merge.mapredfiles=true;sethive.merge.size.per.task=100000000;setmapred.task.timeout=60000000;sethive.exec.compress...