活动回顾丨云原生技术实践营上海站「云原生 AI &大数据」专场(附 PPT)-精彩回顾

时间:2024-01-24 19:04:35

下面就让我们一起回顾本次活动上都有哪些精彩瞬间,扫描下方金句海报二维码即可预约本场活动直播回放。

01 分享主题丨基于 Kubernetes 的云原生 AI 工程化落地实践

为了满足日益增长的算力需求、更高的业务稳定性要求,以及更快的创新和迭代交付,越来越多企业选择在云上开发、训练和部署 AI 模型,利用云计算的优势,获取稳定、弹性的大规模异构算力,从而提高算法迭代和应用落地的效率,并提升规模化服务的可靠性。活动现场,阿里云研发工程师徐之浩分享了云原生 AI 的发展背景和落地挑战,以及 ACK 云原生 AI 套件在智算时代的能力升级,包括 LLM/AIGC 的快速部署和加速推理,以及弹性分布式训练等最佳实践。

图片

02 分享主题丨容器服务 ACK 云上大规模 K8s 集群高可靠性保障实战

紧接着,阿里云技术专家刘佳旭围绕 K8s 集群稳定性的衡量标准和大规模场景下的挑战、ACK 针对这些挑战所做的稳定性治理和优化策略、以及 ACK 提供的稳定性产品功能和最佳实践三个方面,分享了基于 ACK 稳定性保障实践经验,帮助大家深入理解 ACK 稳定性理论和优化策略,以及如何使用相应的工具和服务进行稳定性保障。

图片

03 分享主题丨如何应对大规模异构计算集群的运维和管理挑战?

面对大规模异构计算集群的运维和管理挑战的问题,阿里云研发工程师霍智鑫通过介绍异构计算集群运维难点、ACK GPU 集群的解决方案,为大家分享了 ACK 异构集群,对异构计算资源统一管理和调度,以及弹性伸缩、可观测,并提供共享 GPU 调度、GPU 拓扑感知调度等增强能力,提升资源使用效率。

图片

04 分享主题丨业务容器化过程中,构建高性能云原生网关的实践 Higress Maintianer 范扬

从 Higress 的发展历程开始,为大家分享了构建高性能云原生网关的最佳实践以及如何利用多集群流量调度能力实现同城容灾,同时带来了 Higress 标杆用户案例的分享,并在最后分享了 Higress 开源的未来规划。

图片

05 分享主题丨构建安全、高效、弹性的 Serverless 混合云容器 AI 平台

以深度学习为代表的 AI 生产系统面临效率、性能和成本挑战,基于容器的AI/大数据成为云原生时代的技术趋势。在此次上海站活动现场,阿里云高级技术专家庄宇为大家分享了 IDC 自建容器 AI 平台,基于注册集群 + ECI 弹性上云以及如何通过 ACK One 实现多集群统一管理和业务部署,并通过 Fluid 实现混合云数据访问加速。

图片

06  分享主题丨面向智算服务,构建可观测体系最佳实践

“可观测助力阿里云 AI 生态、大数据服务、容器服务构建无处不在的端到端可观测能力,同时可观测也借助生成式 AI、大模型等能力实现自身数据的深入洞察,实现互利双赢”。在活动最后的分享环节,阿里云技术专家郭雨杰为大家带来了构建面向 AI、大数据服务、容器服务的可观测体系思路与重点,以及阿里云可观测产品进展与布局,构建全栈可观测能力。

图片