弹性计算产品专家张新涛:阿里云视觉计算的思考与实践

时间:2021-06-03 01:25:05

2023 年 3 月 23 日,NVIDIA GTC 开发者大会阿里云开发者社区观看入口正式开放,阿里云弹性计算产品专家张新涛带来题为《重构计算,驱动视界:阿里云视觉计算思考与实践》的分享,下文根据其演讲内容整理而成。

数千年前有了文字,随后有了报纸、媒介,大众可以通过报纸来获取信息,但该类方式得到的信息十分有限。20 多年前,人们开始进入到 PC 互联网时代,得以通过图文甚至音视频获取信息,人们也有了更好的信息获取体验。
弹性计算产品专家张新涛:阿里云视觉计算的思考与实践

大约在 10 年前,我们进入了移动互联网时代,信息的获取与交互得到了进一步加强。而现在,我们可以随时随地视频通话、购物、点外卖,这在 30 多年前可能只会出现在科幻影视剧里。

今天,我们开始探索基于沉浸式交互的下一代互联网,它能为我们带来更多的创新体验,但同时也带来了更多技术与商业上的挑战。
弹性计算产品专家张新涛:阿里云视觉计算的思考与实践

想要实现沉浸式体验,将会面临四个层面的挑战,分别是基础设施支撑、素材的构建、应用的开发以及应用的发布。

首先,要实现高画质、大场景的沉浸式体验,需要高质量的画面渲染物理仿真与 AI 计算,这对于计算基础设施来说,显然是一个巨大挑战。

其次,高画质的内容需要高精度的模型与素材构建,但传统的手工方式费时费力,需要更多高精度、更低成本的素材构建方式。

再次,沉浸式应用生态的繁荣需要更低门槛的开发工具与平台,开发者方能打造更好的3D应用。

最后,沉浸式体验的 3D 应用也会面临成百上千终端的适配,开发者需要通过适配以获得更好的用户使用体验预期。但由于计算设备算力有限,沉浸式体验的普及挑战也十分巨大。

那么,阿里云如何帮助产业来应对挑战呢?
弹性计算产品专家张新涛:阿里云视觉计算的思考与实践

在过去三年时间里,阿里云推出了阿里云视觉计算产品方案。这是一个面向视觉计算场景的写作矩阵,与伙伴一起为沉浸式交互上云提供了全流程的方案。

在阿里云视觉计算产品方案中,IaaS 能力是实现沉浸式优质体验的底座,该层面的创新也是解决基础设施层挑战的关键。

在 IaaS 层,我们为沉浸式体验打造了 AI 计算与图像计算的 SDK,以便帮助全行业解决计算效率的问题,也进一步提升了基础设施的能力。沉浸式体验面临的更大挑战依然是内容开发与写作。因此,我们面向素材创建、应用开发与应用发布,构建了新的产品。从创意设计到发布运营,帮助客户构建完整的业务流程,帮助产业提高写作效率。

除此之外,我们还引入了各行业的行业编辑器与行业 SaaS,为沉浸式体验在各行业的推广提供了低代码的产品方案。

有了产品协作方案,在过去三年时间里,我们协作了数十个优质的 ISV,完成了数十个沉浸式体验在线上的业务展开。
弹性计算产品专家张新涛:阿里云视觉计算的思考与实践

沉浸式体验带来的计算与通讯上的需求是前所未有的,主要面临三种类型的计算负载,分别是实时 3D 渲染、编码推流物理仿真与实时 AI 计算。

针对上述需求,计算方面,我们基于英伟达的 A10 GPU、阿里云的 CIPU 芯片以及 IaaS+ 软件加速能力,实现了新一代的 GPU 云服务,在 AI 计算与视觉计算能力上有了大幅提升。

除了强悍的计算能力,网络通信也是决定体验的另一重要环节。在用户接入侧,阿里云提供了全球一张网的加速能力,帮助用户的业务接入。在数据中心内部,阿里云通过自研的 CIPU 技术架构,实现了转发加速与延迟降低,阿里云的 VPC 网络最低延时可低至 16us。同时,增加了面向流媒体的编解码计算优化,进一步降低了延时,提升了用户体验。

今天,客户进行业务创新时,我们依然建议用户基于云来构建与开发,因为只有云才能提供沉浸式体验所需的计算基础设施能力。

有了计算基础设施,便可以开始构建业务。
弹性计算产品专家张新涛:阿里云视觉计算的思考与实践

在 3D 互联网时代,人、物、场的 3D 素材是构建新应用的原材料。然而,当前构建高净度的 3D 模型成本依然十分高昂,原因在于建模师的人力成本十分可观。而另一方面,2D 转 3D 的算法精度与效率尚不如人意。

在过去的数十年间,非常多游戏工作室与 3D 引擎社区都有了大量优质素材的积累,鉴于素材在格式与接口上各异,导致无法形成有效的交易与继承,这导致产业不得不再次造*,也严重影响了产业的发展。

因此,我们开始探索将 3D 素材的构建与素材管理放在云上进行,并因此具备了诸多新的优势。

为什么要放在云上?

原因在于,AI、3D 构建与素材格式转换的领域中有了新的进展,并且它的实现需要大规模的计算与存储。

首先,可以通过 AI 逆向渲染实现 2D 到 3D 的高效高精度转换,还可以通过 AIGC 产生更多高质量的素材与内容。

其次,可以通过云上的超强计算能力与存储能力,将不同格式的素材转换成统一的格式,以便进行下一步的应用开发。
弹性计算产品专家张新涛:阿里云视觉计算的思考与实践

而到了应用开发阶段,依然存在许多难题。以传统的游戏开发为例,在大场景开发中,无法同时编辑,需要相互等待,效率极低。另外,在耗时计算方面,比如烘焙的过程占据了大量开发时间,导致开发效率降低。传统的开发环境限制较多,只能在固定场所进行,不利于高效的创作。

因此,我们开始考虑将 3D 应用的开发搬到云上,基于云上的无限算力与实时在线能力,帮助用户提升开发效率。
弹性计算产品专家张新涛:阿里云视觉计算的思考与实践

完成了应用开发,还需要面临发布的难题。

传统的 3D 游戏以及应用在发布前要适配成百上千的终端,且终端形态各异,比如手机、平板或 XR,计算能力也各异,因此难以实现开发者的预期,存在巨大的终端适配成本。

因此,我们面向云上发布场景,推出了云 XR 平台,用户可以在数分钟之内将自己的 3D 应用部署在云 XR 平台上,并将服务发布到全球任何角落。云 XR 平台中集成了英伟达的 CloudXR 套件,使得渲染编码与推流能力有了进一步提升。同时,平台还提供了用户管理、应用管理与资源管理的能力,进一步提升了业务部署与运营的效率。

云 XR 平台可以支持目前主流的所有终端设备,通过将 3D 应用部署在云端,减少了对终端设备的计算压力,用户也无需下载体积巨大的客户端安装包,可以随时随地接入,大幅提升了用户体验。对于开发者而言,也大幅提升了开发效率。
弹性计算产品专家张新涛:阿里云视觉计算的思考与实践

基于上述产品能力,面向互联网行业的虚拟活动、数字人构建、云上 3D 应用等开发场景,我们帮助用户实现了许多业务的突破与创新。
弹性计算产品专家张新涛:阿里云视觉计算的思考与实践

在不久前的 2022 年双十一购物节,阿里妈妈与江苏卫视联合打造了元宇宙明星歌唱会《2060 元音之境》,潘玮柏、刘雨昕、肖敬腾、张含韵四位明星真人亮相江苏卫视,而他们的数字化身同时也在虚拟空间“曼塔沃斯”大陆的舞台上表演。
弹性计算产品专家张新涛:阿里云视觉计算的思考与实践

曼塔沃斯大陆的场景非常丰富,有品牌馆、数字场馆与中心舞台等多个场馆。“逻戈斯号”宇宙飞船是总传送点,用户可以听演唱会,也可以看藏品、看品牌馆。同时,演唱会实时交互,观众可以通过虚拟化身在场景里走动。

如此巨大的场景,意味着场景、人物形象与地图相关的高保真模型数据量也十分巨大。如果将素材封装成安装包运行在客户终端,安装包将达到数十 GB。

通过阿里云 XR 平台的支持的《2060 元音之境》,实现了万人同时身临其境。观众无需提前预装软件,也不限于手机、PC 或平板等终端,不占用任何存储空间,只需要扫码或链接即可进入。
弹性计算产品专家张新涛:阿里云视觉计算的思考与实践

我们与彼真科技、轴厂伙伴一起打造了多场景 3D 科幻演唱会,完成了 3 个巨大挑战。

第一,演出类的应用中,会场与角色的模型十分巨大,无法通过客户端渲染实现,需要轻客户端或无客户端。

第二,高保真模型的渲染与音频的传输方面,要保证云与端同步同频,才能有极佳的沉浸感,这对于算力与通讯提出了极高的要求。

第三,演唱会线上开放,会随时涌入大量玩家,需要有巨大的资源池来承载数十万甚至百万的玩家与观众。

而基于阿里云 XR 平台,我们可以方便地将演出部署在云端,并且在云端完成渲染计算与推流。同时依托于阿里云遍布全球的基础设施,实现云与端的同频体验,并且能够同时容纳大量玩家与观众。
弹性计算产品专家张新涛:阿里云视觉计算的思考与实践

数字栩生是一家数字人技术服务商,也是我们的客户、伙伴。他为众多知名企业制作了著名的虚拟人 IP。

在数字人场景中,数字人的逼真与灵动最为重要。

逼真要求模型特别精细。数字栩生所制作的虚拟人,面部+毛发+服装有共计数十万面的渲染,还要通过 AI 驱动面部上百个标志点模仿表情,驱动身上数十个关节点位模仿动作,驱动毛发与衣服产生自然飘动,带来了十分巨大的计算量。

数字人的另一关键在于流畅的交互与沟通。除了产生精确的表情与高仿真的声音之外,还需要极低的延迟与传输,并且要求终端对于人类的表情语言与情绪能够实现快速识别相应。

针对以上两个计算与通讯的要求,阿里云提供了超强的渲染与 AI 计算能力,同时依靠阿里云的 CIPU 架构来降低延迟,使得交互更加流畅。阿里云的云 XR 平台还大幅帮助数字栩生提升了软件的交付能力与更新效率。AI 模型、3D 模型与素材的迭代、软件交付与部署全流程基于云完成,大幅提升了开发效率与业务的交付效率。

云 XR 平台可根据策略自动调度云上资源,数字栩生不需要关心底层的资源规划。
弹性计算产品专家张新涛:阿里云视觉计算的思考与实践

人与人的交流除了文字与声音外,还有手势与手语的交流。数字栩生与千搏信息基于云 XR 平台发布了自己的手语主播千言。与千言的沟通方式十分自然,用户通过连接云 XR 平台的语音与文字告知千言,千言会将语音与文字转换成听障人士可以理解的手语。

通过 AI 计算、XR 计算,产生了如千言这样更接近于自然人的人机交互方式,可以帮助更多人进入到数字世界,消除数字鸿沟。
弹性计算产品专家张新涛:阿里云视觉计算的思考与实践

红星美凯龙是国内头部家居企业,它基于阿里云后端采用了领先的实时 3D 引擎,实现了家居设计的 SaaS 化。通过拖、拉、拽的简单方式,实现所想即所得,门店设计师与顾客设计之后即可提交渲染。

得益于云端的渲染能力以及 GPU 强大的光追能力,可以实现在 10 分钟之内产生最终效果,顾客可以身临其境地体验自己理想家的每一个细节与角落。

我们相信,其他行业也将会诞生类似的场景和应用。我今天的分享就到这里,希望能够给大家带来帮助和启发,谢谢大家。

点击文末“阅读原文”即可观看完整视频。

弹性计算产品专家张新涛:阿里云视觉计算的思考与实践