从Kubernetes到“云原生全家桶”,网易如何让业务部署提效280%?

时间:2021-09-05 06:50:15

近日,网易云轻舟微服务团队接受了CNCF的采访,分享了网易云在云原生领域尤其是Kubernetes方面的实践经验。以下为案例全文:
从Kubernetes到“云原生全家桶”,网易如何让业务部署提效280%?
公司:网易
地点:中国杭州
行业:互联网技术

挑战
它的游戏业务是世界上最大的游戏业务之一,但这并不是网易为中国消费者提供的唯一服务。该公司还经营电子商务、广告、音乐流媒体、在线教育和电子邮件平台。2015年,为这些业务提供基础设施的网易云团队,意识到当时的研发流程已经不能满足业务的发展需求。“我们的用户需要自己准备所有基础设施。”网易云架构师、轻舟微服务技术负责人冯常健说,“我们希望通过基于Serverless的容器服务,为他们提供一套自动化的基础设施和工具。”

解决方案
“该系统可以在一个集群中支持30,000个节点。在生产环境中,曾达到过单个集群10,000个节点的数据。内部大部分互联网业务正在使用该系统进行开发、测试和生产。”

- 曾宇星,网易云架构师

在考虑建立自己的业务流程解决方案后,网易云决定将其私有云平台建立在Kubernetes上,诞生于Google的事实让网易云团队相信它可以跟上网易的规模。“经过2到3个月的评估,我们相信它可以满足我们的需求。”冯常健说。该团队在2015年Kubernetes 1.0版本发布之前就开始使用Kubernetes,目前可以在单集群中支持30,000个节点,在生产环境集群中曾达到过单集群运行10,000个节点。而且,网易云还使用了CNCF基金会下的Prometheus、Envoy、Harbor、gRPC和Helm等项目。基于其内部平台的经验,该公司向外部客户推出了基于Kubernetes的云和面向微服务的解决方案—— 网易轻舟微服务平台

影响 
根据网易云团队的数据,Kubernetes使研发效率提高了100%以上,部署效率提高了280%。“在过去,如果我们想进行升级,需要与其他团队甚至其他部门的同事协作。”冯常健说,“我们需要专门的人员来准备一切,之前通常会花费大约半个小时的工作,现在5分钟内就可以完成。”新平台还支持GPU和CPU资源的混合部署,这些改进也提高了资源的利用率。 
“我们放弃了Kubernetes的一些概念,仅使用了标准化的框架。”冯常健说,“我们利用Kubernetes的可编程性,以便我们可以构建一个平台来满足内部客户的升级和部署需求。”

最初,网易云聚焦于构建容器平台来更好地管理资源,后续通过添加监控等工具,开始致力于提升对微服务架构的支持,这意味着网易云又集成了Prometheus,Envoy,Harbor,gRPC和Helm等CNCF项目。据冯常健介绍:“我们正在努力提供一个简单和标准的流程,以使得我们的用户可以利用我们的最佳实践”。

并且这个团队也在继续做出改进,比如电商业务需要混合部署,在过去这需要使用2套独立的平台:基础设施平台和Kubernetes平台。最近,网易云在此基础上研发了一套跨平台的应用,实现2个平台的一站式部署。

社区与生态
 “我们是一个专注于面向微服务解决方案的团队,通过与社区的合作,我们可以获得经验并从中受益,我们可以看到社区的关注点和面临的挑战,并参与其中。”

- 冯常健,网易云架构师、轻舟微服务技术负责人

基于内部平台的使用经验,网易云开始对外提供基于Kubernetes的云平台和面向微服务的一站式解决方案——轻舟微服务平台。冯常健说:“我们希望将这些内部业务遇到的问题和经验产品化,满足外部客户的需求。”

无论是否使用网易云产品,网易云都鼓励其他公司尝试Kubernetes。“只要公司拥有一支成熟的团队和足够的开发者,我认为Kubernetes是一种非常好的技术,可以帮助到企业。”网易云Kubernetes开发者李岚清说。
作为最终用户和云服务提供商,网易云在社区中也非常活跃,积极学习其它公司的经验,并分享其实践案例。网易云团队也一直在参与Harbor和Envoy项目的社区贡献,基于网易的规模体量提供测试反馈。冯常健说:“我们是一个专注于面向微服务解决方案的团队,通过与社区的合作,我们可以获得经验并从中受益,我们可以看到社区的关注点和面临的挑战,并参与其中。”

相关文章:
【推荐】 从golang的垃圾回收说起(下篇)
【推荐】 LinkedBlockingQueue源码解析(3)
【推荐】 架构为什么会腐化