私有云的难处—为什么需要CloudEngine？

私有云的难处

——我们为什么需要 CloudEngine？

郑昀创建于2016/7/31 最后更新于2016/8/3

关键词：容器、Docker、OpenStack、虚拟机、私有云、Mesos、配置管理、部署、发布

提纲：

Docker+OpenStack，就够了吗？
累觉不爱的部署
你家的业务系统能DRP吗？
大前提：配置管理规范
还要考虑什么？

2014年年底，我们开始试着将原有的持续集成和持续发布流程，从 OpenStack 迁移到 Docker 上。后来，我整理过两篇文章讲容器私有云和持续发布都要解决哪些基础问题（I，II）。

现在，OpenStack 又回来了，与 Docker 并肩作战。不管是容器化 OpenStack，还是 Docker 集群，做到这一步就解决问题了吗？

Docker+OpenStack，就够了吗？

我们要的不仅仅是容器或虚拟机

我们都知道，Docker 实现的只是镜像内部的小环境的一致性，它保证了一个应用程序在不同机器上运行时的一致性。

就我们之前持续经营了五年之久的 O2O 电商平台而言，首先它存在多条业务线：

团购
POP 平台
电影订座
网店通
……

其次，它打通了供应链管理的全链条，从商机管理，销售行动管理，签约，终端设备铺设，……，到与商户的资金结算，与销售体系的佣金计算，与第三方支付的自动对账，与流量渠道的佣金对账，各种平台收费的核帐和摊销等等，加上外围技术支撑体系（如天机和鹰眼），里里外外大约近百个 Java 和 PHP 工程，每个工程都是集群。

这还不算上那些开源组件所需的集群，如 ZooKeeper，Redis， MyCat，Elastic Search，还不算上商业智能的那套体系。

所以才云科技的张鑫说得对：

然而大中型企业用户很快意识到，真正的难点在于如何保证“大环境”一致，即整个业务系统中众多容器、组件、服务之间如何配置、互联、依赖，如何保证开发、测试、生产环境能相互转化、克隆等。这些环境和配置在容器概念之上，是容器自身无法解决的，只能依赖集群层面的管理工具。

是的，给你一堆虚拟机，给你镜像库和一堆容器，你仍然很难构建出能 Run 起来的业务系统。

累觉不爱的部署

环境维护伤不起

一线互联网公司的技术团队纷纷夸耀自己在生产环境发布的频次。无疑，一天之内发布频次越高，同时发布质量还很稳定，意味着技术管理水平越高超。

好吧，假定我们仅仅是每周发布一个常规版本（少则几个工程，多则几十个工程），每日可能有几次 hotfix。那么在生产环境中，部署时间 30 分钟还是 2 小时，区别不大，毕竟部署是一次性的工作。

但对于开发联调和测试来说，就完全不一样。如果 1 分钟就能完成一次部署，信手拈来，毫无心理负担，可以测试验证的东西，和几个小时才能完成一次的部署，差异是巨大的。

说白了，分布式系统的线下环境维护，做过的人都知道，伤不起。

你家的业务系统能DRP吗？

如何快速重建

何谓 DRP？

Disaster Recovery Plan，灾难恢复计划是也。

2011年艺龙曾经因为 EMC 存储设备故障而连续 27 个小时无法对外提供服务，在此之后他们做了相应的规范和开发，我去年看到一份资料说，艺龙可以在 30 分钟内异地重建集群。此后适逢著名的携程 5·28 停服 11 个小时的大事件，惊吓之余我们启动了 DRP 计划。

DRP 涵盖的事务有：

代码
配置
数据

DRP 面对的灾难场景：