大数据对网络运维意味着什么？

2016年对于SDN来说无疑是利好的一年，在金融、电信、互联网等行业SDN产品和解决方案开始规模化部署，许多传统行业对于SDN的需求也初现端倪。《2016～2017年中国SDN市场发展状况白皮书》显示，2016年中国SDN软件市场(主要指SDN控制器及相关的软件解决方案与服务)规模达到了7.2亿元，比2015年增长30.9%，预计到2021年，市场规模将达到46.7亿元。同时，白皮书也指出了企业传统网络架构面临的四大难题。

难以满足业务灵活部署的需求
难以满足业务资源整合的需求
难以满足场景化的需求
难以满足新的运维需求

在讨论运维难题的时候，分析师认为传统运维方式无法对整个网络的流量、设备以及业务实现集中管控、统一编排。造成这个问题的原因除了网络架构的变迁，不容忽视的一点是，现在网络中的数据量实在是太大了。软件技术的发展支撑了更多智能设备的接入。今天我们不断地从各种源头搜集和存储网络交易、社交媒体动态、移动设备以及各类不知道名字的自动化传感器产生的数据。

在这种情况下，爆炸式增长的数据的存储和计算需求促使存储硬件、网络基础设施以及处理海量数据的计算方法不断改进。传统运维从只对网络基础设施和流量进行简单管理到突然增加对业务和复杂流量进行管理必然力不从心。

Data is useless until you use it to make decisions

2017年初，思科斥资37亿美元收购了AppDynamics，这是继14亿美元收购物Jasper的又一大动作。媒体视之为思科战略转型的标志，在笔者看来，思科是在布局其大数据生态。

大数据面临的挑战不仅仅是数据的大小，更是如何用新的方法从各类数据平台处理数据。跟传统的商业智能(BI)相比，大数据分析能为企业网络管理带来质的改变，其价值也更大。

追根溯源的能力

现代企业网络中每秒有百万级的数据包在传输，当需要进行troubleshooting的时候，有太多的地方要去检查，按照传统的方法，即便是5分钟的数据也需要几个小时甚至几天来分析处理。倘若多数情况下的问题不是网络的问题，应用程序的代码本身也应该和网包、网流一起被拿来分析。网络管理需要弄清楚不同数据类型之间的区别。一些现有的解决方案在客户可承受的价格范围只能存储三天的流量数据，对于时间更久远的网络故障，溯源只能水中捞月。

防微杜渐的能力

变化是现在IT系统的主题，已经改变的信息并没有什么意义，相反，预测有意义的变化十分具有挑战。有时受限于网络流量的大小和带宽，一些大数据分析行为可能会引起正常业务的中断。以电商网站的大促活动为例，预演的效果并不能涵盖全部可能真实的场景。一个优秀的架构师通常能预见到现在的架构有什么潜在问题。而如今，能发现这些潜在问题的手段，多依赖大数据分析。

洞悉未来的能力

大多数传统的网络系统缺乏灵活的设计，在面对现在复杂的网络环境时无法应对。传统网络中简陋的网络监控设备无力应对复杂的虚拟化网络，更遑论从中提取出可执行的规则;而基于探测和代理技术的监控系统也无法完全覆盖underlay和overlay的网络。将所有的数据汇聚在一起利用大数据技术进行分析是企业网络团队必须首先解决的难题，因为其他的大数据分析应用已经为业务部门创造了新的商机。

企业IT团队已经实现了更快速的故障排查，通过对大数据分析技术的利用，改进网络基础设施的安全性、稳定性和可用性。未来的网络该怎么设计?也许大数据分析能带给人们一些启示。

网络运维的问题其实是大数据的问题

SDN的本质是控制与转发分离，从这个角度来看，控制的核心思想是网络中有了“大脑”，通过这个智能系统对网络设备下发指令，那么这些指令又来自哪里呢?通常我们认为，这些指令来自控制器基于已有的协议、规则对网络流量和网络行为的“审判”。而这个“审判”的过程，我们称之为大数据分析。数据分析并非新生事物，在这里，我们加了个“大”字。

任何大数据分析的应用最重要的基础环节便是采集和存储。关于采集，业界已经有过较多的讨论，本文不再赘述。笔者想从以下几个方面简单概述一下大数据分析面临的问题。

灵活扩展的存储能力

在上一篇《直面数据中心网络六大需求，六步打造面向未来的网络》文章中笔者提过，思科网络报告白皮书显示2015～2020年全球网络流量年复合增长率达到22%(注：2015年全球网络流量为72EB，2016年这一数字为88EB，1EB=1,000PB)截至2020年全球网络流量将会净增长200EB。对如此规模的流量进行采集和分析的需求必然要求较强的存储能力。

考虑到22%的增量，存储系统必须在不丧失性能的前提下具有高度的灵活和可扩展性，以便不停机弹性扩容。文件系统还必须支持诸如同时处理不同类型和来源数据的能力、把海量大数据转换成元数据的功能等等。在笔者看来，网络的问题首先是大数据存储的问题。在规划和设计存储系统的时候，应该考虑所有当下的情况以及未来的使用场景。

延时的问题

2015年前后的一段时间，IT圈很流行实时流数据处理技术;后来笔者了解到大量的公有云服务商在自己的基础设施中使用加速卡/智能卡。比如，微软通过使用FPGA技术的智能网卡提高了Azure的性能，微软的FPGA智能网卡还有加密和加速存储协议的功能。大数据分析在一些场景如社交媒体、交易数据等需要实时处理以便作出决策，这要求不能出现响应延时或者数据丢失。对需要根据实时数据作出响应决策的应用来说，这个要求会更高。

跨平台接入

随着大数据应用在各种平台和系统(尤其是物联网)上，对数据的交叉使用成为一种常规需求。公有云服务商在帮助大型客户进行数据迁移的时候遇到过较多此类案例，存储系统必须能够同时处理来自不同系统、不同格式的异构数据。数据时代的大数据生态必然要求软、硬件尽可能的兼容、统一。IDC近年来一直致力于通过采用标准服务器来优化网络和摆脱厂商绑定;世界上最先进的数据中心如谷歌、微软、领英、Facebook等都在向着这个方向发展。

安全的问题

安全是云计算的基石，之所以这么说源自数据对于我们的重要性。比如，最近大家热议的某公有云厂商租户隔离的问题;多数人认为VPC是目前成熟的、可行的租户安全解决方案，这也是多数云厂商产品化的方向。事实上层出不穷的安全事件都是针对数据的窃取或破坏。由于数据交叉使用，现有的IT系统安全机制需要作出较大调整，而存储也需要在不牺牲性能和可扩展性的前提下，满足对这些数据处理的安全要求。

成本的问题

大数据意味着高成本，对数据分析来说，计算资源显然没有存储资源的开销大。有人认为采用开放标准硬件能节省大量的成本(约30%～80%不等)。曾经轰轰烈烈的去IOE和*倡导的国产化，在节约成本方面无疑有很多值得称道的地方。随着OpenStack的遍地开花，开源存储技术也获得了长足的发展。企业选择不使用市面上现有的商用存储方案，对数据去重、压缩备份，用自己定制化的存储硬件等措施，可以显著降低成本。

总结一下，大数据的价值已经得到普遍的认可，看一下自动化之于网络运维的效果我们相信，未来是令人振奋的，但更深层次的价值有待业界进一步发掘;通过研究不难发现，网络运维的问题其实是大数据的问题，而大数据分析本身尚处在初级阶段，有较多亟需解决的难题。那么，在这条路上我们该怎么走?

本文作者：魏星@云杉

来源：51CTO