运维之眼——流量采集网络

时间:2024-04-04 18:56:09

相信很多做运维的小伙伴在工作过程中不免会碰到以下尴尬的情况:

(1)当生产网络发生大流量传输引起带宽瞬间拥堵丢包、应用系统交易缓慢或系统交易成功率降低,需要用抓包手段来分析原因,但是由于一些网络部署架构或者交换机产品自身原因,难以及时捕获到抓包所需的交易全路径镜像流量,给故障分析带来挑战;

(2)随着网络安全、应用性能监控以及各类审计系统的流量需求,如BPC应用交易监控、IDS入侵检测系统、邮件以及客服录音审计等系统,传统的网络设备上没有足够的能力提供所需流量,盲目在交换机做大量镜像可能对生产交换机带来隐患。以前这些问题没有好的解决办法,但是今天我们可以通过流量采集网络来解决。


运维之眼——流量采集网络


流量采集网络是将数据中心生产网络设备各关键节点的镜像流量进行采集汇聚,并经过加工处理后发送给指定分析设备的网络系统。流量采集网络可以对各区域网络设备的镜像流量进行分布采集,对网络冗余多路径流量进行集中汇总去重,并按需对采集到的数据基于硬件进行L2-L4层灵活过滤后,将数据分配给各个基于流量分析的后台系统。我们平时可能注意不到流量采集网络的存在,但是它如同一个“影子”将触手深入到生产网络的各个角落,时刻跟踪网络里的一举一动。有了流量采集网络,运维工作者犹如多了一双眼睛能够了解应用真实全路径交易过程,支持对生产系统运行情况进行回溯分析与处置,支持用大数据分析异常网络流量进行预警建模分析。下面我们就来介绍一下我行的数据中心流量采集网络。


运维之眼——流量采集网络


流量采集网络可以看作是一张由流量采集设备组成的,与生产网络平行部署的独立网络,它将各个网络设备的镜像流量进行采集并按照区域和架构层次将镜像流量进行汇聚,利用流量采集设备所具有的流量过滤交换引擎实现全线速对数据进行2-4层的条件过滤和去除重复包、截短数据包等高级功能操作处理,然后将数据发送至各个流量分析系统。流量采集网络可以实现按照各系统对数据要求将特定数据精准地发送至各设备,解决了传统镜像数据无法过滤发送而消耗网络交换机处理性能问题。同时流量采集网络所具有的流量过滤交换引擎,实现了低延时、高速度对数据进行过滤和转发,保证了流量采集网络的采集数据质量,为后续各流量分析设备提供了良好的数据基础。

流量采集网络的架构主要由采集层、汇聚层和分配层组成,如图一。


运维之眼——流量采集网络

图一 流量采集网络架构

流量采集网络设备主要分为三层:流量采集层、流量汇聚层、流量分配层。各层功能简要介绍如下:

流量采集层设备在每个数据中心各机房模块均有部署,用于对部署各机房模块的各区不同型号网络设备的镜像流量进行采集,流量采集层设备会采用10G或40G接口接收每一个网络设备的镜像数据,并会对不同网络设备的数据打上标签以对采集点进行染色便于后续进行定位分析。同时,采集层支持对地址段、地址通讯对等大流量进行初步过滤。

流量汇聚层设备在每个数据中心的核心网络模块部署,一是汇聚同数据中心的各个流量采集层采集的数据流,二是流量汇聚分配层设备根据数据标签将流量按区域和层次进行汇总,并进行切片、去重等高级功能处理。

流量分配层设备在每个数据中心的核心网络模块部署,按需将不同的数据分配给不同的分析工具系统,同时对数据基于MAC地址、Vlan Id、IP地址和端口等2-4层特定条件进行过滤,流量分配设备可以实现对数据的末端精细化裁剪和过滤,满足不同流量分析系统对数据采集的不同要求。

流量采集网络数据采集过滤的吞吐能力和去重能力按照规模进行部署,实现对生产网络数据进行了全覆盖的流量采集和优化处理,可追溯任意生产IP在网络中的访问过程。在生产事件处置和应用系统架构优化改造过程中,流量采集网络均起到了重要作用。例如在网络支付清算平台应用交易提速优化过程中,由于流量采集网络在生产区域进行了全覆盖流量采集点部署,实现在交易路径的防火墙前后、负载均衡前后和SSL前后等关键节点均可进行流量提取分析,使网联交易链上所有节点均可进行数据分析,逐笔业务、逐毫秒地对网络支付清算平台交易质量进行优化。在开发、运维同事的共同努力下,我行网络支付清算平台在双十一期间系统成功率保持100%,在商业银行中取得较好的成绩。

运维之眼——流量采集网络

随着虚拟化和云技术的不断发展,数据中心越来越多系统从原来的物理机迁移至云平台,数据中心的虚拟化东西流量呈显著增长。但是传统物理流量采集网络无法对虚拟化环境的流量进行直接采集,导致虚拟化环境中的业务流量成为盲区,使虚拟化环境中的业务应用发生问题时,无法直接提取流量进行分析。面对虚拟化环境流量采集需求,我们必须与时俱进引入新的虚拟化流量采集技术,使虚拟化环境流量可提取可分析。

我行已经在云环境中完成虚拟化流量采集环境的试点部署工作,虚拟化流量采集架构主要由流量采集管理平台和部署在云平台物理机上的采集虚拟机两部分组成,如图二。其中流量采集管理平台负责采集虚拟机的部署、虚拟化流量采集策略的配置下发及采集虚拟机到采集物理设备的通道建立等管理工作;而采集虚拟机部署在云平台每台物理机上,用于采集同一物理机中的虚拟机之间交互的流量,并将流量传送至流量采集物理设备进行过滤和分配。

运维之眼——流量采集网络

图二 虚拟化流量采集架构

虚拟化流量采集环境如何搭建呢?首先,虚拟化集中管理平台vCenter授予流量采集管理平台所需权限,以保证流量采集管理平台可以获取vCenter中相应物理机和虚拟机信息。其次,在流量采集管理平台对vCenter每台物理机部署采集虚拟机,该采集虚拟机具有多个虚拟网卡,通过API从虚拟交换机中对同物理平台的各虚拟机不同网卡流量进行采集。在虚拟化环境中虚机不同网卡的流量对应在不同的Port-Group中。采集虚拟机可以根据需求以虚拟机的Port-Group为单位对虚拟机流量进行提取。例如如果我们对虚拟机上的业务流量感兴趣而对虚拟机的备份流量暂时无需求,那就可以针对虚拟机的业务数据的Port-Group进行流量采集。再次,在流量采集管理平台制定流量采集策略,同样可以根据数据的MAC地址、Vlan Id、IP地址和端口等条件指定采集各虚拟机出入网卡的所需流量。

流量采集视频_腾讯视频

图三 虚拟化流量采集示例

如果在运维过程中虚拟机发生了迁移该怎么办?流量还能提取到吗?答案是肯定的!流量采集管理平台会得到vCenter发出的虚拟机迁移通知,告知哪台虚拟机迁移到哪台物理机,流量采集管理平台会根据迁移消息在新的物理机重新部署和下发对该迁移虚拟机的流量采集策略,这样即使虚拟机发生了迁移,它的流量我们一样能采集到。

虚拟机切换视频_腾讯视频

图四 虚拟机迁移时流量采集示例

随着信息科技的不断发展和对运维精细化要求的不断提高,流量采集面临不少难题:

(1)数据中心的数据流量显著增大。容易导致采集网络带宽容量不足,根据实际运行情况发现流量采集设备间的带宽打满,导致数据丢包会引发如故障分析丢包以及应用流量BPC监控不准监控失真等情况。

(2)数据采集需求多导致跨数据中心镜像流量叠加。面对不同的后台系统流量需求,由于我行生产系统部署在同城两个双活数据中心,而部分后台系统部署在单个中心,导致需要将流量汇总至单个数据中心后分配给这些后台系统,造成跨数据中心流量过大以致用于跨中心传输的DWDM多个10G接口带宽使用过载,而DWDM的100G传输资源非常昂贵,从成本考虑需对数据采集需求重新进行优化。

针对上述流量采集网络使用中面临的问题,后续我行将对流量采集网络进行进一步架构调整和优化,包括:

(1)优化互联带宽。未来流量采集网络设备之间采用多条大带宽线路进行互联,以解决现有带宽不足导致数据传输过程中丢包问题。

(2)对流量采集需求进行重新梳理和规划。实现按分析系统采集需求维度对数据进行二次归类,优化现网流量采集过滤策略,化繁为简使不同流量分析系统策略更加独立减少相互影响。协助各流量分析系统规划并实现采集流量本地提取,减少跨中心数据传输占用流量采集网络带宽资源情况。

以上是对我行总行流量采集网络现网架构、虚拟化流量采集技术以及未来发展的简单介绍。流量采集网络像是运维的眼睛,有了它可以有机会看到网络环境中发生的各种事情。中国光大银行的流量采集网络仍处在不断建设和优化的过程中,届时再与大家共同学习进步。

本文转载自公众号:匠心独运维妙维效