摘要 随着网络虚拟化技术的发展,以及地震系统业务内容的扩展,原地震行业网络核心层从性能上已逐渐难以满足需求。为保障网络可靠高效运转,同时为满足地震行业网络零中断的需求,利用新一代 CSS 交换机集群技术,采用中间设备临时接管的方法,对地震核心网进行了平滑改造升级,通过升级简化了网络结构,提高了网络效能。
关键词:CSS 网络虚拟化 中国救援装备网
引言
近几年,多次灾难性地震的发生,令社会公众对地震行业的要求与期望值越来越高,这也促使了地震系统各类业务的快速增长。不断扩充的业务内容,更为高标准的业务要求,带来网络负载的飞速增长以及网络中路由的日趋复杂,这为已建设多年的陕西省地震网络系统的核心层带来了较大的压力,使其难以有效支撑。因此,对核心网络进行改造升级,搭建一个更为安全、稳定、可靠、高效的网络环境势在必行。
随着网络技术的快速发展,网络虚拟化作为近年来的新兴技术与研究热点,多家网络设备公司都推出了其最新的研究成果。CSS 集群技术作为其中的一种,通过将多台交换机虚拟为一台的方式,具备了简化网络结构、易于维护管理、稳定高效运行等特点,可充分满足地震系统网络运行的迫切需求。本文将其应用到地震核心网的改造升级中,成功地解决了现有的网络问题,提升了网络的性能。
1 现有网络分析
1.1 现有网络基本情况
陕西省地震网络系统采用核心层、汇聚层、接入层三层架构形式,网络拓扑如图 1 所示。其中,接入层为二层转发模式;汇聚层采用了 2 台交换机的堆叠,以提高汇聚层的可用性与可靠性,汇聚层交换机中配置了用户的网关;核心层为 2 台 HUAWEI S6503 交换机以心跳线互联,通过 VRRP 协议形成双机热备模式,每台核心交换机上分别连接部分地震系统服务器,下行通过光纤连接各楼层汇聚交换机,上行通过电口一方面连接核心路由器,实现与中国地震局及其他省局的互连(赵军等,2009),另一方面连接出网设备,实现与互联网的互连。核心交换与上下行设备之间均启用 OSPF 协议进行路由学习,实现网络互通。
图 1 改造升级前网络拓扑图
1.2 现有网络缺陷分析
在现有网络结构基础上,地震系统业务已持续运行近 10 年。随着网络设备的增加、网络规模的扩展,以及地震系统业务内容的增多,上述网络系统在运行中逐步显现出一些不足。
(1)设备老化而引发的故障隐患
现有核心交换机于 2007 年投入使用,至今已有 7 年时间,经过长时期的持续运转,设备的可用性与可靠性都有了一定程度的下降,出现故障的概率相应提升。虽然双机热备的模式保障了在核心交换机出现单台故障时链路的正常通信,但由于 2 台核心交换机上分别连接有不同业务内容的服务器,因此,当其中 1 台出现故障时,会导致连接在该台交换机上的服务器全部无法提供服务,这会直接影响到地震系统多方面业务的正常运行。
(2)VRRP 协议引起的故障恢复时间过长
2 台核心交换机之间通过 VRRP 协议形成双机热备模式。在正常状态下,通过核心交换机上的配置实现了各楼层业务的分流,即部分楼层主要业务走核心 1,其余业务走核心 2,若其中 1 台核心交换机出现故障宕机时,路由将重新收敛,由另 1 台交换机承担全部业务,以保障链路的正常通信。但是由于 VRRP 协议自身的性能问题,其故障收敛时间为秒级,难以满足现今网络的高效性要求。
(3)应用 OSPF 协议导致的网络转发效率的降低
在现有网络结构中,核心交换与上下行设备之间均通过 OSPF 进行路由学习,实现链路互通。但由于地震行业的特点是省局不仅需要与省内的数百个节点进行通信,还需与中国地震局、其他省地震局之间进行通信(赵军等,2009),由此而导致学习的路由表规模较大。对于汇聚层的交换机而言,其实际应用的路由简单明了,因此庞大的路由表在一定程度上降低了网络的转发效率。
(4)带宽利用率低
虽然各楼层汇聚交换机均双链路上行至核心交换,但由于核心交换之间运行的 VRRP 协议,形成了链路冗余备份,因此同一时刻只有其中一条链路处于工作状态,未能充分有效的利用提供的带宽。
(5)管理维护较为复杂
在网络中,2 台核心交换机呈现为 2 个单独的实体,拥有各自的 ip 地址与配置文件。在对网络进行扩展或调整时,需要同时对 2 台设备进行配置修改,而进行网络故障排查时,需同时从 2 台设备着手,查看各自与相互之间的运行状态,对日常网络的管理维护而言,具有一定难度。
2 CSS 集群技术概述
2.1 CSS 集群技术的定义与特征
交换系统 CSS(Cluster Switch System),又被称为集群,是华为公司采用的交换机虚拟化技术。它是指将多台支持集群特性的交换机设备组合在一起,从逻辑上组合成 1 台整体交换设备。集群的物理连接方式可分为集群卡集群和业务口集群。集群卡集群是通过集群卡的集群端口连接构建集群系统;业务口集群是通过特定业务单板的业务口连接构建集群系统。CSS 的典型特征有(图 2):
(1)交换机多虚一:CSS 对外表现为 1 台逻辑交换机,控制平面合一,统一管理。
(2)转发平面合一:CSS 内物理设备转发平面合一,转发信息共享并实时同步。
(3)跨设备链路聚合:跨 CSS 内物理设备的链路被聚合成一个 TRUNK 端口,和下游设备实现互联。
图 2 CSS 集群示意图
2.2 CSS 集群的建立过程
经前期测试比较,本文中的核心交换升级选用的设备型号为 HUAWEI S7712,采用的集群方式为集群卡集群。每块主控板上插一块 VSTSA 集群卡,每块集群卡上有 4 个集群口,2 台设备都需要配置 2 块主控板。为实现 2 台 S7712 通过建立集群关系虚拟化为 1 台更为强大的设备,需通过专用的集群电缆将集群口按照一定的规则连接起来,具体连接方式如图 3 所示。
图 3 HUAWEI S7712 集群线缆连接图
集群建立时,成员交换机之间相互发送竞争报文。通过竞争,1 台成为主交换机,即Master,负责管理整个集群系统;另 1 台则成为集群备份交换机,即 Standby。主交换机的选取规则为:
(1)运行状态比较:最先完成启动,并进入集群运行状态的交换机优先竞争为主交换机。
(2)集群优先级比较:集群优先级高的交换机优先竞争为主交换机。
(3)MAC 地址比较:当设备同时完成启动,并且集群优先级又相同时,MAC 地址小的交换机优先竞争为主交换机。
(4)集群 ID 比较:当 2 台交换机同时启动,且集群优先级和 MAC 地址都相同时,集群ID 小的交换机成为主交换机。值得注意的是,集群中的 2 台成员交换机必须拥有不同的集群ID,相同 ID 的 2 台交换机不能建立集群。
缺省状态下,交换机的集群 ID、集群优先级都为 1,集群功能也不能使用,因此,在建立集群时,需手动进行交换机配置。具体操作步骤为:
(1)在系统视图下执行命令 set css id new-id,配置成员交换机的集群 ID,分别为 1 和 2。在集群建立后,交换机的集群 ID 不可随意修改,否则会导致集群分裂。
(2)执行命令 set css priority new-priority,配置设备的集群优先级。
(3)执行命令 css enable,启用交换机的集群功能,并按照提示重启交换机。对于希望作为主交换机的设备可选择优先重启。
集群具有严格的配置文件同步机制,用来保证集群中的多台交换机能够像一台设备一样在网络中工作。集群建立时,成员交换机在启动开始阶段使用各自的配置文件启动。启动完成后,备交换机会将本设备的集群相关配置合并到主交换机的配置文件中,形成集群系统的配置文件。集群正常运行后,主交换机作为集群系统的管理中枢,负责将用户的配置同步给备交换机,从而使集群内各成员交换机的配置随时保持一致。通过即时同步,集群中的所有成员交换机均保持相同的配置。即使主交换机出现故障,备交换机仍能够按照相同的配置执行各项功能。配置的同步过程由交换机自主完成,无需人工干预。
集群建立后,可通过两种方式查看集群建立的状态。一种是通过集群卡上的指示灯查看,建立成功的指示灯为:4 块集群卡中只有 1 块集群卡的 MASTER 灯绿色常亮;1 台交换机的2 块集群卡上编号为 1 的 CSS ID 灯绿色常亮,另外 1 台交换机的 2 块集群卡上编号为 2 的CSS ID 灯绿色常亮;集群卡上 ACT/LINK 灯绿色常亮。另一种是通过命令行方式查看:
(1)执行命令 display device 查看设备单板状态(图 4)。
图 4 集群建立成功后的单板状态
(2)执行命令 display css status all 查看集群系统的状态(图 5)。
(3)执行命令 display css channel 检查集群链路状态(图 6)。
3 应用 CSS 技术改造升级中的几点关键问题
3.1 零中断平滑升级
鉴于地震行业的特殊性,地震台网监测与速报等重要业务的网络需 24 小时不间断运转。而实施核心交换的改造升级,受机房环境所限,涉及到将原核心设备从网络中摘除下架,再将新核心交换机上架、启动、连接上下行线路等一系列过程,必将耗费较长时间,若在此时间段内发生地震事件,将造成不可挽回的后果。因此,如何在保障台网重要业务的前提下最短时间断网,成为实施中需要考虑的首要问题。
经研究讨论,笔者最终决定通过以下步骤进行:
(1)在 2 台新核心交换机上架前,完成其除访问控制策略之外的其他所有配置,并加电测试其集群建立过程的状态与时长是否与预期一致。此后,将配置好的核心交换与上下行需连接的所有设备逐一进行互联测试(张营等,2011),查看在集群状态下双方能否正常通信,以避免新核心交换机上架完成后出现链路不通的情况。
(2)准备 1 台临时三层交换机,在其上按照台网重要业务上下行链路的需求提前予以配置并做好测试。在实施新旧交换机更替时,将台网业务运行所需的线路临时连接至该交换机,该操作简单快捷,这样既可保障重要地震台网数据的正常通信,也减轻
了交换机替换实施过程的压力(图 7)。
(3)将原核心交换机下架,新设备上架,并连接好除台网业务之外的所有线路与服务器,待网络测试通畅之后,再将台网线路移至新交换机,实现全网业务的恢复。此时,网络运行在全通状态。
(4)逐步添加访问控制策略,并在服务器上设置双网卡绑定,至此完成核心网络的改造升级。
3.2 全网路由梳理与改造
原有网络结构中,核心交换与上下行设备间均通过 OSPF 路由学习实现链路通信,正如 1.2 节中所述,该方式降低了网络的转发效率。为解决这一问题,在核心交换升级改造过程中,根据网络实际需求,对全网的路由进行了梳理与改造。改造后的路由模式为:一是 OSPF 域的范围只包含核心交换机上行端口和上联设备的端口;二是核心交换机与下行互联设备之间使用静态路由,即核心层与汇聚层、汇聚层与接入层全都使用静态路由;三是在配置 OSPF 路由选择协议的设备上,根据需要引入静态路由选择协议;四是核心交换机上使用默认路由配置内网用户访问 Internet 网络。
3.3 链路聚合技术的应用
链路聚合(Link Aggregation)是将一组物理接口捆绑在一起,作为一个逻辑接口来增加带宽的一种方法,又称为多接口负载均衡组(Load Sharing Group)或链路聚合组(LinkAggregation Group)。
集群技术支持跨框链路聚合 Eth-Trunk,用户可以将不同成员设备上的物理以太网端口配置成一个聚合端口。即使某些端口所在的设备出现故障,也不会导致聚合链路完全失效,其它正常工作的成员设备会继续管理和维护剩下的聚合端口。这样既可以增大设备容量,又可以进行设备间的业务备份,增加可靠性。改造升级后的 2 台核心交换机通过 CSS 技术实现集群,与上下行设备之间均使用 2 条物理链路通过链路聚合实现互联。具体实现方法为:
(1)在集群系统创建 Eth-Trunk,并加入 Eth-Trunk 成员接口。示例如下:
<SXDZJ_S7712>system-view
Enter system view, return user view with Ctrl+Z.
[SXDZJ_S7712]interface eth-trunk 31
[SXDZJ_S7712-Eth-Trunk31]quit
[SXDZJ_S7712]interface GigabitEthernet
[SXDZJ_S7712-GigabitEthernet
[SXDZJ_S7712-GigabitEthernet
[SXDZJ_S7712]interface GigabitEthernet
[SXDZJ_S7712-GigabitEthernet
[SXDZJ_S7712-GigabitEthernet
(2)在上下行设备中,由于设备型号的不同,具有不同的链路聚合配置方法。以下行汇聚交换机为例,其配置方法为先创建链路聚合组,再加入成员接口。示例如下:
<SXDZJ_HUIJU>system-view
Enter system view, return user view with Ctrl+Z.
[SXDZJ_HUIJU]link-aggregation group 1 mode manual
[SXDZJ_HUIJU]interface GigabitEthernet
[SXDZJ_HUIJU-GigabitEthernet
[SXDZJ_HUIJU-GigabitEthernet
[SXDZJ_HUIJU]interface GigabitEthernet
[SXDZJ_HUIJU-GigabitEthernet
[SXDZJ_HUIJU-GigabitEthernet
经上述改造后,完成了地震核心网的改造升级。图 8 为改造升级完成后的网络拓扑图。
图 8 改造升级完成后的网络拓扑
4 应用 CSS 集群技术后的网络优势
4.1 网络结构更为简单
基于 CSS 技术的“多虚一”理念,改造升级后的 2 台核心交换呈现为 1 台设备,其形成3 期 常俊等:CSS 集群技术在地震核心网中的应用 671的虚拟设备中各种控制协议也作为单一设备统一运行,路由协议也会统一计算。而原来组网中需要通过设备间协议交互实现的功能,如通过 MSTP、VRRP 等协议实现的链路冗余、网关备份等,也在虚拟设备中直接实现,无需此类协议的支持,省去了设备间大量协议报文的交互,简化了网络运行,将网络动荡时的收敛时间从秒级缩短至毫秒级。
4.2 网络更为安全可靠
网络的高可靠性一方面体现为单个网络设备的高可靠性;另一方面更体现在整网的可靠性上,即通过网络架构来保证整个网络的可靠性(王东洋,2012)。通过实施核心交换设备的升级,排除了原交换机老化带来的故障隐患,从设备层面提升了网络的可靠性。而 CSS 集群技术的应用,实现了数据通过主控的交换网直接出集群口,很好地保证了整网的可靠性。
4.3 网络更为高效灵活
CSS 集群技术克服了业界普遍采用的线卡集群跨框多次交换,交换效率低下的架构难题,实现了跨框一次交换,大幅度提升了交换效率。同时通过与上下行设备之间的跨框链路聚合,扩大了汇聚层和接入层到核心层的网络带宽,实现了链路的负载分担,保障了任何一条链路中断,都不会导致端口的中断(虞红芳等,2014),也不会引起 OSPF 的重新收敛,保证了OSPF 协议的稳定运行,消除了单点故障,提高了链路的利用率。
4.4 网络更加易于管理
实现 CSS 集群后的 2 台核心交换共用一个 IP,同用一套配置,可通过任意成员设备的任端口登录系统,对系统内所有成员设备进行统一管理,简化了日常管理维护的内容,同时也更便于日后的网络调整与扩展。
4.5 网络优势在业务应用中的体现
CSS 集群技术的应用及全网路由的梳理变更,为日常业务带来的直观优势为:一是更为快速高效的数据传输;二是更为简单稳定的网络路由;三是更为安全可靠的信息服务。以到国家台网中心的路由及到一个测震台站的 ping 包延时为例,改造升级前后的对比结果如图 9所示。
图 9 改造升级前后业务对比
5 结束语
地震业务的正常运转对社会公众而言至关重要,而地震网络系统作为其基础支撑,应具备安全稳定、高效等性能。在本次地震核心网改造升级中,合理应用了 CSS 集群技术,简化了网络结构,提升了网络的运行效率、安全性和可靠性,整个系统易扩展,方便管理。系统自投入使用以来功能完善,运行稳定,为地震系统各类业务的有效运转提供了良好的网络保障。
本文资料来自中国科技期刊网,由中国救援装备网重新编辑整理。