数据中心基础网络架构最佳实践及未来发展趋势

数据中心网络起着承上启下的作用，将计算和存储资源连接在一起，并以服务的形式对内部及外部的用户提供数据访问能力。虽说网络建设和运维投入远比机房基础建设、服务器设备、存储设备、应用开发及运维小，但大家最怕它出现性能问题或故障长时间不能恢复，因为网络一旦不可用，意味着一切服务都将停止。因此，设计运维一张高性能、高可靠的网络是网络架构及运维团队的首要目标。
结合我在锐捷网络服务互联网企业的实践经验，分享几个典型的网络架构设计，供大家参考。
数据中心10g/40g网络架构
主要设计理念：
a核心设备全线速高性能转发，核心之间不互联，采用fabric架构，隔离核心故障，
最大程度降低核心故障影响;
b三层路由组网，通过ecmp提高冗余度，降低故障风险;
c通过tor上的服务器接入数量和上联40g链路数量控制单tor收敛比，通过提高核心设备接口密度扩展单集群服务器规模。
注：千兆网络已跟不上业务发展，本文不再涉及。
适用网络
架构设计
架构特性
中小型
(集群规模300-1000台)
每台tor2*40ge上联2核心，ospf组网;
idc内收敛比6:1，集群带宽1.5tbps;
上联带宽根据集群规模灵活配置。
中型
(集群规模1000-10000台)
｠每台tor4*40ge上联2核心，ospf或bgp组网;
｠idc内收敛比3:1，集群带宽30tbps;
｠上联带宽根据集群规模灵活配置。
大型
(集群规模5000-20000台)
w每台tor4*40ge上联4核心，bgp组网;
widc内收敛比3:1，集群带宽60tbps;
w上联带宽根据集群规模灵活配置。
超大型
(集群规模20000+台)
案单pod集群规模300-1000台，数据中心集群规模20000+，bgp组网;
案pod内收敛比6:1或3:1，单pod集群带宽1.5tbps;
案上联带宽根据集群规模灵活配置。
数据中心25g/100g网络架构
与10g/40g网络一致，主要变化在于：
a下行链路由10g变为25g，提升至2.5倍;
b上行链路每端口由40g变为100g，提升至2.5倍;
c下一代主流芯片方案实现为48*25ge+8*100ge(broadcomtd3)，上行收敛比提升为1.5:1。
下面仅以大型数据中心为例做组网说明：
适用网络
架构设计
架构特性
大型
(集群规模5000-10000台)
clos网络架构
最后，想与大家分享的是今年国内不少互联网企业考虑使用的新架构设计。
从上述架构设计说明中，不难看出数据中心集群规模和收敛比，主要受限于机框式核心设备的端口密度，而业界核心设备的更新换代都是以数年为单位进行的，大大阻碍了数据中心规模和发展。另外，动辄数百个40ge接口或者100ge接口的核心设备单台运行功率已达20kw，而国内大部分idc机房的平均功率只有5kw~6.5kw/机柜，这给机房供电系统的维护管理带来了极大的挑战。如何摆脱核心设备端口密度的限制?如何摆脱核心设备对idc机房供电系统的挑战?
此时，clos架构诞生了。
25g/100gclos网络架构图
架构特性：
leaf、fabric、spine交换机选用中低端盒式交换机48*25ge+8*100ge/32*100ge;
每台leaf，下联32个25ge做server接入，8个100ge用于向上连接的上行链路;每个pod16台leaf交换机;
每台fabric交换机，有32个100ge，16个下连16台leaf，16个上连至16组spine;每个pod8台fabric交换机，共32个pod;
每台spine交换机，有32个100ge，全部用于下连32个podfabric交换机;
每组8台，共16组spine交换机;
通过edgepods连接外网，单pod集群带宽12.8tbps，整数据中心集群带宽超过400tbps。
随着智能时代的来临，大数据、人工智能等新技术的应用，对数据中心网络提出了新的挑战。如何更好地支撑hadoop、rdma等技术应用，成为网络运维团队关注和思考的问题。高性能、低时延、无损网络已然成为数据中心网络设计和运维的主流思路。