在当前网络设备市场中,大厂DCN(数据中心网络)凭借其庞大且持续稳定的需求体量,成为设备厂商最核心的“金主甲方”。但要追溯DCN的技术雏形,必须将目光投向它的“前辈”——金融行业的ServerFarm(服务器集群)。相较于“DCN”这个抽象的技术术语,ServerFarm被业内戏称为“服务器鸡场”,形象地勾勒出早期服务器集群零散部署的场景,而这正是大厂DCN的“前世根基”。
从部署密度来看,两者的差异堪称天壤之别:大厂DCN的部署密度至少是金融ServerFarm的20倍以上。如果说金融ServerFarm是“散养鸡场”,依靠粗放式布局满足业务需求,那么大厂DCN就是“工业化顶级养殖基地”,以格子化、高密度的部署模式,将工业级规模化的优势发挥到极致,这也正是互联网大厂业务体量爆发后,网络架构必然的演进方向。
进入“今生”阶段,各大厂的DCN架构虽各有细节差异,但核心目标高度一致,可归纳为五大核心诉求:承载高密度服务器部署、支撑业务灵活调度部署、实现单点故障快速止损、控制整体TCO(总拥有成本)、保障交付效率不制约业务日活/月活的爆发式增长。在这些刚性约束下,大厂DCN逐渐形成了标准化的架构形态,具体可拆解为以下六大核心模块:
一、接入层:按业务属性分化的部署策略
大厂通常会根据业务类型将数据中心园区划分为在线园区与离线园区:经济发达区域因靠近终端用户、时延更低,多部署在线业务;而电力、土地成本更低的偏远区域,则主要承载离线业务。两种业务的接入层部署策略差异显著,却都围绕“适配业务需求+控制成本”的核心逻辑展开。
1. 在线业务:高可用优先的双机bond模式
在线业务直接对接终端用户,可用性要求极高,因此采用“2台接入交换机为一组”的部署模式,与服务器通过bond技术组成高可用集群——这也是它与金融ServerFarm为数不多的共识点。但两者的核心差异在于带宽利用率:大厂要求交换机的每1Mbps带宽都精准服务于服务器间通信,为此专门在服务器OS内核部署了“ARP/ND在bond成员端口双发”的补丁。当交换机接收到ARP/ND报文后,会将其转换为/32(IPv4)或/128(IPv6)的主机路由,通过BGP协议下发给邻居设备。这种设计能实现下联接口断开后的快速网络收敛,使得成对的接入交换机无需跨设备互联,即可完成VRRP(虚拟路由冗余协议)和LACP(链路聚合控制协议)的部署,所有端口非上连即下连,彻底杜绝带宽浪费。而当前主流交换机的表项规格,完全能支撑这种高密度部署的需求。
2. 离线业务:成本优先的单上行模式
离线业务(如数据备份、模型训练)具有“集群级自愈能力”,即便单台服务器故障,也能通过业务层收敛保障可用性。因此,离线业务接入层采用“单上行”部署模式,最大限度降低资本性支出(Capex)。不过,两种接入模式会增加运维复杂度,部分大厂已通过虚拟化技术将离线业务接入也统一为bond模式,实现运维标准化。
二、核心架构:全盒式CLOS组网的规模化优势
大厂DCN的核心组网采用全盒式CLOS架构,拓扑形态与Meta(原Facebook)2019年发布的F16架构高度相似。从接入层往上,依次分为模块核心、集群核心、园区核心三个层级,且三个层级均采用相同型号的单芯片盒式交换机,这种标准化设计是实现规模化部署与自动化运维的关键。
Meta发布于2019年的F16这些规模数值并非拍脑袋决策,而是各部门协同的结果:就像多缸发动机的活塞协同驱动曲轴,网络部门结合数据中心园区、楼栋、包间的规划规模,联动业务、运维、成本等多个部门输出的数据,通过协同对齐机制确定最佳部署规模——且这个规模必然略大于实际需求,以预留突发扩容空间。
分层设计的另一大优势是“颗粒化快速交付”:园区开局时可先部署一栋楼的若干包间,后续新增包间时仅扩容模块核心,新增楼栋时扩容集群核心,无需对整体架构进行颠覆性调整。同时,不同层级可预设不同收敛比,适配不同业务的性能需求,为自动化运维奠定基础。
三、协议选型:BGP的绝对主导与ISIS的补充
面对庞大的网络规模,大厂DCN采用“全三层路由互联”模式,核心路由协议首选EBGP(外部边界网关协议)。EBGP的优势在于“路由开销计算简单(最小开销优先)”,且具备丰富的路由属性,可灵活支撑各类定制化需求——比如将ARP/ND表项转换为主机路由、通过团体字标记路由的起源与用途等。在CLOS组网中,存在典型的“ECMP木板效应”:若某台设备A的上行带宽减少1/4,而同级其他设备上行带宽正常,那么下一级设备通过ECMP(等价多路径)转发时,经过设备A的流量可能因带宽不足导致丢包。借助EBGP的扩展能力,可通过UCMP(非等价多路径)实现不同负载的路径转发,隔离“带宽短板”设备,避免丢包风险。
目前,BGP已成为大厂DCN的绝对主导协议,其各类扩展功能均有RFC标准支撑,灵活性与可靠性远超OSPF——后者已在大厂DCN中基本绝迹。同样被淘汰的还有各类STP(生成树协议),而ISIS(中间系统到中间系统协议)虽未进入DCN核心组网,却在DCI(数据中心互联)场景中广泛应用,这与三大运营商骨干网采用ISIS的逻辑一致,均看重其在大尺度网络中的稳定性。
四、设备选型:机框式退潮,盒式交换机的胜利
曾经被誉为“设备界皇冠”的机框式交换机,在大厂DCN中逐渐走下神坛,核心原因在于其无法适配大厂的“规模化、低成本、易排障”需求:一是端口密度高导致“爆炸半径大”,单台设备故障影响范围广;二是采用黑盒设计,故障排查难度大;三是机框内部为两级芯片互联,转发路径达3跳,与盒式交换机的转发效率无差异;四是供应商数量少,容易在成本和交付周期上被“卡脖子”。取而代之的是盒式交换机:大厂普遍秉持“用简单工业品替代精细艺术品”的思路,通过标准化盒式设备的规模化部署,降低故障影响范围、简化运维排障流程,同时提升供应链议价能力,控制整体成本。
五、关键组件:光模块的技术博弈与选型逻辑
随着AI业务爆发,DCN互联速率持续攀升,光模块作为高速信号传递的核心组件,成为连接数字通信与模拟通信的关键“缝合体”。它同时受限于高速信号速率、传输距离、功耗、稳定性等多重约束,近年来始终游走在理论极限与材料学突破的边界,行业热度甚至超过网络芯片。光模块行业“产能小、单价高”的特点,使得“获取充足供应配额”与“降低成本”成为大厂的核心诉求。各大厂均通过“器件BOM组合定制”的方式,定义符合自身需求的光模块或线缆,而非单纯依赖供应商的标准化产品。
关于“光进铜退”还是“铜进光退”的争议,在大厂DCN中并无绝对答案——客观约束条件决定了选型逻辑:需长距离传输、高带宽场景优先用光纤,短距离、低成本场景则可选用铜缆。具体而言,光模块涵盖SR、DR、FR、LR、ZR等多种传输距离规格,每种规格对应不同光纤类型,大厂需根据场景需求,组合选用不同模块,平衡稳定性、成本与交付效率。
值得注意的是,DCN光模块领域的技术人员多为信号学专业出身,而非传统路由协议工程师,这种专业背景的多元化,也丰富了网络运维的技术维度。
六、核心痛点:故障快速处置的“工业化逻辑”
大厂DCN的最大痛点,是“庞大网络中的故障定位与止损”——端到端转发路径繁多,一旦出现丢包,能否快速定位到具体设备与端口,直接决定业务影响范围。为此,大厂普遍部署网络探针,实时探测每一条转发路径,实现故障的提前预警与快速定位。此外,业务层改包问题也曾让运维人员头疼。曾有设备厂商将改包原因归咎于“宇宙射线、太阳耀斑导致存储器Parity Error”,但这种无法验证的“天文解释”在大厂中不被接受——大厂将这类异常视为“概率事件”,核心应对逻辑是“快速处置”:尽快定位改包设备、隔离故障节点、替换异常设备,最大限度缩短业务影响时间。
随着运维经验积累,这种“检测-诊断-隔离-替换”的流程已实现自动化。大厂对待DCN的态度,如同对待一条“无情的流水线”:优先保障业务连续性,故障根因调查可在不影响业务的前提下按部就班推进。而设备、连接器的故障率会被纳入供应商考核体系,数据是大厂与供应商博弈的最强话术,故障率高的供应商将失去后续合作机会。
以上便是大厂DCN网络的核心架构与演进逻辑。
本文来自微信公众号: 特大号 ,作者:铁笼牛马
