注: 本文转载于行业媒体光纤在线
原文作者:肖明 (现任918博天堂通讯研发和战略副总司理)
1/2019,,,,最近和几个业内朋侪谈天时,,,,发明许多人关于数据中心使用什么底层网络架构,,,,怎样演进,,,,会需要什么类型的光电接口,,,,什么数目级,,,,怎么盘算需求等等问题保存许多疑惑。。。心血来潮想连系过往的履历,,,,写点工具,,,,权当抛砖引玉,,,,仅供各人参考和讨论,,,,其中偏颇之处还请各人指正。。。

首先要提到的是摩尔定律(Moore’s law),,,,其在数据中心的演进中体现的很是显着。。。险些每2年数据中心的交流带宽在价钱稳固的情形下翻倍,,,,从而知足快速增添的超等应用关于带宽的需求,,,,尤其是视频类的应用。。。好比字节跳动(今日头条的母公司)旗下在北美的小视频App,,,,Tik Tok,,,,流量指数级暴涨让其数据中心折务商阿里云在北美一直忙于升级,,,,虽然也是“痛并快乐着”。。。
这里以谷歌的数据中心拓扑架构为例,,,,(以后有时机再一起探讨Facebook,,,,Microsoft等的数据中心架构)。。。谷歌数据中心在已往十来年已经演进了好几代,,,,主要是基于Clos网络拓扑架构,,,,从一最先的Firehose,,,,逐渐演化到Watchtower,,,,Saturn,,,,到近些年不少场合被提到的Jupiter。。。交流装备接口速率也从1GbE演进到了40GbE/100GbE,,,,400GbE也正在小量应用中。。。图1给出了谷歌数据中心拓扑架构的演变示意,,,,表1则给出了每个世代的架构参数。。。更详细的内容可以参考知乎上的文章【1】。。。


Clos网络架构最早是由Charles Clos于1952年设计出的,,,,用多级的小型交流机阵列构建一个“无壅闭”的网络,,,,有这么几个特点:
? 主要为三级交流架构
? 每一级的每个单位都与下一级的装备互联
? 支持递归,,,,带宽可无限扩展,,,,对恣意一台效劳器,,,,能使用网卡的最高带宽与数据中心恣意一台效劳器通讯
? 向后兼容,,,,兼容现有的以太网及应用
? 到指定的目的地,,,,路由选择在第一级是可以有多个路径,,,,但后续交流单位之间只保存唯逐一条路由
Clos网络架构较量简朴,,,,不少白盒机厂商用Broadcom的交流芯片就可以生产出性能不错的高端交流机。。。现在越来越多的数据中心在使用Clos网络拓扑架构。。。
古板数据中心中南北向(关于网络中南北工具的诠释可以参考【2】)的流量较大,,,,但随着漫衍式盘算需求的兴起,,,,工具向的流量快速加大,,,,一方面漫衍式盘算导致效劳器之间的会见需求大幅增添;;;;;另一方面,,,,应用也变得越来越重大,,,,好比物联网中的某个用户提倡请求,,,,中心折务器可能需要从众多边沿数据中心或者效劳器抽取一些数据,,,,处置惩罚后再返回到用户,,,,云云工具向的流量就变得越来越大,,,,甚至大过南北向流量。。。这也就是为什么最近几年数据中心之间的互联需求增添幅度要快于数据中心内部互联,,,,见表2,,,,Cisco global cloud index 2016-2021,,,,

Jupiter是基于一个40Gbps的数据中心网络,,,,其架构有这个几个特点:
1. Centauri TOR(Top of Rack)交流机每一个基础单位是一个4U的机箱,,,,每一个含有640G(16x40G)的交流芯片,,,,共计4x16x40G的交流容量。。。若是按3:1南北向分派,,,,则可以设置为48x40G容量南向到效劳器,,,,16x40G北向到fabric network,,,,或者以10Gbps为基础速率,,,,192x10G南向和64x10G北向。。。虽然,,,,也可以做1:1分派,,,,南北向各32x40G,,,,如图2。。。

2. 中心区块(Middle Blocks)由4个Centauri交流机组成,,,,其交流容量为4x4x(16x40G),,,,但每其中心区块都由2级(two-stage)Clos交流机组成,,,,每一级可以设置为64x40G北向到Spine交流机,,,,64x40G或者256x10G南向毗连32个TOR交流机。。。
3. 每个汇聚区块(Aggregation Blocks)由8其中心区块组成,,,,其交流容量为8x(64x40G)即512x40G北向到Spine交流机,,,,南向8x(256x10G)即2048x10G到TOR交流机。。。
4. Spine交流机由2-stage Clos交流机组成,,,,即2x(64x40G)与汇聚区块互联。。。
这样关于一个Jupiter数据中心,,,,其架构为256个Spine交流机,,,,南向与64个汇聚区块互联,,,,每个汇聚区块南向与32个TOR交流机互联,,,,也就意味着总共需要2048(=64x32)个TOR机柜;;;;;每台机柜可以有最多48台效劳器,,,,满配也就是说98304台效劳器;;;;;每台效劳器可设置2个高速网卡,,,,即一个Jupiter数据中心会需要196,608个10G高速网卡。。。

从以上的架构来看,,,,想必各人已经可以自己算出来光电接口的数目了。。。这是以最大基础速率40Gbps的Google Jupiter数据中心举的例子,,,,虽然若是最大基础速率是100Gbps或者400Gbps,,,,同时效劳器网卡最小速率为25Gbps或者50Gbps,,,,各人可以依此方法做响应的推演。。。
虽然,,,,数据中心未来的演进照旧有不少挑战的。。。好比电交流的速率逐渐会遇到瓶颈,,,,以Broadcom的Switching ASIC为例,,,,从早先2011年宣布的640G交流容量的Trident,,,,到2014年宣布的1.2T Trident 2,,,,2015年宣布的3.2T Tomahawk,,,,到2017年尾宣布2018年3季怀抱产的基于16nm CMOS工艺的12.8T Tomahawk 3,,,,手艺蹊径图生长照旧很快的,,,,但后面的25.6T及以上交流芯片的推出时间保存许多不确定性,,,,主要是由于芯片的BGA封装PIN脚密度,,,,IO数目快速提升难度很大。。。

如上图4,,,,由于硅光手艺的引入,,,,一台刀片效劳器的尺寸可以大幅削减60%以上,,,,同时,,,,速率大幅提升以及功耗的大幅下降是显然易见的利益。。。这也就直接驱动主流的芯片公司甚至详细装备商们,,,,最近几年大宗投入在硅光手艺(Silicon Photonics,,,,SiP),,,,以及2.5D/3D的芯片封装手艺等。。。关于硅光手艺,,,,以后再找时机做专题讨论。。。

另外,,,,也有几个问题会限制数据中心的生长速率,,,,好比IEEE在PCIe总线接口标准的演进太慢,,,,现在主流仍然是PCIe 3.0,,,,每个lane的速率仅为8Gbps,,,,不少业内专家也在呼吁直接跳过PCIe 4.0去宣布PICe 5.0,,,,每个Lane的速率抵达32Gbps,,,,这样光电速率可以匹配。。。其它问题,,,,好比SERDES演进(25G-50G),,,,数据中心制冷(古板风冷到液冷),,,,Serverless等等,,,,也都是不小的话题。。。
总的来说,,,,未来的数据中心架构是朝着“???????榛⒈馄交⒁桌┱埂闭饧父銎蛟谏,,,,超大型云效劳商们也越来越重视数据中心网络架构的演进和优化,,,,物联网,,,,5G一定会催生出超等应用,,,,从而推进数据中心的快速生长。。。希望有时机与业内人士多多探讨这方面的话题。。。下篇将更多探讨光电互联接口在数据中心的应用。。。
参考文章:
1 Google已往十年生长数据中心网络的履历 陈宇飞 https://zhuanlan.zhihu.com/p/29945202
2 网络的工具南北:扬弃SDN,,,,迎接网络虚拟化??????? https://www.csdn.net/article/2014-01-23/2818233-SDN-Network-Virtualization
3 “Jupiter Raising: A Decade of Clos Topologies and Centralized Control in Google’s Datacenter Network”
4 “Cisco global cloud index 2016-2021 white paper”
5 “Facebook’s Data center Network Architecture”
6 肖明,,,,2016年,“Future Data Center and High Speed Optics Interconnection”