在整個AI資料中心,建置128台H100伺服器的叢集還是比較容易的,計算網路採用Spine-Leaf兩層式架構,32台Leaf交換器+16台Spine交換器=48台交換器,每台交換器有64個400G通訊埠。
可能有人會提出疑問,從128台叢集擴大到256台叢集,不就是單純的增加主機數量就可以了嗎?其實不然,256台叢集通常兩種不同的選擇。
最直接的方案是沿用128台叢集所採用的Spine-Leaf兩層式架構,簡單擴大到256台叢集,這種方案的優點是簡單、省錢,但兩層式架構的256台叢集已經是上限了,以後若要繼續擴充下去的話就會變得比較困難。
另一個方案是採用Core-Spine-Leaf三層式架構,可能在網路設備、串聯部分的資金投入確實會貴一點,但也為了未來能夠擴充到512叢集提前打好了基礎。
接下來簡單比較一下兩種256台叢集的計算網路架構。考量到大模型的訓練對資料傳輸效率相當要求,我們文中所提到的運算網路全部按照全速(non-blocking)來設計。
方案一:採用Spine-Leaf兩層式架構
256台H100台伺服器,每台伺服器配置8個400G的IB網路卡,每台伺服器連接到8個Leaf交換器中,32台伺服器組成1個Group(也稱為SU) ;256台伺服器劃分成8個Group。共使用64台Leaf交換器+32台Spine交換器=96台交換器。
這種方案的優點是省錢,只需要最少數量的交換器,每一個通訊埠都不浪費。但缺點就是擴充相當麻煩,因為256叢集已經是兩層式網路的上限了,如果要擴大到512台叢集,那就需要升級到三層式網路,現有Spine交換器到Leaf交換器,至少有一半以上的串接方式要重新設計。
方案二:採用Core-Spine-Leaf三層組網
將256台H100伺服器分成兩組各128台,每組使用32台Leaf交換器+32台Spine交換器,加上32台Core交換器,總共要用到(32+32)*2+32=160台交換器。
這個方案的優勢是當叢集要再次擴充時會非常方便。從256叢集擴大到512叢集的時候,Spine-Leaf之間的串聯方式不必重新設計,只需沿用原本架構即可。至於叢集擴充會有多方便呢,如過一切準備就緒的話,單就擴充工作來說,6~8個小時就可以完成叢集網路架構的擴充了。