Lambda NVIDIA B200 AI Cluster

How to Build a "Good" AI Cluster

隨著 AI 模型參數呈現指數級增長,構建一個「好」的 AI 集群已不再僅僅是堆疊 GPU 的數量,而是一項涉及能源、冷卻、網路互連與存儲效率的複雜系統工程。

本文基於對 Lambda 在俄亥俄州哥倫布市部署的最新 NVIDIA B200 集群(與 Supermicro 和 Cool Logix 合作)的分析,拆解構建現代化 AI 集群的核心要素與戰略考量。


核心分析:什麼造就了一個「好」的 AI 集群?

1. 靈活且多樣化的計算架構 (Compute Architecture)

構建 AI 集群時,選擇合適的伺服器架構至關重要。目前的趨勢顯示,靈活性是部署速度的關鍵。

  • 風冷與液冷的戰略選擇: 雖然液冷是未來的標準(預計未來 18 個月內成為標準),但高效的風冷系統仍具有極大的部署優勢。例如,Lambda 的 B200 集群採用 Supermicro HGX B200 平台,利用風冷技術即可運行。這意味著企業無需等待設施完成複雜的液體管道鋪設,可以更快速地將算力投入使用。
  • 高密度整合方案: 對於追求極致密度的場景,則需要考慮如 NVIDIA GB200 NVL72 這樣的全液冷機櫃。這類系統通過 NVLink 將 72 個 GPU 連接成一個巨型 GPU 運行,但這需要完全不同的設施支援。
  • 強大的單節點性能: 每個節點(如 Supermicro HGX B200)應配備 8 個頂級 GPU(如 B200),並輔以雙 CPU、大量記憶體以及專用的開機與本地緩存 SSD,以確保單機算力的最大化。

2. 網路互連設計 (High-Performance Networking)

在多租戶或大規模訓練場景中,網路往往是瓶頸所在。一個優秀的 AI 集群必須區分「東西向」與「南北向」流量。

  • 東西向流量 (East-West): 負責 GPU 之間的數據交換。Lambda 的案例顯示,每台伺服器配備了 8 張 NVIDIA ConnectX-7 網卡(每個 GPU 對應一張),運行在 NVIDIA Quantum 2 InfiniBand 架構上,提供 400 Gb/s 的速度。
  • 南北向流量 (North-South): 負責與外部或主機 CPU 的通訊。現代集群引入了 DPU(數據處理單元),如 NVIDIA BlueField-3。它擁有自己的 16 核處理器和操作系統,能卸載網路任務,確保主 CPU 和 GPU 專注於計算。

3. 高吞吐、高密度的存儲系統 (High-Throughput Storage)

AI 訓練不能讓 GPU 等待數據。存儲系統的設計必須兼顧速度與空間效率。

  • 全快閃陣列 (All-Flash Arrays): 使用 NVMe SSD 取代傳統硬碟是必須的。這不僅是為了速度,也是為了密度。
  • 空間與性能的平衡: 案例中的 VAST Data 方案證明,透過高密度的快閃存儲,可以在極小的物理空間內提供數十 PB (Petabytes) 的容量,並確保數據能以極高速度輸送給 GPU,防止計算資源閒置。

4. 能源與散熱的協同運作 (Power & Cooling Synergy)

AI 集群是能源巨獸,電力與散熱設計直接決定了集群的穩定性與擴展性。

  • 電力冗餘與效率: 一個 36 MW 的設施需要配備備用發電機(如 Rolls-Royce 發電機)和巨型 UPS 系統以確保不間斷運行。伺服器電源供應器應達到鈦金級效率(Titanium level),且單個電源模組支援雙路輸入,這能減少所需的模組數量並提升散熱效率。
  • 冷熱通道隔離: 即使是風冷,也需要嚴格的氣流管理。採用冷通道(Cold Aisle)吸入冷空氣,熱通道(Hot Aisle)排出熱空氣,並配合牆面巨大的熱交換器(Heat Exchangers)與屋頂的冷卻塔協同工作,實現空氣的循環冷卻。

5. 可維護性與物理設計 (Maintainability)

隨著硬體變得越來越重(一台 HGX B200 伺服器重達 130 公斤),物理設計必須考慮運維人員的需求。

  • 熱插拔設計: 風扇、電源等關鍵組件必須支援熱插拔,並設計冗餘。
  • 前端接口: 考慮到伺服器後方是高溫區,將 VGA 和 USB 端口設計在伺服器前端(冷通道側),可以讓技術人員在舒適的環境下進行維護。

總結:構建 AI 集群時應考慮的關鍵問題

基於上述分析,在規劃 AI 集群時,我們必須回答以下關鍵問題:

  1. 部署速度與密度的權衡:

    • 問題: 急需上線嗎?還是追求極致的計算密度?
    • 考量: 風冷方案(如 HGX B200)部署快、對設施要求較低;液冷方案(如 GB200 NVL72)密度極高但基礎設施建設週期長。
  2. 網路拓撲的專用性:

    • 問題: 網路架構是否有效分離了計算流量與管理流量?
    • 考量: 必須確保每個 GPU 都有專屬的高頻寬通道(如 InfiniBand),並引入 DPU 來處理基礎設施負載,避免搶占寶貴的 CPU 資源。
  3. 存儲系統的餵養能力:

    • 問題: 存儲系統能否填滿 GPU 的吞吐量?
    • 考量: 選擇高密度的 NVMe 全快閃陣列,目標是消除 GPU 等待數據的 I/O 瓶頸,同時節省機房空間。
  4. 電力與散熱的極限:

    • 問題: 數據中心的電力和散熱能否支撐未來的擴展(如單機櫃 100kW+)?
    • 考量: 除了足夠的兆瓦級(MW)電力,還需考慮熱交換效率。對於超高密度機櫃,必須預先規劃液冷管線。
  5. 運維的物理現實:

    • 問題: 基礎設施是否便於人類工程師操作?
    • 考量: 考慮伺服器的重量(是否需要升降機具)、接口位置(是否在冷通道)以及組件的易更換性。

結語

構建一個好的 AI 集群不僅僅是購買最新的 GPU。它是一場關於「平衡」的藝術——在風冷與液冷之間、在計算密度與部署速度之間、在極致性能與運維難度之間找到最佳落點。正如 Lambda 的案例所示,成功的關鍵在於整合頂級的硬體(Supermicro/NVIDIA)、高效的軟體定義存儲(VAST)以及精心設計的數據中心設施(Cool Logix)。

參考資料

  1. https://www.youtube.com/watch?v=N5AJJ0tAoxc