How to Build a "Good" AI Cluster

隨著 AI 模型參數呈現指數級增長，構建一個「好」的 AI 集群已不再僅僅是堆疊 GPU 的數量，而是一項涉及能源、冷卻、網路互連與存儲效率的複雜系統工程。

本文基於對 Lambda 在俄亥俄州哥倫布市部署的最新 NVIDIA B200 集群（與 Supermicro 和 Cool Logix 合作）的分析，拆解構建現代化 AI 集群的核心要素與戰略考量。

核心分析：什麼造就了一個「好」的 AI 集群？

1. 靈活且多樣化的計算架構 (Compute Architecture)

構建 AI 集群時，選擇合適的伺服器架構至關重要。目前的趨勢顯示，靈活性是部署速度的關鍵。

風冷與液冷的戰略選擇： 雖然液冷是未來的標準（預計未來 18 個月內成為標準），但高效的風冷系統仍具有極大的部署優勢。例如，Lambda 的 B200 集群採用 Supermicro HGX B200 平台，利用風冷技術即可運行。這意味著企業無需等待設施完成複雜的液體管道鋪設，可以更快速地將算力投入使用。
高密度整合方案： 對於追求極致密度的場景，則需要考慮如 NVIDIA GB200 NVL72 這樣的全液冷機櫃。這類系統通過 NVLink 將 72 個 GPU 連接成一個巨型 GPU 運行，但這需要完全不同的設施支援。
強大的單節點性能： 每個節點（如 Supermicro HGX B200）應配備 8 個頂級 GPU（如 B200），並輔以雙 CPU、大量記憶體以及專用的開機與本地緩存 SSD，以確保單機算力的最大化。

2. 網路互連設計 (High-Performance Networking)

在多租戶或大規模訓練場景中，網路往往是瓶頸所在。一個優秀的 AI 集群必須區分「東西向」與「南北向」流量。

東西向流量 (East-West)： 負責 GPU 之間的數據交換。Lambda 的案例顯示，每台伺服器配備了 8 張 NVIDIA ConnectX-7 網卡（每個 GPU 對應一張），運行在 NVIDIA Quantum 2 InfiniBand 架構上，提供 400 Gb/s 的速度。
南北向流量 (North-South)： 負責與外部或主機 CPU 的通訊。現代集群引入了 DPU（數據處理單元），如 NVIDIA BlueField-3。它擁有自己的 16 核處理器和操作系統，能卸載網路任務，確保主 CPU 和 GPU 專注於計算。

3. 高吞吐、高密度的存儲系統 (High-Throughput Storage)

AI 訓練不能讓 GPU 等待數據。存儲系統的設計必須兼顧速度與空間效率。

全快閃陣列 (All-Flash Arrays)： 使用 NVMe SSD 取代傳統硬碟是必須的。這不僅是為了速度，也是為了密度。
空間與性能的平衡： 案例中的 VAST Data 方案證明，透過高密度的快閃存儲，可以在極小的物理空間內提供數十 PB (Petabytes) 的容量，並確保數據能以極高速度輸送給 GPU，防止計算資源閒置。

4. 能源與散熱的協同運作 (Power & Cooling Synergy)

AI 集群是能源巨獸，電力與散熱設計直接決定了集群的穩定性與擴展性。

電力冗餘與效率： 一個 36 MW 的設施需要配備備用發電機（如 Rolls-Royce 發電機）和巨型 UPS 系統以確保不間斷運行。伺服器電源供應器應達到鈦金級效率（Titanium level），且單個電源模組支援雙路輸入，這能減少所需的模組數量並提升散熱效率。
冷熱通道隔離： 即使是風冷，也需要嚴格的氣流管理。採用冷通道（Cold Aisle）吸入冷空氣，熱通道（Hot Aisle）排出熱空氣，並配合牆面巨大的熱交換器（Heat Exchangers）與屋頂的冷卻塔協同工作，實現空氣的循環冷卻。

5. 可維護性與物理設計 (Maintainability)

隨著硬體變得越來越重（一台 HGX B200 伺服器重達 130 公斤），物理設計必須考慮運維人員的需求。

熱插拔設計： 風扇、電源等關鍵組件必須支援熱插拔，並設計冗餘。
前端接口： 考慮到伺服器後方是高溫區，將 VGA 和 USB 端口設計在伺服器前端（冷通道側），可以讓技術人員在舒適的環境下進行維護。

總結：構建 AI 集群時應考慮的關鍵問題

基於上述分析，在規劃 AI 集群時，我們必須回答以下關鍵問題：

部署速度與密度的權衡：
- 問題： 急需上線嗎？還是追求極致的計算密度？
- 考量： 風冷方案（如 HGX B200）部署快、對設施要求較低；液冷方案（如 GB200 NVL72）密度極高但基礎設施建設週期長。
網路拓撲的專用性：
- 問題： 網路架構是否有效分離了計算流量與管理流量？
- 考量： 必須確保每個 GPU 都有專屬的高頻寬通道（如 InfiniBand），並引入 DPU 來處理基礎設施負載，避免搶占寶貴的 CPU 資源。
存儲系統的餵養能力：
- 問題： 存儲系統能否填滿 GPU 的吞吐量？
- 考量： 選擇高密度的 NVMe 全快閃陣列，目標是消除 GPU 等待數據的 I/O 瓶頸，同時節省機房空間。
電力與散熱的極限：
- 問題： 數據中心的電力和散熱能否支撐未來的擴展（如單機櫃 100kW+）？
- 考量： 除了足夠的兆瓦級（MW）電力，還需考慮熱交換效率。對於超高密度機櫃，必須預先規劃液冷管線。
運維的物理現實：
- 問題： 基礎設施是否便於人類工程師操作？
- 考量： 考慮伺服器的重量（是否需要升降機具）、接口位置（是否在冷通道）以及組件的易更換性。

結語

構建一個好的 AI 集群不僅僅是購買最新的 GPU。它是一場關於「平衡」的藝術——在風冷與液冷之間、在計算密度與部署速度之間、在極致性能與運維難度之間找到最佳落點。正如 Lambda 的案例所示，成功的關鍵在於整合頂級的硬體（Supermicro/NVIDIA）、高效的軟體定義存儲（VAST）以及精心設計的數據中心設施（Cool Logix）。

參考資料

https://www.youtube.com/watch?v=N5AJJ0tAoxc