10萬卡H100——世界最大的人工智能訓練集群啟動

mrjiangkai 2024-08-04

展開全文

科技巨頭埃隆·馬斯克在 Twitter/X 上宣稱，他已經啟動了“世界上最強大的人工智能訓練集群”，他將利用該集群打造自稱“今年 12 月前，按各指標衡量，世界上最強大的人工智能”。今天，xAI 的孟菲斯超級集群開始使用 100,000 個液冷 Nvidia H100 GPU 進行人工智能訓練，這些 GPU 通過單個 RDMA（遠程直接內存訪問）結構連接。

超微Supermicro提供了大部分硬件，該公司首席執行官梁見后 (Charles Liang) 也在馬斯克的帖子下發表評論，稱贊該團隊的執行力。

在后續推文中，馬斯克解釋說，新的超級集群將“訓練世界上所有指標中最強大的人工智能”。從之前的意向聲明中，我們假設 xAI 的 100,000 個 H100 GPU 安裝的功能現在將用于 Grok 3 訓練。馬斯克表示，改進后的 LLM 應該“在今年 12 月”完成訓練階段。

此前，全球知名半導體行業研究咨詢機構SemiAnalysis，曾經分析過10萬個 H100 集群的復雜性，包括電源、網絡拓撲、以太網與 InfiniBand、可靠性、故障、Checkpointing。

（10萬個H100）的集群僅服務器資本支出就超過 40 億美元，但它們也受到數據中心容量和功率不足的嚴重限制，因為 GPU 通常需要共置才能實現高速芯片到芯片聯網。一個 100,000 個 GPU 集群將需要 >150MW 的數據中心容量……

10萬 H100 集群所需的關鍵 IT 功率約為 150MW。雖然 GPU 本身只有 700W，但在每個 H100 服務器中，CPU、網絡接口卡 (NIC)、電源單元 (PSU) 為每個 GPU 額外占用約 575W。除了 H100 服務器之外，AI 集群還需要存儲服務器、網絡交換機、CPU 節點、光收發器和許多其他項目的集合，這些項目加起來占 IT 功率的另外約 10%。考慮到約 150MW 的功率，最大的國家實驗室超級計算 El Capitan僅需要 30MW 的關鍵 IT 功率。與工業相比，政府超級計算機相形見絀。