科技巨頭埃隆·馬斯克在 Twitter/X 上宣稱,他已經啟動了“世界上最強大的人工智能訓練集群”,他將利用該集群打造自稱“今年 12 月前,按各指標衡量,世界上最強大的人工智能”。今天,xAI 的孟菲斯超級集群開始使用 100,000 個液冷 Nvidia H100 GPU 進行人工智能訓練,這些 GPU 通過單個 RDMA(遠程直接內存訪問)結構連接。 超微Supermicro提供了大部分硬件,該公司首席執行官梁見后 (Charles Liang) 也在馬斯克的帖子下發表評論,稱贊該團隊的執行力。 在后續推文中,馬斯克解釋說,新的超級集群將“訓練世界上所有指標中最強大的人工智能”。從之前的意向聲明中,我們假設 xAI 的 100,000 個 H100 GPU 安裝的功能現在將用于 Grok 3 訓練。馬斯克表示,改進后的 LLM 應該“在今年 12 月”完成訓練階段。 此前,全球知名半導體行業研究咨詢機構SemiAnalysis,曾經分析過10萬個 H100 集群的復雜性,包括電源、網絡拓撲、以太網與 InfiniBand、可靠性、故障、Checkpointing。 (10萬個H100)的集群僅服務器資本支出就超過 40 億美元,但它們也受到數據中心容量和功率不足的嚴重限制,因為 GPU 通常需要共置才能實現高速芯片到芯片聯網。一個 100,000 個 GPU 集群將需要 >150MW 的數據中心容量……
|
|
來自: mrjiangkai > 《我的圖書館》