微軟打造“小芯片云”架構，欲大幅降低LLM實現成本

mrjiangkai 2023-07-14 發布于江蘇

展開全文

如果英偉達和AMD正興奮地搓搓小手，打算趁著微軟在生成式AI領域大展拳腳的機會狠狠賣一波計算器材，把握OpenAI GPT大語言模型掀起的這波東風，那恐怕得好好再考慮一下了。雖然微軟要搞AI是真的，OpenAI想把GPT模型作為未來的軟件核心和服務也是真的，但想靠賣芯片賺到這筆收益卻絕非易事。

自生成式AI爆發之初，我們就一直堅持認為，如果推理階段對于硬件的需求量與訓練階段相同，那這項技術哪怕再美好也只能是空中樓閣。畢竟沒人能負擔得起那樣的成本，即使是財力雄厚的超大規模數據中心運營商和云服務商也做不到。

正因為如此，微軟決定與華盛頓大學的研究人員合作，共同開發出所謂“小芯片云”（Chiplet Cloud）的新方案。從理論上講，其在運行微軟GPT-3 175B和谷歌PaLM 540B模型的推理時，似乎擁有著能壓倒英偉達“Ampere”A100 GPU的性能（略遜于「Hopper」H100 GPU）和谷歌TPUv4加速器的表現。

這款Chiplet Cloud架構的相關論文由Shuaiwen Leon Song牽頭撰寫。Shuaiwen Leon Song是太平洋西北國家實驗室的高級科學家兼技術主管，還在悉尼大學與華盛頓大學參與未來系統架構研究。他于今年1月加入微軟，擔任高級首席科學家并參與管理Brainwave FPGA深度學習團隊，還針對PyTorch框架開展DeepSpeed深度學習優化（這兩個項目均隸屬于微軟研究院的AI at Scale專題）。

說這么多當然不是在閑扯，其中的重點是以上項目全都被GPT所擊敗，迫使微軟在Leon Song加入的同時向OpenAI投資了100億美元。截至目前，微軟已經向OpenAI注資達130億美元，其中大部分用于在微軟Azure云上訓練并運行GPT模型。

如果要用一句話來概括Chiplet Cloud架構，那就是：晶圓級、大規模并行、與Cerebras Systems類似的大量SRAM矩陣數學引擎，然后用一個個完美的裸晶將其拼合成統一的系統。或者更確切地講，不是用SRAM做晶圓級矩陣數學單元，而是制造出大量個體成本極低、而產量卻極高（因此有助于降低整體成本）的小單元，再用高速互連把它們對接起來。

這種方法類似于IBM的BlueGene系列大規模并行系統（例如安裝在勞倫斯利弗莫爾國家實驗室的BlueGene/Q）同IBM為橡樹嶺國家實驗室打造的偏重GPU的“Summit”超級計算機間的區別。BlueGene與日本RIKEN實驗室的“K”和“富岳”系統更相似，從長遠來看也有可能代表著正確的發展方向。最大的區別，在于我們需要針對AI訓練、HPC計算和AI推理再對處理器做不同調整。

最近幾周，我們一直在討論基于Transformer架構的生成式AI模型那恐怖的構建成本。Chiplet Cloud論文很好地闡述了亞馬遜云科技、Meta Platforms和谷歌為何一直在努力尋求自研芯片，從而顯著降低AI推理的實現成本。

華盛頓大學的Michael Taylor、Huwan Peng、Scott Davidson和Richard Shi等研究人員在文章中寫道，“通過GPU等商用硬件提供基于生成式Transformer大語言模型的辦法，如今已經在可擴展性方面遭遇到瓶頸。配合GPU，行業領先的GPT-3在每塊A100上的每秒token處理量為18個。再考慮到ChatGPT及其將大語言模型集成至各類現有技術（例如網絡搜索）當中的承諾，令人們不得不對大語言模型的可擴展性和盈利能力產生懷疑。例如，谷歌搜索每秒需要處理超過9.9萬條查詢，如果要把GPT-3嵌入到每條查詢當中，并假設每次查詢生成500個token，那么谷歌將需要34.075萬臺英偉達DGX服務器（共搭載272.6萬塊A100 GPU）才夠用。單是這些GPU的資本支出就將超過400億美元，且電力消耗也將十分巨大。假設能量利用率為50%，平均功率將超過1千兆瓦，足夠為75萬個普通家庭供電。”

GPU（不止是英偉達家的GPU，這里包括一切GPU）的問題在于，它們屬于通用計算設備，所以必須支持多種不同類型的計算以滿足全部用例。事實也的確如此，否則英偉達的GPU就該只配備Tensor Core處理器，而沒必要提供向量引擎。而且即使是谷歌TPU這類設備（本質上就是單純的Tensor Core張量處理器），其尺寸、復雜性以及HBM內存棧也大大拉高了交付成本。而至少根據微軟的比較，新的Chiplet Cloud在總體擁有成本（TCO）方面將遠遠優于英偉達A100 GPU：

注意：Chiplet Cloud論文中引用的A100資源價格來自Lambda GPU Cloud，而TPUv4的價格則來自Google Cloud。

以下圖表，為上圖中所選參考數據點的具體數據：

在擁有1750億參數的GPT-3模型上，與英偉達A100 GPU相比，Chiplet Cloud模擬設備將每1000個token的推理成本大幅降低了94.4倍，token的生成延遲更是降低了327.3倍。盡管H100的吞吐量比A100高出3.2倍（這里比較的是A100上的INT8吞吐量與H100上的FP8吞吐量），我們也很難想象這么夸張的延遲差異可以用速度更快的HBM3內存輕松彌合。而且即使這樣計算，H100的市場價格大約是A100當前價格的2倍，在性價比上還是無法與Chiplet Cloud相匹敵。相信H100將在上圖中位于A100的左下方位置，但距離不會太遠。

如果轉而使用配備HBM內存的Tensor Core矩陣數學引擎，那么性能肯定會相應提高，如上圖右側列出的TPUv4計算引擎部分。即使是在擁有5400億參數的超大規模PaLM模型而言，張量處理器帶來的提供依然顯著。而微軟給出的理論計算顯示，Chiplet Cloud在運行推理時每生成1000個token的成本仍可降低15.2倍，延遲降低19.5倍。

在這兩種情況下，微軟都成功優化了每token的生成成本，同時輔以更合理的延遲水平。很明顯，只要客戶愿意為推理再多支付一點成本，那么Chiplet Cloud架構也肯定能把延遲降得更低。

通過這張圖表，可以看到超大規模數據中心運營商和云服務商為什么熱衷于為AI推理負載打造原研ASIC，特別是在大語言模型在推理期間瘋狂吞噬計算和內存帶寬資源的背景之下：

AI工作負載的密度越大，ASIC相較于GPU所帶來的成本優勢也就越明顯。順帶一提，從圖表中還可以看到，微軟很清楚谷歌搜索的密度比Bing搜索高得多、而且成本也更低。（奈何Bard實在不給力。）GPU和定制ASIC之間的盈虧平衡點，約在每秒4.6萬個token的水平。如果按Lambda GPU Cloud上使用微軟自家DeepSpeed-Inference引擎來計算，這樣的性能對應每個GPU的成本為每小時1.10美元；而在Chiplet Cloud模擬加速器上運行DeepSpeed-Inference的情況則完全不同。

在設計Chiplet Cloud的過程中，微軟和華盛頓大學的研究人員還得出了以下幾條結論。

首先，芯片的生產成本在任何計算引擎的總體擁有成本中均占很大比例。

根據我們的估計，GPU占現代HPC/AI超級計算機總體算力的98%，成本則占比在75%左右。微軟估計，對于采用7納米工藝蝕刻的芯片，制造大語言模型推理加速器的成本約為3500萬美元，具體涉及CAD工具、IP許可、掩模、BGA封裝、服務器設計和人力成本。當然，對于400億美元的潛在投資總額來講，這點資金完全就是灑灑水、不必過多糾結。

也就是說如果想要降低成本，就絕不能使用顛覆性過強的計算引擎。微軟方面在論文中表示，臺積電7納米制程工藝的缺陷密度為每平方厘米0.1個，而750平方毫米芯片的單價則是150平方毫米芯片的2倍。

第二，推理既是個算力問題，也是個內存帶寬問題。

這里簡單解釋一下，假設我們使用較舊的GPT-2模型和同時代的英偉達“Volta”V100 GPU。大部分GPT-2內核的運算強度較低（需要的算力不強），而且內存帶寬也被HBM2限制在每秒900 GB。但即使是這樣，微軟也計算出至少需要每秒85000 GB的內存帶寬（幾乎提升了兩個數量級），才能驅動V100 GPU中112萬億次的算力來有效運行GPT-2模型。

有鑒于此，Chiplet Cloud的技術訣竅也許就來自Cerebras Systems、GraphCore和SambaNova Systems的經驗積累：獲取模型參數及其關鍵值的中間處理結果，回收這些結果以加快模型生成，并盡可能將其存儲在鄰近矩陣數學引擎的SRAM當中。在這方面，DRAM和HBM那邊的差距就很大了：

所以，在這里使用SRAM幾乎成了順理成章的選擇。

另一個重點在于，微軟需要一種方法來降低小芯片設計的封裝成本，同時盡可能減少會增加推理延遲、降低吞吐量的芯片間通信。微軟正想辦法把小芯片制作成獨立封裝，并在板上（而非插槽上）做集成，同時使用張量加管線并行映射策略來減少Chiplet Cloud各節點間的通信。每個小芯片都有充足的SRAM來保存所有計算單元的模型參數與KV緩存。這實際上就構成了一套大規模分布式緩存，其中各個小芯片都能在運行自己獨特推理負載時從中提取到所需數據。

經過種種工程權衡，微軟構想中的Chiplet Cloud架構基本如下所示：

這里沒有用到硅中間層或者有機基板，因為這樣會增加成本和復雜度，進而拉低封裝的良品率。長久以來，這一直是困擾GPU和GPU等大型、高精尖設備的核心難題。微軟的小芯片基板使用印刷電路將大量小芯片接入2D環面，微軟表示這樣的電路設計更加靈活，能夠適應設備的不同映射。（類似于Meta Platforms在自己的電路設計中，使用PCI-Express作為GPU加速器系統間的互連機制）。板上還設有FPGA控制器，每個小芯片都有一個以25 GB/秒速率運行的全雙工鏈路，通過ground reference signaling（GRS）鏈接實現80毫米的覆蓋范圍。微軟表示，也可以根據需要通過其他類型的互連實現各節點間的對接。

微軟還提到，不同模型對于小芯片的算力和內存容量也有不同要求，還包括是否要針對延遲或總體擁有成本進行優化。下面來看相關圖表：

首先可以明確一點，絕對不存在百試百靈的“銀彈”設計方案。最終芯片的通用度越高，則運行效率就越低。云服務商相對更需要通用設備，畢竟誰也說不準客戶到底要拿云端資源運行什么工作負載。當然，廠商也可以只針對專有軟件棧做配套服務，這時候就能瘋狂優化以提供最佳性價比，同時又保留一點未優化空間作為自己的業務利潤。

如果微軟針對PaLM 540B做優化，專門出售一批面向谷歌用例的Chiplet Cloud，那多是一件美事啊？到那個時候，不知道專為PaLM 540B定制的Chiplet Cloud會不會奪走Google Cloud手中的TPU客戶。

我們不確定微軟的這個Chiplet Cloud項目中有多少仍處于理論研究階段，有多少已經開始實踐落地甚至是運行測試了一段時間。不管實際情況如何，微軟肯定是在研究上花了不少的錢，如今也擁有了能夠對抗英偉達和AMD的談判籌碼。想創業的朋友也可以多多關注，沒準能利用這些專業知識克隆微軟的現有產品。谷歌的TPU就是這么來的，再加上風險投資對待AI相關業務還相對比較樂觀，各位何不把握機會、試上一試？