GPT-5出世，需5萬張H100！全球H100總需求43萬張，英偉達GPU陷短缺風暴

靜思之 2023-08-06 發布于上海

展開全文

新智元報道

編輯：桃子潤

【新智元導讀】GPT-5的訓練，需要5萬張H100加持。英偉達GPU已成為各大AI公司開發大模型的首選利器。然而，Sam Altaman自曝GPU很缺，竟不希望太多人用ChatGPT。

「誰將獲得多少H100，何時獲得H100，都是硅谷中最熱門的話題?！?br>

OpenAI聯合創始人兼職科學家Andrej Karpathy近日發文，闡述了自己對英偉達GPU短缺的看法。

近來，社區廣為流傳的一張圖「我們需要多少張GPU」，引發了眾多網友的討論。

根據圖中內容所示：

- GPT-4可能在大約10000-25000張A100上進行了訓練

- Meta大約21000 A100

- Tesla大約7000 A100

- Stability AI大約5000 A100

- Falcon-40B在384個A100上進行了訓練

– Inflection使用了3500和H100，來訓練與GPT-3.5能力相當的模型

另外，根據馬斯克的說法，GPT-5可能需要30000-50000個H100。

此前，摩根士丹利曾表示GPT-5使用25000個GPU，自2月以來已經開始訓練，不過Sam Altman之后澄清了GPT-5尚未進行訓。

不過，Altman此前表示，

我們的GPU非常短缺，使用我們產品的人越少越好。
如果人們用的越少，我們會很開心，因為我們沒有足夠的GPU。

在這篇名為「Nvidia H100 GPU：供需」文章中，深度剖析了當前科技公司們對GPU的使用情況和需求。

文章推測，小型和大型云提供商的大規模H100集群容量即將耗盡，H100的需求趨勢至少會持續到2024年底。

那么，GPU需求真的是遇到了瓶頸嗎？

各大公司GPU需求：約43萬張H100

當前，生成式AI爆發仍舊沒有放緩，對算力提出了更高的要求。

一些初創公司都在使用英偉達昂貴、且性能極高的H100來訓練模型。

馬斯克說，GPU在這一點上，比藥物更難獲得。

Sam Altman說，OpenAI受到GPU的限制，這推遲了他們的短期計劃（微調、專用容量、32k上下文窗口、多模態）。

Karpathy 發表此番言論之際，大型科技公司的年度報告，甚至都在討論與GPU訪問相關的問題。

上周，微軟發布了年度報告，并向投資者強調，GPU是其云業務快速增長的「關鍵原材料」。如果無法獲得所需的基礎設施，可能會出現數據中心中斷的風險因素。

這篇文章據稱是由HK發帖的作者所寫。

他猜測，OpenAI可能需要50000個H100，而Inflection需要22,000個，Meta可能需要 25k，而大型云服務商可能需要30k（比如Azure、Google Cloud、AWS、Oracle）。

Lambda和CoreWeave以及其他私有云可能總共需要100k。他寫道，Anthropic、Helsing、Mistral和Character 可能各需要10k。

作者表示，這些完全是粗略估計和猜測，其中有些是重復計算云和從云租用設備的最終客戶。

整體算來，全球公司需要約432000張H100。按每個H100約35k美元來計算，GPU總需求耗資150億美元。

這其中還不包括國內，大量需要像H800的互聯網公司。

還有一些知名的金融公司，比如Jane Street、JP Morgan、Two Sigma等，每家都在進行部署，從數百張A/H100開始，擴展到數千張A/H100。

包括OpenAI、Anthropic、DeepMind、谷歌，以及X.ai在內的所有大型實驗室都在進行大型語言模型的訓練，而英偉達的H100是無可替代的。

H100為什么成首選？

H100比A100更受歡迎，成為首選，部分原因是緩存延遲更低和FP8計算。

因為它的效率高達3倍，但成本只有（1.5-2倍）?？紤]到整體系統成本，H100的性能要高得多。

從技術細節來說，比起A100，H100在16位推理速度大約快3.5倍，16位訓練速度大約快2.3倍。

A100 vs H100速度

H100訓練MoE

H100大規模加速

大多數公司購買H100，并將其用于訓練和推理，而A100主要用于推理。

但是，由于成本、容量、使用新硬件和設置新硬件的風險，以及現有的軟件已經針對A100進行了優化，有些公司會猶豫是否要切換。

GPU 并不短缺，而是供應鏈問題

英偉達的一位高管表示，問題不在于 GPU 短缺，而在于這些 GPU 如何進入市場。

英偉達正在正在開足馬力生產GPU，但是這位高管稱，GPU的產能最主要受到的是供應鏈的限制。

芯片本身可能產能充足，但是其他的組件的產能不足會嚴重限制GPU的產能。

這些組件的生產要依賴整個世界范圍內的其他供應商。

不過需求是可以預測的，所以現在問題正在逐漸得到解決。

GPU芯片的產能情況

首先，英偉達只與臺積電合作生產H100。英偉達所有的5nmGPU都只與臺積電合作。

未來可能會與英特爾和三星合作，但是短期內不可能，這就使得H100的生產受到了限制。

根據爆料者稱，臺積電有4個生產節點為5nm芯片提供產能：N5，N5P，N4，N5P

而H100只在N5或者是N5P的中的4N節點上生產，是一個5nm的增強型節點。

而英偉達需要和蘋果，高通和AMD共享這個節點的產能。

而臺積電晶圓廠需要提前12個月就對各個客戶的產能搭配做出規劃。

如果之前英偉達和臺積電低估了H100的需求，那么現在產能就會受到限制。

而爆料者稱，H100到從生產到出廠大約需要半年的時間。

而且爆料者還援引某位退休的半導體行業專業人士的說法，晶圓廠并不是臺積電的生產瓶頸，CoWoS（3D堆疊）封裝才是臺積電的產能大門。

H100內存產能

而對于H100上的另一個重要組件，H100內存，也可能存在產能不足的問題。

與GPU以一種特殊方式集成的HBM（High Bandwidth Memory）是保障GPU性能的關鍵組件。

爆料者援引一位業內人士的說法:

主要的問題是 HBM。制造它是一場噩夢。由于 HBM 很難生產，供應也非常有限。生產和設計都必須按照它的節奏來。

HBM3內存，英偉達幾乎都是采用SK Hynix的產品，可能會有一部分三星的產品，應該沒有鎂光的產品。

英偉達希望SK Hynix能提高產能，他們也在這么做。但是三星和鎂光的產能都很有限。

而且制造GPU還會用到包括稀土元素在內的許多其他材料和工藝，也會成為限制GPU產能的可能因素。

GPU芯片未來的情況會怎么發展

英偉達的說法

英偉達只是透露，下半年他們能夠供應更多的GPU，但是沒有提供任何定量的信息。

我們今天正在處理本季度的供應，但我們也為下半年采購了大量供應。
我們相信下半年的供應量將大大高于上半年。
– 英偉達首席財務官 Colette Kress 在2023年2月至4月的財報電話會議上透露

接下來會發生什么？

GPU的供應問題現在是一個惡性循環，稀缺性導致GPU擁有量被視為護城河，從而導致更多的GPU被囤積起來，從而加劇稀缺性。
– 某私有云負責人透露

H100的下一代產品何時會出現？

根據英偉達之前的線路圖，H100的下一代產品要在2024年末到2025年初才會宣布。

在那個時間點之前，H100都會是英偉達的旗艦產品。

不過英偉達在此期間內會推出120GB水冷版的H100。

而根據爆料者采訪到的業內人士稱，到2023年底的H100都已經賣完了??！

如何獲得H100的算力？

就像前邊英偉達的高管提到的，H100的GPU所提供的算力，最終要通過各個云計算提供商整合到產業鏈中去，所以H100的短缺，一方面是GPU生成造成的。

另一個方面，是算力云提供商怎么能有效地從英偉達獲得H100，并通過提供云算力最終觸及需要的客戶。

這個過程簡單來說是：

算力云提供商向OEM采購H100芯片，再搭建算力云服務出售給各個AI企業，使得最終的用戶能夠獲得H100的算力。

而這個過程中同樣存在各種因素，造成了目前H100算力的短缺，而爆料的文章也提供了很多行業內部的信息供大家參考。

H100的板卡找誰買？

戴爾，聯想，HPE，Supermicro和廣達等OEM商家都會銷售H100和HGX H100。

像CoreWeave和Lambda這樣的GPU云提供商從OEM廠家處購買，然后租給初創公司。

超大規模的企業（Azure、GCP、AWS、Oracle）會更直接與英偉達合作，但也會向OEM處購買。這和游戲玩家買顯卡的渠道似乎也差不多。但即使是購買DGX，用戶也需要通過OEM購買，不能直接向英偉達下訂單。

交貨時間

8-GPU HGX 服務器的交付時間很糟糕，4-GPU HGX 服務器的交付時間就還好。

但是每個客戶都想要 8-GPU 服務器！

初創公司是否從原始設備制造商和經銷商處購買產品？

初創公司如果要獲得H100的算力，最終不是自己買了H100插到自己的GPU集群中去。

他們通常會向Oracle等大型云租用算力，或者向Lambda和CoreWeave等私有云租用，或者向與OEM和數據中心合作的提供商（例如 FluidStack）租用。

如果想要自己構建數據中心，需要考慮的是構建數據中心的時間、是否有硬件方面的人員和經驗以及資本支出是否能夠承擔。

租用和托管服務器已經變得更加容易了。如果用戶想建立自己的數據中心，必須布置一條暗光纖線路才能連接到互聯網 - 每公里 1 萬美元。大部分基礎設施已經在互聯網繁榮時期建成并支付了費用。租就行了，很便宜。
– 某私有云負責人

從租賃到自建云服務的順序大概是：按需租云服務（純租賃云服務）、預定云服務、托管云服務（購買服務器，與提供商合作托管和管理服務器）、自托管（自己購買和托管服務器））。

大部分需要H100算力的初創公司都會選擇預定云服務或者是托管云服務。

大型云計算平臺之間的比較

而對于很多初創公司而言，大型云計算公司提供的云服務，才是他們獲得H100的最終來源。

云平臺的選擇也最終決定了他們能否獲得穩定的H100算力。

總體的觀點是：Oracle 不如三大云可靠。但是Oracle會提供更多的技術支持幫助。

其他幾家大型云計算公司的主要差異在于：

網絡：盡管大多數尋求大型 A100/H100 集群的初創公司都在尋求InfiniBand，AWS 和 Google Cloud 采用InfiniBand的速度較慢，因為它們用了自己的方法來提供服務。

可用性：微軟Azure的H100大部分都是專供OpenAI的。谷歌獲取H100比較困難。

因為英偉達似乎傾向于為那些沒有計劃開發和他競爭的機器學習芯片的云提供更多的H100配額。（這都是猜測，不是確鑿的事實。）

而除了微軟外的三大云公司都在開發機器學習芯片，來自AWS和谷歌的英偉達替代產品已經上市了，占據了一部分市場份額。

就與英偉達的關系而言，可能是這樣的：Oracle和Azure>GCP和AWS。但這只是猜測。

較小的云算力提供商價格會更便宜，但在某些情況下，一些云計算提供商會用算力去換股權。

英偉達如何分配H100

英偉達會為每個客戶提供了H100的配額。

但如果Azure說“嘿，我們希望獲得10,000個H100，全部給Inflection使用”會與Azure說“嘿，我們希望獲得10,000個H100用于Azure云”得到不同的配額。

英偉達關心最終客戶是誰，因此如果英偉達如果對最終的使用客戶感興趣的話，云計算提供平臺就會得到更多的H100。

英偉達希望盡可能地了解最終客戶是誰，他們更喜歡擁有好品牌的客戶或擁有強大血統的初創公司。

是的，情況似乎是這樣。NVIDIA 喜歡保證新興人工智能公司（其中許多公司與他們有密切的關系）能夠使用 GPU。請參閱 Inflection——他們投資的一家人工智能公司——在他們也投資的 CoreWeave 上測試一個巨大的 H100 集群。
– 某私有云負責人

結束語

現在對于GPU的渴求既有泡沫和炒作的成分，但是也確實是客觀存在的。

OpenAI 等一些公司推出了ChatGPT等產品，這些產品收到了市場的追捧，但他們依然無法獲得足夠的GPU。

其他公司正在購買并且囤積GPU，以便將來能夠使用，或者用來訓練一些市場可能根本用不到的大語言模型。這就產生了GPU短缺的泡沫。

但無論你怎么看，英偉達就是堡壘里的綠色國王。

參考資料：

https://news./item?id=36951872

https://twitter.com/lpolovets/status/1686545776246390784

https:///ai/nvidia-gpu-shortage-is-top-gossip-of-silicon-valley/

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發布，不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息，謹防詐騙。如發現有害或侵權內容，請點擊一鍵舉報。

轉藏分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：靜思之 > 《科技》

舉報/認領

0條評論

發表

請遵守用戶評論公約

類似文章 更多

靜思之

關注對話

TA的最新館藏

財報背后的生意真相與投資陷阱：九個核心問題與深度回答
監事會退出后，審計委員會承接了哪些職權？
財報背后的生意真相與投資陷阱：九個核心問題與深度回答
“八問”九號的商業邏輯，找到自己優勢的生態位，九號的過去與未來
提前和你劇透一下，接下去的具體形勢
電動兩輪車是個好生意嗎？九號、雅迪、愛瑪9年財務數據對比

喜歡該文的人也喜歡更多

熱門閱讀換一換

GPT-5出世，需5萬張H100！全球H100總需求43萬張， 英偉達GPU陷短缺風暴

新智元報道

【新智元導讀】GPT-5的訓練，需要5萬張H100加持。英偉達GPU已成為各大AI公司開發大模型的首選利器。然而，Sam Altaman自曝GPU很缺，竟不希望太多人用ChatGPT。

GPT-5出世，需5萬張H100！全球H100總需求43萬張，英偉達GPU陷短缺風暴

【新智元導讀】GPT-5的訓練，需要5萬張H100加持。英偉達GPU已成為各大AI公司開發大模型的首選利器。然而，Sam Altaman自曝GPU很缺，竟不希望太多人用ChatGPT。