• <tfoot id="ukgsw"><input id="ukgsw"></input></tfoot>
    
    • 久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
      分享

      訓練大模型有多燒錢?(含常用GPU規格比較)

       yi321yi 2024-04-21 發布于上海

      本文整理自網絡blog

      圖片

      這位博主還幾篇關于大模型的文章非常不錯,小編我就一起整理成一篇文章。

      圖片
      訓練大模型有多燒錢?

      要理解大型語言模型(LLM)的運行,首先需要了解其所需的硬件配置。除了GPU之外,顯卡內存也是至關重要的。以Meta公司發布的LLaMA 2模型為例,其包括70B、13B、7B等不同參數規模的模型,而這些模型需要的GPU內存也各不相同。比如,要運行完整的70B模型,需要320GB的GPU內存;而對于13B模型,則需要50GB的GPU內存,7B模型則需要30GB的GPU內存。

      然而,通過量化技術,可以在一定程度上犧牲模型的精確度,以減少內存的使用量。這意味著,即使你可能會犧牲一些模型的準確性,但你可以將內存使用量減半,甚至降低到原來的1/4或1/8。因此,如果你可以接受與性能稍遜的機器人對話,那么即使沒有獨立顯卡,僅僅使用CPU也能夠運行LLaMA 2。

      Meta公司開源的LLM項目(LLaMA 2)具有許多優點,其中一個重要的優點是你可以重新訓練或微調模型,使其符合你的需求。這為應用場景帶來了無限的可能性。

      然而,值得注意的是,訓練和微調LLM是非常昂貴的。以前提到的OpenAI模型微調的成本為每小時34至103美元。那么,如果你想要微調LLaMA 2模型,如何預估成本呢?

      根據LLaMA公開的信息,7B版本的訓練時間為184,320小時,而70B版本則需要1,720,320小時。假設每小時一張A100 GPU運行,那么僅使用一張A100 GPU運行7B模型將需要21年的時間!當然,Meta公司使用了大量的A100 GPU來進行訓練,7B模型花費了27.6萬美元,而70B模型則花費了170萬美元。

      A100和RTX4090算力相差不大,但是顯存大小和傳輸頻寬就很重要:

      圖片

      在 PyTorch 訓練測試中,A100 Throughput 是 4090 的 1.4 倍,H100 是 4090 的 1.6 到 2.5 倍:

      圖片

      至于訓練算力估算可以用 6 * 模型參數量 * 訓練數據 Token 數 (Flops) 預估。以Google 的Colab 平臺為例,Colab Pro 會員每月10.49 USD 每月有100 個運算單元,Pro+ 會員52.49 USD 則為500 個運算單元方案說明,A100 每GPU 小時消耗 約13 個運算單元,換算一個GPU 小時約1.36 USD。

      在Meta公司的LLaMA-2-7B-Chat項目中,他們使用了27,540條高質量的監督微調示例,即Supervised Fine-Tuning(SFT),以有效提升模型的品質。這些示例有助于模型更好地理解并準確回答問題。

      臺灣LLaMA是基于LLaMA 2的全參數微調模型,旨在增強繁體中文處理能力。它包括兩個主要階段:

      1. 預訓練(Pretraining)階段:使用8塊A100 GPU進行兩周的學習,使LLaMA 2模型學會了中文語言的基本特征和語法。

      2. 指導微調(Instruction Finetuning)階段:使用8塊H100 GPU進行12小時的微調。此過程通過指導模型學習Stanford-Alpaca提供的179個問題和174種不同類型的高質量多樣性數據集,以顯著提升模型的表現。這些數據集的特點是提供了逐步指導、詳細解釋和額外知識,僅使用1000條指導性微調數據就能明顯改善模型性能。

      此外,模型還通過自我指導(Self-Instruct)方式進行了訓練。Stanford Alpaca項目從ChatGPT中獲取了52,000條數據,并利用4塊A100 GPU在一天內完成了7B LLaMA的訓練,使其達到了類似于text-davinci-003模型的水平。

      在成本方面,使用ChatGPT API的費用為500美元。而使用A100 GPU的成本則按每小時1美元計算,使用4塊A100 GPU進行24小時訓練的成本約為100美元。

      有了以上信息,我們對于訓練與微調的成本大概有了些了解。訓練確實是一項耗資巨大的活動,通常需要反復嘗試、不斷優化,永無止境。盡管LoRA微調可以用較少的資源取得不錯的效果,甚至有可能用4090型號的顯卡就能實現,但購買裝備和資源仍然會造成一定的經濟負擔。哎~

      圖片
      常用AI計算GPU卡規格比較

      對于大型語言模型(LLM),目前ChatGPT仍然處于領先地位。但要開發相關應用,LLM模型的訓練和執行成本都相當高昂。因此,通過整合OpenAI或Azure的API可能是一種成本效益較高的做法。

      然而,有些情況下不允許數據上傳到云端,或者必須重新訓練或微調以滿足需求,那么就需要考慮采用LLaMA、Mistral、Gemma等開源模型,并在本地端執行。

      在運行LLM模型時,CPU/RAM/SSD的級別次要,最關鍵的是GPU。目前,H100/A100有錢也買不到。然后是工作站級別的GPU,如RTX-6000/5000/4500/4000/4000 SFF等,RTX-6000有48GB內存,不需要量化就可以直接運行13B大小的模型。再次下來是普通玩家勉強買得起的消費級顯卡4090,價格為1萬6-1萬9人民幣。如果一張不夠,想要體驗團結就是力量,可以考慮購買工作站級別的高端主機,可以插入四張雙寬度顯卡。

      總之,要發揮本地端LLM的威力,仍然需要一定的經濟實力。對于運行7B或13B的LLaMA 2模型,不同級別的GPU性能差異如何?花錢裝兩張GPU會增加性能嗎?這篇文章算是對這些問題的初步探討,僅供參考。

      先看不同型號單一 GPU 跑 LLM 的效能數字:

      圖片

      表格有附不同 GPU 跑 llama2-7b-chat 及 llama2-13b-chat 模型的效能數字,單位為 Tokens/s。CPU 只能用慘烈形容,不到 2。4090 跑 7B 模型數字挺漂亮,甚至贏過 A100。有趣的是 8 bit 量化版的數很難看,4 bit 量化版也輸給 16 bit,關于這點網路上討論不少,我的理解這是用動態量化節省記憶體的代價。參考:2-3x slower is to be expected with load_in_4bit (vs 16-bit weights), on any model -- that's the current price of performing dynamic quantization。

      既然花了時間查找了這些信息,就順便分享給有興趣的同學參考。接下來一個問題是,如果口袋夠深,購買了可插多卡的工作站,多插幾張GPU來運行推理模型是否會更快一些?我找到了一篇關于3090運行LLaMA 2 7B的測試數據(LLM Inference on multiple GPUs with ?? Accelerate),

      圖片

      圖表上方為單純推理,下方為批次模式執行。插入五張3090時,可以明顯看到隨著GPU數量增加,GPU間通信成本會抵消增加的算力,結果不升反降。

      更多:

      選擇華碩龍芯主板的理由:從支持國產芯片到性價比考量

      探秘Nvidia開創性的DGX-GB200機架系統背后的創新

      浙江大學研究團隊如何在消費級GPU上實現對100B模型微調

      女科學家提出GaLore:為消費級GPU上高效訓練LLM鋪平道路

        本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發現有害或侵權內容,請點擊一鍵舉報。
        轉藏 分享 獻花(0

        0條評論

        發表

        請遵守用戶 評論公約

        類似文章

        主站蜘蛛池模板: 精品视频在线观看免费观看| 亚洲ΑV久久久噜噜噜噜噜| 久青草国产97香蕉在线视频| 精品亚洲欧美无人区乱码 | 亚洲人成影院在线观看| 国产办公室秘书无码精品99| 国产影片AV级毛片特别刺激| 日韩精品无码一区二区三区AV| 美女把尿囗扒开让男人添| 国产在线高清视频无码| 四虎国产精品永久入口| 色妞色综合久久夜夜| 国产精品中文字幕观看| 国产精品人人爽人人做我的可爱| 中文字幕结果国产精品| 成年美女黄网站色大片免费看| 亚洲国产精品日韩在线| 人妻大战黑人白浆狂泄| 亚洲日本欧洲二区精品| 久久亚洲中文字幕伊人久久大| 精品久久人人做爽综合| 亚洲AV鲁丝一区二区三区 | 国产亚洲精品AA片在线播放天| 精品久久香蕉国产线看观看亚洲| 国产黑色丝袜在线播放| 久久久综合香蕉尹人综合网| 国产成人精品午夜2022 | 国产香蕉一区二区三区在线视频| 公天天吃我奶躁我的在线观看| 午夜免费国产体验区免费的| 人妻中文字幕亚洲精品| 性做久久久久久久| 亚洲中文字幕无码爆乳APP| 漂亮人妻中文字幕丝袜| 女人被爽到高潮视频免费国产 | 99精品电影一区二区免费看| 天天影视网色香欲综合网| 国产日韩入口一区二区| 99久久99久久加热有精品| 老色鬼永久精品网站| 免费午夜无码片在线观看影院|