![]() 我現(xiàn)在的生活已經(jīng)離不開 AI 了,他幫我度過了許多工作中的卡殼時刻。不過我經(jīng)常遇到:在飛機(jī)上趕方案,正好卡住,想找 AI 幫忙,但是許多航班并沒有網(wǎng)絡(luò)服務(wù)。需要處理公司內(nèi)部事務(wù),需要 AI 幫忙分析,但是...不敢把內(nèi)容傳到其他平臺。急需一個本地能跑的大模型,如果能聯(lián)網(wǎng)搜索,就更好了。 看完本文,你就能收獲一個能聯(lián)網(wǎng)搜索的本地 AI 對話軟件。 ![]() 本地大模型的優(yōu)勢: ![]() ?? 完全免費(fèi):不用每月支付 ChatGPT Plus 的訂閱費(fèi) 簡單來說,100% 本地運(yùn)行,100% 安全,100% 免費(fèi)。而整個過程只需要 35 分鐘,并且不需要任何編程基礎(chǔ)。 開始之前 需要檢查電腦配置 / 01 01 什么樣的配置能跑本地模型? 大模型的運(yùn)行主要看顯存,硬件配置上,最基礎(chǔ)的配置需要至少8GB顯存或統(tǒng)一內(nèi)存,不過這種配置只能跑4bit量化(先不用管量化的概念)的7B小模型,效果和性能都比較一般。 如果想要日常使用,建議配置16GB顯存,這樣可以跑INT8量化的13B模型,或者完整加載7B模型,使用體驗(yàn)會好很多。 比較理想的配置是24GB顯存,可以完整加載13B模型,量化后甚至可以跑更大的模型。 如果是專業(yè)開發(fā),最好是 32GB及以上的顯存,這樣就能玩轉(zhuǎn)更多大模型,也有更好的擴(kuò)展性。 說到實(shí)際使用體驗(yàn),消費(fèi)級顯卡大概需要2-4秒才能給出回復(fù),專業(yè)顯卡可以做到1-2秒,如果用CPU推理可能要等5-10秒。 另外,本地大模型運(yùn)行時,最好預(yù)留30%的顯存給系統(tǒng)開銷,特別是長對話可能會逐漸累積顯存占用。 02 檢查我的配置 Windows用戶: Mac用戶: 03 基礎(chǔ)配置要求 M1 Pro 及以上的機(jī)型(16GB以上統(tǒng)一內(nèi)存)都可以嘗試。 推薦 M4 Pro 以上機(jī)型,性價比最高。 開始安裝 Ollama / 02 Ollama 是本地跑開源大模型最好的軟件之一,不管是 windows 還是Mac,都能通過它跑各類模型。瀏覽器打開 ollama.com ,點(diǎn)擊下載按鈕,選擇對應(yīng)的操作系統(tǒng)可以了。 ![]() ![]() ollama -v
挑選合適的模型 / 03 01 推薦模型 phi-4 llama 3.2 mixtral gemma2
qwen2.5-coder ![]() ![]() ![]() ![]() 02 大模型的尺寸有哪些? · 7B是目前最受歡迎的尺寸,速度快而且可以應(yīng)付大部分對話與思考場景。像 Llama3.1-8B、Mistral-7B都是這個大小,在家用顯卡上就能跑,而且效果已經(jīng)相當(dāng)不錯。 · 13B算是性能和資源消耗的平衡點(diǎn),比如 Qwen2.5-14B。這個尺寸的模型能力明顯比7B強(qiáng),但對硬件要求也更高。 · 30B-35B是專業(yè)級需求性價比最高的尺寸,這個檔位的開源大模型不太多,一些不錯的比如Yi-34B 或 Qwen2.5-32B。 · 70B現(xiàn)在是開源大模型的天花板級別,像Llama2-70B、Qwen2.5-72B 就是這個量級。不過一般人在本地很難跑起來,得多個顯卡才行,主要是研究機(jī)構(gòu)和大廠在用。 · 更大的模型比如GPT-4,參數(shù)量可能上千億,具體多大外界也不太清楚(據(jù)說 4o-mini 只有 8b,但沒有官方證實(shí)),但這種級別的模型需要大量算力和優(yōu)化技術(shù)支持,一般都是通過API調(diào)用。 ![]() 03 什么是大模型量化?
04 或者安裝下面的模型?
![]() ![]() 下載一個好用的瀏覽器插件 / 04 ![]() ![]() ![]() |
|