我花了30分鐘，搭好一個本地能跑起來的大模型，飛機(jī)上都能用。

創(chuàng)業(yè)情報局 2025-01-21

展開全文

本文除了介紹安裝大模型 phi-4 和千問 2.5以外，還會詳細(xì)介紹大模型本地部署的一些概念，適合感興趣的朋友閱讀，，完整閱讀預(yù)計 10分鐘。

如果你只想看安裝部分，可以跳著看哦~

我現(xiàn)在的生活已經(jīng)離不開 AI 了，他幫我度過了許多工作中的卡殼時刻。

不過我經(jīng)常遇到：

在飛機(jī)上趕方案，正好卡住，想找 AI 幫忙，但是許多航班并沒有網(wǎng)絡(luò)服務(wù)。

需要處理公司內(nèi)部事務(wù)，需要 AI 幫忙分析，但是...不敢把內(nèi)容傳到其他平臺。

急需一個本地能跑的大模型，如果能聯(lián)網(wǎng)搜索，就更好了。

看完本文，你就能收獲一個能聯(lián)網(wǎng)搜索的本地 AI 對話軟件。

本地大模型的優(yōu)勢：

?? 完全免費(fèi)：不用每月支付 ChatGPT Plus 的訂閱費(fèi)

?? 速度飛快：本地運(yùn)行，不用等待網(wǎng)絡(luò)延遲（快慢取決于你的電腦配置）

?? 隱私安全：所有對話都在你自己電腦上完成，數(shù)據(jù)安全有保障

?? 完全控制：可以自由選擇和調(diào)整模型

? 永不掉線：不需要聯(lián)網(wǎng)也能用，在飛機(jī)上、火車上沒有網(wǎng)絡(luò)也能隨時可用

簡單來說，100% 本地運(yùn)行，100% 安全，100% 免費(fèi)。

而整個過程只需要 35 分鐘，并且不需要任何編程基礎(chǔ)。

?? 安裝 Ollama：10分鐘

?? 下載模型：15分鐘（取決于網(wǎng)速）

?? 安裝瀏覽器插件：5分鐘

?? 設(shè)置和測試：5分鐘

Ps. 如果部署出錯，可以在后臺留言，我盡可能幫你解決。

開始之前

需要檢查電腦配置

/ 01

懶得看的可以直接跳到二節(jié)。

什么樣的配置能跑本地模型？

簡單理解，大部分能運(yùn)行吃雞的游戲都能安裝大模型。

大模型的運(yùn)行主要看顯存，硬件配置上，最基礎(chǔ)的配置需要至少8GB顯存或統(tǒng)一內(nèi)存，不過這種配置只能跑4bit量化（先不用管量化的概念）的7B小模型，效果和性能都比較一般。

如果想要日常使用，建議配置16GB顯存，這樣可以跑INT8量化的13B模型，或者完整加載7B模型，使用體驗(yàn)會好很多。

比較理想的配置是24GB顯存，可以完整加載13B模型，量化后甚至可以跑更大的模型。

如果是專業(yè)開發(fā)，最好是 32GB及以上的顯存，這樣就能玩轉(zhuǎn)更多大模型，也有更好的擴(kuò)展性。

說到實(shí)際使用體驗(yàn)，消費(fèi)級顯卡大概需要2-4秒才能給出回復(fù)，專業(yè)顯卡可以做到1-2秒，如果用CPU推理可能要等5-10秒。

另外，本地大模型運(yùn)行時，最好預(yù)留30%的顯存給系統(tǒng)開銷，特別是長對話可能會逐漸累積顯存占用。

檢查我的配置

Windows用戶：

按下 Win + X，選擇'系統(tǒng)'，在系統(tǒng)頁面可以查看內(nèi)存大小。

按下 Win + X，選擇'設(shè)備管理器'，在設(shè)備管理器中可以查看顯卡型號。

如果“顯示適配器”顯示 Inten(R) HD Graphics xxxx ，意味著你的設(shè)備是集顯，雖然說不完全不能裝，但可能性能會比較糟糕。

Mac用戶：

點(diǎn)擊左上角蘋果圖標(biāo)，選擇'關(guān)于本機(jī)'，可以看到內(nèi)存大小和芯片型號。

基礎(chǔ)配置要求

Windows電腦配置要求：

?? 內(nèi)存：最少 8GB，建議 16GB

?? 顯卡：需要 NVIDIA 顯卡，顯存至少 4GB（比如 GTX 1060 或更好的）

?? CPU：2014 年后的CPU一般都可以

?? 硬盤：至少要有 20GB 的空閑空間

推薦配置：

入門級可以選 RTX 3060 12GB，

主流配置是 RTX 4080 16GB，

高端就是 RTX 4090 24GB（也可以等 5090…）。

Mac電腦配置要求：

Intel Mac：

?? 內(nèi)存：最少 8GB，建議 16GB

M系列 Mac（M4/M3/M2/M1）：

?? 統(tǒng)一內(nèi)存：最少 8GB，建議 16GB 或以上

? 性能提示：統(tǒng)一內(nèi)存越大，運(yùn)行越流暢

推薦配置：

M1 Pro 及以上的機(jī)型（16GB以上統(tǒng)一內(nèi)存）都可以嘗試。

推薦 M4 Pro 以上機(jī)型，性價比最高。

開始安裝 Ollama

/ 02

Ollama 是本地跑開源大模型最好的軟件之一，不管是 windows 還是Mac，都能通過它跑各類模型。

瀏覽器打開 ollama.com ，點(diǎn)擊下載按鈕，選擇對應(yīng)的操作系統(tǒng)可以了。

安裝Ollama的流程及其簡單，直接無腦下一步即可。

接下來運(yùn)行控制臺。Windows 按下 Win + R ，輸入cmd。

蘋果用戶找到 “終端” ，啟動。

輸入

ollama -v

看到下面的信息就表示安裝成功了。

ollama version is 0.5.4

如果沒有安裝成功，請重新安裝試試，或者后臺留言。

挑選合適的模型

/ 03

已經(jīng)安裝好了 Ollama 之后，接下來就是選擇合適的模型。

推薦模型

如果你平時使用英文環(huán)境，推薦：

phi-4llama 3.2mixtralgemma2

如果你平時使用中文環(huán)境，推薦：

qwen2.5glm4

如果你想要使用大模型寫代碼，推薦：

qwen2.5-coder

接下來，就是挑選合適的模型尺寸。

模型尺寸可以在 ollama.com/search 上查看

下面藍(lán)色的標(biāo)簽含義是：模型支持的尺寸，比如千問（qwen2.5）模型就有 0.5b - 72b 等多種尺寸可選。

進(jìn)入模型介紹頁面后，還可以點(diǎn) Tags 查看模型的所有尺寸。

Ollama 的模型命名相對規(guī)則，遵循下面規(guī)則。

大模型的尺寸有哪些？

從小到大來說，目前主流的大模型尺寸大概：

· 1B左右的小模型能做一些基礎(chǔ)的對話和補(bǔ)全：比如 llama3.2 就只有 1B。

· 7B是目前最受歡迎的尺寸，速度快而且可以應(yīng)付大部分對話與思考場景。像 Llama3.1-8B、Mistral-7B都是這個大小，在家用顯卡上就能跑，而且效果已經(jīng)相當(dāng)不錯。

· 13B算是性能和資源消耗的平衡點(diǎn)，比如 Qwen2.5-14B。這個尺寸的模型能力明顯比7B強(qiáng)，但對硬件要求也更高。

· 30B-35B是專業(yè)級需求性價比最高的尺寸，這個檔位的開源大模型不太多，一些不錯的比如Yi-34B 或 Qwen2.5-32B。

· 70B現(xiàn)在是開源大模型的天花板級別，像Llama2-70B、Qwen2.5-72B 就是這個量級。不過一般人在本地很難跑起來，得多個顯卡才行，主要是研究機(jī)構(gòu)和大廠在用。

· 更大的模型比如GPT-4，參數(shù)量可能上千億，具體多大外界也不太清楚（據(jù)說 4o-mini 只有 8b，但沒有官方證實(shí)），但這種級別的模型需要大量算力和優(yōu)化技術(shù)支持，一般都是通過API調(diào)用。

為了便于分辨顯存和大模型之間的關(guān)系，我簡單列了一個關(guān)系表。

如果覺得模糊，后臺回復(fù)“顯卡”下載原版高清版本。

顯卡可運(yùn)行大模型關(guān)系表：

什么是大模型量化？

什么是量化？

量化就是把AI模型中的數(shù)字變得更'簡單'。原本模型里的數(shù)字精確到小數(shù)點(diǎn)后很多位，量化后用更簡單的數(shù)字代替，這樣可以讓模型變得更小，運(yùn)行更快。

核心概念：

用更省空間的方式表示數(shù)字。比如：

原始數(shù)字：3.14159265359 → 量化后：3.14
原始數(shù)字：9.99999999999 → 量化后：10

通俗的例子，就像微信發(fā)照片：

原圖：超清晰，但文件很大
壓縮圖：稍微模糊一點(diǎn)，但文件小很多
實(shí)際聊天時，壓縮圖也夠用

為什么要量化？

沒有量化的問題：

模型太大，家用電腦帶不動
運(yùn)行太慢，響應(yīng)不及時
需要很貴的顯卡

量化后的好處：

體積變小，普通電腦也能用
運(yùn)行變快，響應(yīng)更及時
便宜的顯卡也能跑

或者安裝下面的模型？

了解基本概念過后，我們就可以更好地挑選合適自己的大模型了。

我們可以點(diǎn)擊開始按鈕，輸入 cmd 之后回車，打開命令控制臺。

Ollama 的安裝指令是：

ollama run 模型名稱

推薦你使用：

ollama run qwen2.5:3b

ollama run qwen2.5:7b

ollama run qwen2.5:14b

ollama run phi4

ollama run glm4

輸入指令之后，如果你已經(jīng)下載好了模型，就會直接進(jìn)進(jìn)入對話，如果沒有，就會進(jìn)入下載流程。

當(dāng)你看到這個界面的時候，恭喜你，你已經(jīng)完成了大模型的本地部署。

但丑丑的控制臺體驗(yàn)不好，我們要想辦法搞一個好看的界面。

下載一個好用的瀏覽器插件

/ 04

這里推薦一個開源的聊天界面：page-assist

這是一個體驗(yàn)極佳的開源插件，整體交互體驗(yàn)類似ChatGPT。

首先，先訪問 github ，安裝或者下載瀏覽器插件。

https://github.com/n4ze3m/page-assist

如果你能訪問谷歌，就點(diǎn)擊右側(cè)的鏈接直接安裝；

如果你不能訪問谷歌，就點(diǎn)擊右下角的 Release ，下載官方安裝包。

下載完成之后，找到一個合適的地方，解壓縮。

推薦保存到 D盤的 Program Files 文件夾下面。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：創(chuàng)業(yè)情報局 > 《AI電商》

舉報/認(rèn)領(lǐng)