【原】純離線安裝大模型推理引擎，部署量化大模型

ml_Py 2025-08-25 發(fā)布于河南

展開全文

大家好，我是 Ai 學(xué)習(xí)的老章

繼續(xù)介紹大模型推理引擎+Llama.cpp，前文我寫了# 內(nèi)網(wǎng)部署 llama.cpp，運(yùn)行量化大模型，詳細(xì)介紹了 llama.cpp 這個(gè)推理引擎，內(nèi)網(wǎng)離線 cmake 編譯安裝、開啟 GPU 加速、Llama.cpp 的使用及核心參數(shù)深度解析等。

文中我也說(shuō)了：源碼編譯其實(shí)蠻看運(yùn)氣的，比如我生產(chǎn)環(huán)境的一臺(tái) RHEL 系統(tǒng)的服務(wù)器，yum 源很不給力，僅僅是升級(jí) GCC 都費(fèi)老大勁，各種依賴安裝到吐血。

本文我們用個(gè)更省事兒的內(nèi)網(wǎng)離線部署方式——Docker，然后用其部署量化大模型，其中踩坑若干，才有如此精煉、極簡(jiǎn)教程

1、聯(lián)網(wǎng)環(huán)境拉取 llama.cpp 鏡像并保存

選擇鏡像最好是官方，比如 llama.cpp 提供的有不同版本，不同用途的鏡像

我選擇的是 ghcr.io/ggml-org/llama.cpp:server-cuda

https://github.com/ggml-org/llama.cpp/blob/master/docs/docker.md

市面上有很多個(gè)人打包的鏡像，大多都是閹割版

費(fèi)老大勁搞進(jìn)去，發(fā)現(xiàn)大模型無(wú)法加載

當(dāng)然，你也可以自己構(gòu)建 docker

下載及保存鏡像命令：

# 下載核心服務(wù)鏡像（指定 linux/amd64 平臺(tái)）  

docker pull --platform linux/amd64 ghcr.io/ggml-org/llama.cpp:server-cuda

# 保存鏡像到tar文件  
docker save ghcr.io/ggml-org/llama.cpp > llama.cpp.tar

2、鏡像傳入內(nèi)網(wǎng)

不贅述，不同公司有不同工具可以在辦公網(wǎng)與生產(chǎn)內(nèi)網(wǎng)傳輸數(shù)據(jù)。

3、**在內(nèi)網(wǎng)服務(wù)器（x86）加載鏡像

# 加載鏡像,加載過(guò)程需要一些時(shí)間，完成后，Docker 會(huì)輸出加載的鏡像信息。
docker load i llama.cpp.tar

# 運(yùn)行 docker images 命令來(lái)查看本地鏡像列表，確認(rèn)llama.cpp已經(jīng)成功加載。

docker images

4、準(zhǔn)備模型文件

這個(gè)也需要辦公網(wǎng)下載好（我一般去 modelscope 下載）

pip install modelscope 之后，即可使用 modelscope download 下載模型

下載完整模型庫(kù)

modelscope download --model unsloth/gpt-oss-120b

下載單個(gè)文件到指定本地文件夾（以下載 README.md 到當(dāng)前路徑下“dir”目錄為例）

modelscope download --model unsloth/gpt-oss-120b README.md --local_dir ./dir

再傳入內(nèi)網(wǎng)：

llama.cpp 服務(wù)需要模型文件才能運(yùn)行，在你的 Linux 服務(wù)器上創(chuàng)建一個(gè)目錄，用來(lái)存放 GGUF 格式的模型文件。

5、啟動(dòng)大模型

docker run --rm --runtime nvidia -e TZAsia/Shanghai --gpus "device=2" -v /opt/data/ai/GGUF:/models --name oss-20b-server -p 8005:8000 ghcr.io/ggml-org/llama.cpp:server-cuda  -m /models/gpt-oss-20b-F16.gguf --port 8000 --host 0.0.0.0 -c4096 -n 1024 -ngl 999