![]() 大家好,我是 Ai 學(xué)習(xí)的老章 繼續(xù)介紹大模型推理引擎+Llama.cpp,前文我寫了# 內(nèi)網(wǎng)部署 llama.cpp,運(yùn)行量化大模型,詳細(xì)介紹了 llama.cpp 這個(gè)推理引擎,內(nèi)網(wǎng)離線 cmake 編譯安裝、開啟 GPU 加速、Llama.cpp 的使用及核心參數(shù)深度解析等。 文中我也說(shuō)了:源碼編譯其實(shí)蠻看運(yùn)氣的,比如我生產(chǎn)環(huán)境的一臺(tái) RHEL 系統(tǒng)的服務(wù)器,yum 源很不給力,僅僅是升級(jí) GCC 都費(fèi)老大勁,各種依賴安裝到吐血。 本文我們用個(gè)更省事兒的內(nèi)網(wǎng)離線部署方式——Docker,然后用其部署量化大模型,其中踩坑若干,才有如此精煉、極簡(jiǎn)教程 1、聯(lián)網(wǎng)環(huán)境拉取 llama.cpp 鏡像并保存選擇鏡像最好是官方,比如 llama.cpp 提供的有不同版本,不同用途的鏡像 我選擇的是 ghcr.io/ggml-org/llama.cpp:server-cuda ![]() 市面上有很多個(gè)人打包的鏡像,大多都是閹割版 費(fèi)老大勁搞進(jìn)去,發(fā)現(xiàn)大模型無(wú)法加載 ![]() 當(dāng)然,你也可以自己構(gòu)建 docker ![]() 下載及保存鏡像命令:
2、鏡像傳入內(nèi)網(wǎng)不贅述,不同公司有不同工具可以在辦公網(wǎng)與生產(chǎn)內(nèi)網(wǎng)傳輸數(shù)據(jù)。 3、**在內(nèi)網(wǎng)服務(wù)器(x86)加載鏡像
![]()
![]() 4、準(zhǔn)備模型文件這個(gè)也需要辦公網(wǎng)下載好(我一般去 modelscope 下載) pip install modelscope 之后,即可使用 modelscope download 下載模型 下載完整模型庫(kù)
下載單個(gè)文件到指定本地文件夾(以下載 README.md 到當(dāng)前路徑下“dir”目錄為例)
![]() 再傳入內(nèi)網(wǎng): llama.cpp 服務(wù)需要模型文件才能運(yùn)行,在你的 Linux 服務(wù)器上創(chuàng)建一個(gè)目錄,用來(lái)存放 GGUF 格式的模型文件。 ![]() 5、啟動(dòng)大模型
![]() 可以看到已經(jīng)啟動(dòng)成功 ![]() 6、接入 open-webui![]() ![]() |
|