久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    純離線安裝大模型推理引擎,部署量化大模型

     ml_Py 2025-08-25 發(fā)布于河南

    大家好,我是 Ai 學(xué)習(xí)的老章

    繼續(xù)介紹大模型推理引擎+Llama.cpp,前文我寫了# 內(nèi)網(wǎng)部署 llama.cpp,運(yùn)行量化大模型,詳細(xì)介紹了 llama.cpp 這個(gè)推理引擎,內(nèi)網(wǎng)離線 cmake 編譯安裝、開啟 GPU 加速、Llama.cpp 的使用及核心參數(shù)深度解析等。

    文中我也說(shuō)了:源碼編譯其實(shí)蠻看運(yùn)氣的,比如我生產(chǎn)環(huán)境的一臺(tái) RHEL 系統(tǒng)的服務(wù)器,yum 源很不給力,僅僅是升級(jí) GCC 都費(fèi)老大勁,各種依賴安裝到吐血。

    本文我們用個(gè)更省事兒的內(nèi)網(wǎng)離線部署方式——Docker,然后用其部署量化大模型,其中踩坑若干,才有如此精煉、極簡(jiǎn)教程

    1、聯(lián)網(wǎng)環(huán)境拉取 llama.cpp 鏡像并保存

    選擇鏡像最好是官方,比如 llama.cpp 提供的有不同版本,不同用途的鏡像

    我選擇的是 ghcr.io/ggml-org/llama.cpp:server-cuda

    https://github.com/ggml-org/llama.cpp/blob/master/docs/docker.md
    https://github.com/ggml-org/llama.cpp/blob/master/docs/docker.md

    市面上有很多個(gè)人打包的鏡像,大多都是閹割版

    費(fèi)老大勁搞進(jìn)去,發(fā)現(xiàn)大模型無(wú)法加載

    當(dāng)然,你也可以自己構(gòu)建 docker

    下載及保存鏡像命令:

    # 下載核心服務(wù)鏡像(指定 linux/amd64 平臺(tái))  

    docker pull --platform linux/amd64 ghcr.io/ggml-org/llama.cpp:server-cuda

    # 保存鏡像到tar文件  
    docker save ghcr.io/ggml-org/llama.cpp > llama.cpp.tar 

    2、鏡像傳入內(nèi)網(wǎng)

    不贅述,不同公司有不同工具可以在辦公網(wǎng)與生產(chǎn)內(nèi)網(wǎng)傳輸數(shù)據(jù)。

    3、**在內(nèi)網(wǎng)服務(wù)器(x86)加載鏡像

    # 加載鏡像,加載過(guò)程需要一些時(shí)間,完成后,Docker 會(huì)輸出加載的鏡像信息。
    docker load i llama.cpp.tar
    # 運(yùn)行 docker images 命令來(lái)查看本地鏡像列表,確認(rèn)llama.cpp已經(jīng)成功加載。

    docker images

    4、準(zhǔn)備模型文件

    這個(gè)也需要辦公網(wǎng)下載好(我一般去 modelscope 下載)

    pip install modelscope 之后,即可使用 modelscope download 下載模型

    下載完整模型庫(kù)

    modelscope download --model unsloth/gpt-oss-120b

    下載單個(gè)文件到指定本地文件夾(以下載 README.md 到當(dāng)前路徑下“dir”目錄為例)

    modelscope download --model unsloth/gpt-oss-120b README.md --local_dir ./dir

    再傳入內(nèi)網(wǎng):

    llama.cpp 服務(wù)需要模型文件才能運(yùn)行,在你的 Linux 服務(wù)器上創(chuàng)建一個(gè)目錄,用來(lái)存放 GGUF 格式的模型文件。

    5、啟動(dòng)大模型

    docker run --rm --runtime nvidia -e TZAsia/Shanghai --gpus "device=2" -v /opt/data/ai/GGUF:/models --name oss-20b-server -p 8005:8000 ghcr.io/ggml-org/llama.cpp:server-cuda  -m /models/gpt-oss-20b-F16.gguf --port 8000 --host 0.0.0.0 -c4096 -n 1024 -ngl 999

    可以看到已經(jīng)啟動(dòng)成功

    6、接入 open-webui


      轉(zhuǎn)藏 分享 獻(xiàn)花(0

      0條評(píng)論

      發(fā)表

      請(qǐng)遵守用戶 評(píng)論公約

      類似文章 更多

      主站蜘蛛池模板: 思思久久96热在精品国产| 狠狠综合久久综合88亚洲| 少妇内射高潮福利炮| 免费无码成人AV片在线| 偷窥国产亚洲免费视频| 成人H动漫精品一区二区无码| 亚洲精品香蕉一区二区| 尹人香蕉久久99天天拍| 日韩中文字幕高清有码| 天堂影院一区二区三区四区| 肉大捧一进一出免费视频| 韩国三级理论无码电影在线观看| 亚洲精品无码国产片| 2020年最新国产精品正在播放| 国产丝袜视频一区二区三区| 国产成人亚洲综合图区| 久久久久亚洲精品无码网址 | 2021国产精品视频网站| 精品久久久久久无码人妻热| 92精品国产自产在线观看481页| 欧洲美熟女乱又伦AV影片| 国产精成人品日日拍夜夜| 亚洲一区二区观看播放| 亚洲综合无码明星蕉在线视频| 中文有无人妻VS无码人妻激烈| 国产免费一区二区三区不卡| 麻豆精品一区二区综合av| 97无码免费人妻超级碰碰夜夜| 久热综合在线亚洲精品| 又爽又黄无遮拦成人网站| 丰满少妇人妻HD高清大乳| 噜噜综合亚洲av中文无码| 人妻大战黑人白浆狂泄| 日本久久99成人网站| 最新国产精品亚洲| 国产精品亚洲一区二区无码 | 婷婷成人丁香五月综合激情 | 日韩精品卡2卡3卡4卡5| 欧美不卡无线在线一二三区观| 无码专区视频精品老司机| 曰韩亚洲AV人人夜夜澡人人爽|