在筆記本電腦快速運行 DeepSeek R1

若悟369 2025-01-25

展開全文

DeepSeek R1[1]是一個功能強大且用途廣泛的 AI 模型，它憑借先進的推理能力、成本效益和開源可用性向 OpenAI 等老牌企業發起了挑戰。雖然它有一些局限性，但其創新的方法和強大的性能使其成為開發人員、研究人員和企業的寶貴工具。對于那些有興趣探索其功能的人來說，該模型及其精簡版本可以在 Hugging Face 和 GitHub 等平臺上獲得。

由受 GPU 限制的中國團隊訓練，它在數學、編碼甚至一些相當復雜的推理方面表現出色。最有趣的是，它是一個“精簡”模型，這意味著它比它所基于的巨型模型更小、更高效。這很重要，因為它使人們在實際使用和構建它時更加實用。

本文我們將介紹

如何在自己的設備上運行開源 DeepSeek 模型
如何使用最新的 DeepSeek 模型創建與 OpenAI 兼容的 API 服務

我們將使用 LlamaEdge[2]（Rust + Wasm 技術棧）來開發和部署這個模型的應用程序。無需安裝復雜的 Python 包或 C++ 工具鏈[3]！了解我們選擇這項技術的原因[4]。

在自己的設備上運行 DeepSeek-R1-Distill-Llama-8B 模型

第一步：通過以下命令行安裝WasmEge[5]。

curl -sSf https://raw./WasmEdge/WasmEdge/master/utils/install_v2.sh | bash -s -- -v 0.14.1

第二步：下載量化過的DeepSeek-R1-Distill-Llama-8B-GGUF[6]模型文件。這可能需要一定時間，因為模型的大小為 5.73 GB。

curl -LO https:///second-state/DeepSeek-R1-Distill-Llama-8B-GGUF/resolve/main/DeepSeek-R1-Distill-Llama-8B-Q5_K_M.gguf`

第三步：下載 LlamaEdge API 服務器應用程序。它也是一個跨平臺的便可移植的 Wasm 應用程序，可以在許多 CPU 和 GPU 設備上運行。

curl -LO https://github.com/LlamaEdge/LlamaEdge/releases/latest/download/llama-api-server.wasm

第四步: 下載chatbot UI，以便在瀏覽器中與 DeepSeek-R1-Distill-Llama-8B 模型進行交互。

curl -LO https://github.com/LlamaEdge/chatbot-ui/releases/latest/download/chatbot-ui.tar.gztar xzf chatbot-ui.tar.gzrm chatbot-ui.tar.gz

接下來，使用以下命令行為模型啟動 LlamaEdge API 服務器。

wasmedge --dir .:. --nn-preload default:GGML:AUTO:DeepSeek-R1-Distill-Llama-8B-Q5_K_M.gguf \  llama-api-server.wasm \  --prompt-template llama-3-chat \  --ctx-size 8096

然后，打開瀏覽器訪問 http://localhost:8080[7] 開始聊天！

或者可以向模型發送 API 請求。

curl -X POST http://localhost:8080/v1/chat/completions \  -H 'accept:application/json' \  -H 'Content-Type: application/json' \  -d '{'messages':[{'role':'system', 'content': 'You are a helpful assistant.'}, {'role':'user', 'content': 'What is the capital of France?'}], 'model': 'DeepSeek-R1-Distill-Llama-8B'}'  {'id':'chatcmpl-68158f69-8577-4da2-a24b-ae8614f88fea','object':'chat.completion','created':1737533170,'model':'default','choices':[{'index':0,'message':{'content':'The capital of France is Paris.\n</think>\n\nThe capital of France is Paris.<｜end▁of▁sentence｜>','role':'assistant'},'finish_reason':'stop','logprobs':null}],'usage':{'prompt_tokens':34,'completion_tokens':18,'total_tokens':52}}

為 DeepSeek-R1-Distill-Llama-8B 創建與 OpenAI 兼容的 API 服務

LlamaEdge 是輕量級的，不需要守護進程或 sudo 進程即可運行。它可以輕松嵌入到您自己的應用程序中！通過支持聊天和 embedding 模型，LlamaEdge 可以成為本地計算機上應用程序內部的 OpenAI API 替代品！

接下來，我們將展示如何為 DeepSeek-R1 模型以及 embedding 模型啟動完整的 API 服務器。API 服務器將具有 chat/completions 和 embeddings 端點。除了上一節中的步驟之外，我們還需要：

第五步：下載 embedding 模型。

curl -LO https:///second-state/Nomic-embed-text-v1.5-Embedding-GGUF/resolve/main/nomic-embed-text-v1.5.f16.gguf

然后，我們可以使用以下命令行啟動具有聊天和 embedding 模型的 LlamaEdge API 服務器。更詳細的說明，請查看文檔——啟動 LlamaEdge API 服務[8]。

wasmedge --dir .:. \   --nn-preload default:GGML:AUTO:DeepSeek-R1-Distill-Llama-8B-Q5_K_M.gguf \   --nn-preload embedding:GGML:AUTO:nomic-embed-text-v1.5.f16.gguf \   llama-api-server.wasm -p llama-3-chat,embedding \     --model-name DeepSeek-R1-Distill-Llama-8B,nomic-embed-text-v1.5.f16 \     --ctx-size 8192,8192 \     --batch-size 128,8192 \     --log-prompts --log-stat