利用Ollama部署DeepSeek本地模型：從入門到實踐

netouch 2025-02-11 發布于北京

展開全文

引言

在當前的人工智能領域，模型的本地部署變得越來越重要，尤其是對于那些對數據隱私和安全有高要求的應用。Ollama平臺作為一個強大的工具，支持多種深度學習框架和模型的快速部署。本文將詳細介紹如何使用Ollama工具搭建DeepSeek模型，并將其應用于本地環境中（本文演示環境為MacOS Sequoia 15）。

一、為什么選擇Ollama?

市面上常用的本地部署大模型工具有llama.cpp、Ollama、vLLM、LM Studio等等，當前主要對比一下流行的4個工具，各自的優缺點如下：

1. llama.cpp：輕量級、純 CPU 也能運行的 LLM 推理引擎

特點
- 由 Georgi Gerganov 開發的一個用 C++ 實現的 LLaMA 模型推理引擎。
- 主要用于本地推理，可以在 CPU 或 GPU 上運行 LLaMA 及其變體以及其他開源大模型。
- 支持多種硬件平臺，包括 Windows、Linux、macOS、Android，甚至樹莓派。
- 采用 4-bit、GGUF 量化，大幅減少顯存占用，使得在消費級 GPU（如 8GB VRAM）上也能運行大型模型。
適用場景
- 適合開發者在本地輕量級運行 LLM（如 LLaMA）。
- 適用于邊緣設備，如手機或嵌入式設備。
- 適合離線使用，不依賴云端。
缺點
- 僅支持推理，不支持訓練模型。
- 不如 vLLM 在 GPU 上的推理速度快（vLLM 使用 PagedAttention）。
- 接口較底層，對新手來說使用門檻較高。

2、Ollama：用戶友好的 LLM 本地運行工具，基于 llama.cpp

特點
- 封裝了 llama.cpp，提供更簡潔的 CLI 和 API 接口，讓用戶更容易在本地運行 LLM。
- 支持模型管理：可以拉取、存儲、運行各種 GGUF 格式模型（如 LLaMA 2、Mistral、Gemma）。
- 采用容器化思路，類似于 Docker，可以使用 Modelfile 進行模型打包和分發。
- 支持 GPU 加速，如果設備支持，Ollama 會自動利用 GPU 運行。
適用場景
- 希望本地運行 AI，但不想手動編譯 llama.cpp 的用戶。
- 開發者和研究人員，用于快速測試和部署 LLM。
- CLI 和 API 友好，適合需要與其他應用集成的場景。
缺點
- 仍然依賴 llama.cpp，不如 vLLM 在高性能 GPU 上推理效率高。
- 只支持推理，不支持訓練。
- 不支持 LoRA 微調（但可以加載量化后的 LoRA 適配器）。

3、vLLM：高性能 LLM 推理庫，專為 GPU 設計

特點
- 由 UC Berkeley 研究團隊開發，專注于超高效的 LLM 推理。
- 核心技術：PagedAttention，能更高效地利用 GPU 顯存，支持多用戶并發，適合部署大規模 LLM API。
- 兼容 Hugging Face Transformers，可以直接加載 PyTorch 格式的 LLM。
- 支持分布式推理，可擴展到多 GPU / 多節點集群。
適用場景
- 需要高吞吐量的 AI API 服務（如 Chatbot 或 AI 代理）。
- 云端部署 LLM，尤其是多 GPU 服務器環境。
- 需要 Hugging Face Transformers 兼容性的場景。
缺點
- 不支持 CPU 運行，必須有 GPU。
- 對本地用戶不友好，更適合大規模云端部署。
- 依賴 PyTorch，環境配置可能比 llama.cpp 和 Ollama 更復雜。

4、LM Studio：本地 LLM GUI 應用，適合非技術用戶

特點
- 基于 llama.cpp，但提供了圖形界面（GUI），讓用戶可以在本地運行 LLM 而無需命令行操作。
- 類似 Ollama，但更偏向桌面端用戶（Ollama 偏向 CLI 和 API）。
- 可以下載、管理和運行 GGUF 量化格式的 LLM（如 LLaMA 2、Mistral）。
- 適用于 Windows 和 macOS，并內置 GPU 加速支持。
適用場景
- 非技術用戶，希望在本地使用 LLM（如寫作、問答）。
- 希望使用 GUI 而不是 CLI 的用戶。
- 輕量級離線 AI 助手（適合本地 AI 交互）。
缺點
- 不適合大規模部署，主要是桌面端應用。
- 相比 vLLM，推理性能較低（仍然基于 llama.cpp）。
- 自定義能力有限，不像 Ollama 那樣可以通過 Modelfile 進行擴展。

對比：

工具	主要用途	是否支持 GPU	主要技術	適用人群	主要優勢	主要缺點
llama.cpp	輕量級本地推理	支持（但優化一般）	C++（GGUF 量化）	開發者	可在 CPU 運行，輕量高效	API 復雜，需手動編譯
Ollama	方便的本地 LLM 運行工具	支持	Go + llama.cpp	開發者、普通用戶	易用，CLI & API 友好，自動管理模型	不如 vLLM 快，僅支持 GGUF 格式
vLLM	高性能 LLM 推理	強制需要 GPU	PagedAttention + PyTorch	AI API 提供商	極快的 GPU 推理，適合大規模服務	不能在 CPU 運行，不支持 GGUF
LM Studio	桌面端 LLM GUI	支持	llama.cpp	普通用戶	GUI 友好，適合離線使用	不能大規模部署，性能一般

總結：

選擇Ollama作為搭建DeepSeek本地模型的工具，主要是基于其用戶友好性、易用性和靈活性。以下是選擇Ollama的主要原因：

用戶友好的接口：
Ollama封裝了底層的llama.cpp，提供了更簡潔的命令行界面（CLI）和應用程序接口（API），降低了使用門檻，使得開發者無需深入了解復雜的底層實現即可快速上手。
簡化模型管理：
支持多種GGUF格式模型的拉取、存儲和運行，包括LLaMA 2、Mistral、Gemma等。這種便捷的模型管理方式特別適合需要頻繁切換或測試不同模型的研究人員和開發者。
容器化理念的應用：
類似于Docker的概念，Ollama采用Modelfile進行模型打包和分發，這為模型的部署和遷移提供了極大的便利，尤其是在團隊協作或生產環境中。
自動硬件優化：
如果您的設備支持GPU加速，Ollama能夠自動識別并利用GPU資源，提高模型推理速度。這對于希望在本地獲得高性能但又不想手動配置硬件加速的用戶來說非常實用。
適用于多樣化的應用場景：
不論是想要快速驗證模型效果的開發者，還是希望通過API與其他應用集成的專業人士，Ollama提供的CLI和API都非常適用。它不僅支持技術用戶，也為那些尋求簡單操作體驗的普通用戶提供了解決方案。

盡管Ollama依賴于llama.cpp，在某些高性能場景下可能不如vLLM那樣高效，但對于大多數本地部署需求而言，尤其是對于那些尋找平衡性能與易用性的用戶，Ollama提供了一個理想的解決方案。此外，考慮到它對GGUF格式的支持以及相對簡單的環境配置要求，Ollama成為了在macOS環境下部署DeepSeek模型的一個優選工具。

二、下載安裝Ollama

1、打開Ollama官網：Ollama

2、點擊下載安裝即可，安裝完成后運行，系統狀態欄出現小羊駝圖標即運行成功：

三、下載運行DeepSeek大模型

1、打開Ollama官網：Ollama，點擊左上角Models，選擇或搜索deepseek-r1:

2、這里我們發現了多個不同大小的模型，文件大小適配不同的設備，DeepSeek R1提供多個版本，參數量越大，模型通常越強大，但也需要更多的計算資源。比如1.5B代表有15億個參數，我們這里根據網上整理的配置推薦選擇7B即可。

模型大小	顯卡顯存需求	推薦顯卡示例	內存需求	備注
1.5B	≥4GB	NVIDIA GTX 1050 或集成顯卡	≥8GB	日常辦公電腦也能輕松運行
7B	≥6GB	GTX 1660, RTX 3050	≥16GB	GGML/GGUF格式需約4GB空閑內存
8B	8-10GB	GTX 1660及以上	≥16GB	運行流暢，體驗感滿分
14B	≥12GB（推薦16GB）	RTX 3060及以上	≥32GB	更流暢建議使用16GB顯存
32B	≥16GB	RTX 3060及以上	接近20GB，建議≥64GB	GGML格式需求大系統內存
70B	≥40GB	RTX 3090, RTX 4090	≥64GB（推薦128GB）	對于GGML等基于CPU推理的格式或GPU和CPU結合推理
671B	≥1342GB	需多GPU協作，如16張NVIDIA A100 80GB	≥64GB至128GB更穩妥	適合專業科研機構或超級計算機

3、直接復制以下命令終端運行

?? ollama的命令類似于docker，可輸入ollama -h查看使用提示

ollama run deepseek-r1:7b

等待下載完成后如下所示即安裝完成

輸入任意問題測試是否正常運行：

當前在命令行中使用還是差強人意，下面給大家介紹兩款更方便的使用工具。

四、Chatbox工具使用大模型

1、打開Chatbox官網：Chatbox AI官網：辦公學習的AI好助手，全平臺AI客戶端，官方免費下載，可以選擇網頁端或者客戶端，這里我們使用客戶端，點擊下載安裝并運行

選擇使用自己的API Key或本地模型，然后選擇Ollama API

選擇deepseek-r1模型，其他的按照推薦配置，點擊保存后就可以使用了：

五、Open WebUI使用大模型

針對docker用戶，使用Open WebUI會是一個不錯的選擇，首先前置條件必須已安裝docker環境，運行以下命令拉取并運行Open WebUI


docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main