LLM 2025.05.05

本地运行大模型的几种方案 Options for Running LLMs Locally

整理了 llama.cpp、Ollama、vLLM 等本地部署方案的配置方法和性能表现。

A comparison of local deployment options: llama.cpp, Ollama, and vLLM — setup, performance, and trade-offs.

本地部署方案对比

最底层的 C/C++ 实现，支持 GGUF 格式量化模型。

# 编译
make -j

# 运行
./main -m model.gguf -p "你好" -n 256

优点：极致性能，支持各种硬件加速（Metal/CUDA/Vulkan）缺点：配置复杂，需要手动管理模型文件

封装了 llama.cpp，提供简洁的 CLI 和 API。

# 安装并运行
ollama run llama3

# API 调用
curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "你好"
}'

优点：开箱即用，模型管理方便缺点：自定义选项较少

高性能推理引擎，支持连续批处理和 PagedAttention。

pip install vllm
python -m vllm.entrypoints.openai.api_server --model meta-llama/Llama-3-8B

优点：吞吐量最高，兼容 OpenAI API 缺点：只支持 GPU，内存需求较大

在 Apple Silicon Mac 上，Ollama 是最省心的选择，原生支持 Metal 加速。8B 模型在 16GB 内存的 MacBook Pro 上可以流畅运行。