本地部署方案对比

llama.cpp

最底层的 C/C++ 实现,支持 GGUF 格式量化模型。

# 编译
make -j

# 运行
./main -m model.gguf -p "你好" -n 256

优点:极致性能,支持各种硬件加速(Metal/CUDA/Vulkan) 缺点:配置复杂,需要手动管理模型文件

Ollama

封装了 llama.cpp,提供简洁的 CLI 和 API。

# 安装并运行
ollama run llama3

# API 调用
curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "你好"
}'

优点:开箱即用,模型管理方便 缺点:自定义选项较少

vLLM

高性能推理引擎,支持连续批处理和 PagedAttention。

pip install vllm
python -m vllm.entrypoints.openai.api_server --model meta-llama/Llama-3-8B

优点:吞吐量最高,兼容 OpenAI API 缺点:只支持 GPU,内存需求较大

MacBook 推荐

在 Apple Silicon Mac 上,Ollama 是最省心的选择,原生支持 Metal 加速。8B 模型在 16GB 内存的 MacBook Pro 上可以流畅运行。