LLM 2025.05.05
本地运行大模型的几种方案 Options for Running LLMs Locally
整理了 llama.cpp、Ollama、vLLM 等本地部署方案的配置方法和性能表现。
A comparison of local deployment options: llama.cpp, Ollama, and vLLM — setup, performance, and trade-offs.
本地部署方案对比
llama.cpp
最底层的 C/C++ 实现,支持 GGUF 格式量化模型。
# 编译
make -j
# 运行
./main -m model.gguf -p "你好" -n 256
优点:极致性能,支持各种硬件加速(Metal/CUDA/Vulkan) 缺点:配置复杂,需要手动管理模型文件
Ollama
封装了 llama.cpp,提供简洁的 CLI 和 API。
# 安装并运行
ollama run llama3
# API 调用
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "你好"
}'
优点:开箱即用,模型管理方便 缺点:自定义选项较少
vLLM
高性能推理引擎,支持连续批处理和 PagedAttention。
pip install vllm
python -m vllm.entrypoints.openai.api_server --model meta-llama/Llama-3-8B
优点:吞吐量最高,兼容 OpenAI API 缺点:只支持 GPU,内存需求较大
MacBook 推荐
在 Apple Silicon Mac 上,Ollama 是最省心的选择,原生支持 Metal 加速。8B 模型在 16GB 内存的 MacBook Pro 上可以流畅运行。