不想付 API 费用?想在断网环境下用 LLM?本地推理是答案。
什么是 GGUF
GGUF 是 llama.cpp 使用的模型格式。它把模型权重、配置、词汇表打包成一个文件,支持多种量化精度:
| 量化 | 大小(7B) | 质量 | 速度 | |------|----------|------|------| | Q4KM | ~4.5GB | 好 | 快 | | Q5KM | ~5.3GB | 很好 | 中 | | Q8_0 | ~7.5GB | 极好 | 慢 |
快速开始
# 克隆 llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j
# 下载模型(以 Qwen2.5-7B 为例)
huggingface-cli download Qwen/Qwen2.5-7B-Instruct-GGUF qwen2.5-7b-instruct-q4_k_m.gguf
# 运行
./llama-cli -m qwen2.5-7b-instruct-q4_k_m.gguf -p "你好" -n 128
性能优化
- Metal(Mac):
make -j LLAMA_METAL=1 - CUDA(Nvidia):
make -j LLAMA_CUDA=1 - 内存不够:用更低的量化精度,或者开启 mmap
本地跑 7B 模型,8GB 内存的电脑就够了。如果要跑更大的模型,16GB 内存是起步。