LLM 本地推理入门：从 GGUF 到 llama.cpp

不想付 API 费用？想在断网环境下用 LLM？本地推理是答案。

什么是 GGUF

GGUF 是 llama.cpp 使用的模型格式。它把模型权重、配置、词汇表打包成一个文件，支持多种量化精度：

| 量化 | 大小(7B) | 质量 | 速度 | |------|----------|------|------| | Q4KM | ~4.5GB | 好 | 快 | | Q5KM | ~5.3GB | 很好 | 中 | | Q8_0 | ~7.5GB | 极好 | 慢 |

快速开始

# 克隆 llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j

# 下载模型（以 Qwen2.5-7B 为例）
huggingface-cli download Qwen/Qwen2.5-7B-Instruct-GGUF qwen2.5-7b-instruct-q4_k_m.gguf

# 运行
./llama-cli -m qwen2.5-7b-instruct-q4_k_m.gguf -p "你好" -n 128

性能优化

Metal（Mac）：make -j LLAMA_METAL=1
CUDA（Nvidia）：make -j LLAMA_CUDA=1
内存不够：用更低的量化精度，或者开启 mmap

本地跑 7B 模型，8GB 内存的电脑就够了。如果要跑更大的模型，16GB 内存是起步。