# 无 GPU 也能跑本地 LLM：CPU 机器选型与模型选择指南

> 基于 It’s FOSS 文章《Can You Run LLMs Locally Without a GPU? I Tested 8 Models on Linux》的中文整理。原文链接：https://itsfoss.com/testing-local-llms-without-gpu/

## 一句话结论

无 GPU 的普通 Linux 电脑也能运行本地大语言模型，但关键不是“能不能跑”，而是“跑起来是否好用”。判断体验的核心指标是 **tokens/s（每秒生成 token 数）**；对多数 CPU-only 机器来说，**1B–2B 参数量级模型**通常是速度与质量之间最现实的平衡点。

## 为什么现在 CPU 也能跑本地 LLM

过去本地运行 LLM 往往意味着需要一张不错的 GPU。但现在几个变化降低了门槛：

- **GGUF 模型格式**让模型更适合本地推理；
- **4-bit 量化**显著压缩模型体积和内存占用；
- **llama.cpp / Ollama** 等运行时提升了 CPU 推理效率；
- 小参数模型质量提升，使 1B–2B 模型也能完成不少日常任务。

因此，一台没有独立显卡、只有 8GB–12GB 内存的旧笔记本，也可以尝试本地 AI。

## 真正要看的指标：tokens/s

文章最有价值的判断是：本地 LLM 的体验不应只看参数量或内存占用，而应看 **tokens/s**。

大致可以这样理解：

- **3–5 tok/s**：能跑，但等待感很强，适合离线慢任务；
- **6–10 tok/s**：勉强可用，适合不频繁的复杂请求；
- **15–30 tok/s**：接近流畅对话体验；
- **30 tok/s 以上**：体感非常快，但通常模型能力较浅。

所以，CPU-only 场景下不要只追求大模型。更大的模型可能确实更聪明，但如果每次回答都要等几分钟，日常使用价值会明显下降。

## 测试环境

原文作者的测试环境大致如下：

- 处理器：Intel i5；
- 内存：12GB RAM；
- GPU：无独立显卡，集成显卡未参与计算；
- 系统：Linux；
- 工具：Ollama；
- 测量方式：运行模型时使用 `--verbose` 查看 token 生成速度。

示例命令：

```bash
ollama run qwen3:0.6b --verbose
```

## 不同模型量级的实际体验

### 0.6B–1B：速度优先，适合轻量任务

这类模型最大的优势是快。

例如 Qwen 3 0.6B 在测试中达到约 **34–36 tok/s**，几乎没有明显等待感。TinyLlama 1.1B 也能达到约 **25–28 tok/s**。

适合：

- 快速问答；
- 简单命令解释；
- 轻量代码提示；
- 本地离线试验；
- 低配置机器入门。

不适合：

- 长上下文推理；
- 复杂代码生成；
- 严肃知识工作；
- 多步骤分析任务。

### 2B 左右：速度与质量的平衡区

2B 左右模型速度开始下降，但回答质量会明显提升。原文中 Gemma 4 E2B 约 **9.9 tok/s**，已经不算特别快，但复杂提示和代码任务表现更好。

适合：

- 日常问答；
- 简单总结；
- 轻量代码辅助；
- 对质量有一点要求但仍希望保持交互性的场景。

这是 CPU-only 用户最值得优先尝试的区间。

### 3B–4B：质量更好，但等待感明显

Phi 4 Mini 3.8B 在 Q4_K_M 量化后模型体积约 2.5GB，测试速度约 **6.9 tok/s**。它的能力更强，但一次较长输出可能要等两分钟以上。

适合：

- 不急的分析任务；
- 后台总结；
- 结构化写作草稿；
- 质量比速度更重要的本地任务。

不适合：

- 高频聊天；
- 需要即时反馈的交互；
- 长时间连续使用。

### 7B–8B：能跑，但不适合实时使用

Ministral 3 8B 测试速度约 **3.16 tok/s**。这说明 CPU 机器确实能运行较大模型，但体验已经偏向“慢任务处理器”，而不是聊天助手。

适合：

- 离线批处理；
- 睡前跑总结；
- 不要求即时响应的实验。

不适合：

- 实时问答；
- 交互式编程辅助；
- 高频日常使用。

## 实用选择建议

如果你没有 GPU，可以按下面方式选择：

1. **先从 1B–2B 模型开始**  
   这是速度和质量最稳妥的平衡点。

2. **不要一开始就追 7B/8B**  
   大模型可能更强，但 CPU 上往往慢到影响实际使用。

3. **用 `--verbose` 实测自己的机器**  
   不同 CPU、内存和量化版本差异很大，别只看别人 benchmark。

4. **按任务拆模型**  
   日常聊天用小模型，复杂任务用 3B–4B 慢模型后台跑。

5. **接受本地 LLM 的边界**  
   CPU-only 本地模型适合隐私、离线、低成本实验，不适合替代高性能云端模型。

## 推荐起步路线

如果你只是想试试本地 LLM，可以这样开始：

```bash
# 安装 Ollama 后，先试小模型
ollama run qwen3:0.6b --verbose

# 再试 1B 级别模型
ollama run tinyllama --verbose

# 如果速度还能接受，再尝试 2B–4B 模型
ollama run gemma3:1b --verbose
```

观察输出里的 token 速度。如果低于 5 tok/s，就不要把它当实时助手；如果能稳定超过 15 tok/s，日常交互体验会好很多。

## 适合分享给谁

这篇内容适合分享给：

- 想在旧电脑上试本地 AI 的 Linux 用户；
- 关心隐私、不想所有内容都发到云端的人；
- 想用 Ollama 入门本地模型的人；
- 没有 GPU、但想了解本地 LLM 实际边界的人。

## 核心提醒

本地 LLM 的正确打开方式不是“最大模型优先”，而是：

> 先让模型快到愿意经常用，再决定是否为了更高质量牺牲速度。

在 CPU-only 场景下，小模型不是妥协，而是更符合实际体验的选择。

## 来源与限制

- 来源文章：It’s FOSS《Can You Run LLMs Locally Without a GPU? I Tested 8 Models on Linux》
- 原文链接：https://itsfoss.com/testing-local-llms-without-gpu/
- 本文为基于原文测试数据和摘要的中文分享版，不是独立 benchmark。
- 原文未提供完整标准化测试提示词，因此模型能力评价应视为作者体验型测试，而非严格排行榜。