无 GPU 也能跑本地 LLM:CPU 机器选型与模型选择指南

> 基于 It’s FOSS 文章《Can You Run LLMs Locally Without a GPU? I Tested 8 Models on Linux》的中文整理。原文链接:https://itsfoss.com/testing-local-llms-without-gpu/

一句话结论

无 GPU 的普通 Linux 电脑也能运行本地大语言模型,但关键不是“能不能跑”,而是“跑起来是否好用”。判断体验的核心指标是 tokens/s(每秒生成 token 数);对多数 CPU-only 机器来说,1B–2B 参数量级模型通常是速度与质量之间最现实的平衡点。

为什么现在 CPU 也能跑本地 LLM

过去本地运行 LLM 往往意味着需要一张不错的 GPU。但现在几个变化降低了门槛:

因此,一台没有独立显卡、只有 8GB–12GB 内存的旧笔记本,也可以尝试本地 AI。

真正要看的指标:tokens/s

文章最有价值的判断是:本地 LLM 的体验不应只看参数量或内存占用,而应看 tokens/s

大致可以这样理解:

所以,CPU-only 场景下不要只追求大模型。更大的模型可能确实更聪明,但如果每次回答都要等几分钟,日常使用价值会明显下降。

测试环境

原文作者的测试环境大致如下:

示例命令:

ollama run qwen3:0.6b --verbose

不同模型量级的实际体验

0.6B–1B:速度优先,适合轻量任务

这类模型最大的优势是快。

例如 Qwen 3 0.6B 在测试中达到约 34–36 tok/s,几乎没有明显等待感。TinyLlama 1.1B 也能达到约 25–28 tok/s

适合:

不适合:

2B 左右:速度与质量的平衡区

2B 左右模型速度开始下降,但回答质量会明显提升。原文中 Gemma 4 E2B 约 9.9 tok/s,已经不算特别快,但复杂提示和代码任务表现更好。

适合:

这是 CPU-only 用户最值得优先尝试的区间。

3B–4B:质量更好,但等待感明显

Phi 4 Mini 3.8B 在 Q4_K_M 量化后模型体积约 2.5GB,测试速度约 6.9 tok/s。它的能力更强,但一次较长输出可能要等两分钟以上。

适合:

不适合:

7B–8B:能跑,但不适合实时使用

Ministral 3 8B 测试速度约 3.16 tok/s。这说明 CPU 机器确实能运行较大模型,但体验已经偏向“慢任务处理器”,而不是聊天助手。

适合:

不适合:

实用选择建议

如果你没有 GPU,可以按下面方式选择:

1. 先从 1B–2B 模型开始 这是速度和质量最稳妥的平衡点。

2. 不要一开始就追 7B/8B 大模型可能更强,但 CPU 上往往慢到影响实际使用。

3. --verbose 实测自己的机器 不同 CPU、内存和量化版本差异很大,别只看别人 benchmark。

4. 按任务拆模型 日常聊天用小模型,复杂任务用 3B–4B 慢模型后台跑。

5. 接受本地 LLM 的边界 CPU-only 本地模型适合隐私、离线、低成本实验,不适合替代高性能云端模型。

推荐起步路线

如果你只是想试试本地 LLM,可以这样开始:

# 安装 Ollama 后,先试小模型
ollama run qwen3:0.6b --verbose

# 再试 1B 级别模型
ollama run tinyllama --verbose

# 如果速度还能接受,再尝试 2B–4B 模型
ollama run gemma3:1b --verbose

观察输出里的 token 速度。如果低于 5 tok/s,就不要把它当实时助手;如果能稳定超过 15 tok/s,日常交互体验会好很多。

适合分享给谁

这篇内容适合分享给:

核心提醒

本地 LLM 的正确打开方式不是“最大模型优先”,而是:

> 先让模型快到愿意经常用,再决定是否为了更高质量牺牲速度。

在 CPU-only 场景下,小模型不是妥协,而是更符合实际体验的选择。

来源与限制