无 GPU 也能跑本地 LLM:CPU 机器选型与模型选择指南
> 基于 It’s FOSS 文章《Can You Run LLMs Locally Without a GPU? I Tested 8 Models on Linux》的中文整理。原文链接:https://itsfoss.com/testing-local-llms-without-gpu/
一句话结论
无 GPU 的普通 Linux 电脑也能运行本地大语言模型,但关键不是“能不能跑”,而是“跑起来是否好用”。判断体验的核心指标是 tokens/s(每秒生成 token 数);对多数 CPU-only 机器来说,1B–2B 参数量级模型通常是速度与质量之间最现实的平衡点。
为什么现在 CPU 也能跑本地 LLM
过去本地运行 LLM 往往意味着需要一张不错的 GPU。但现在几个变化降低了门槛:
- GGUF 模型格式让模型更适合本地推理;
- 4-bit 量化显著压缩模型体积和内存占用;
- llama.cpp / Ollama 等运行时提升了 CPU 推理效率;
- 小参数模型质量提升,使 1B–2B 模型也能完成不少日常任务。
因此,一台没有独立显卡、只有 8GB–12GB 内存的旧笔记本,也可以尝试本地 AI。
真正要看的指标:tokens/s
文章最有价值的判断是:本地 LLM 的体验不应只看参数量或内存占用,而应看 tokens/s。
大致可以这样理解:
- 3–5 tok/s:能跑,但等待感很强,适合离线慢任务;
- 6–10 tok/s:勉强可用,适合不频繁的复杂请求;
- 15–30 tok/s:接近流畅对话体验;
- 30 tok/s 以上:体感非常快,但通常模型能力较浅。
所以,CPU-only 场景下不要只追求大模型。更大的模型可能确实更聪明,但如果每次回答都要等几分钟,日常使用价值会明显下降。
测试环境
原文作者的测试环境大致如下:
- 处理器:Intel i5;
- 内存:12GB RAM;
- GPU:无独立显卡,集成显卡未参与计算;
- 系统:Linux;
- 工具:Ollama;
- 测量方式:运行模型时使用
--verbose查看 token 生成速度。
示例命令:
ollama run qwen3:0.6b --verbose不同模型量级的实际体验
0.6B–1B:速度优先,适合轻量任务
这类模型最大的优势是快。
例如 Qwen 3 0.6B 在测试中达到约 34–36 tok/s,几乎没有明显等待感。TinyLlama 1.1B 也能达到约 25–28 tok/s。
适合:
- 快速问答;
- 简单命令解释;
- 轻量代码提示;
- 本地离线试验;
- 低配置机器入门。
不适合:
- 长上下文推理;
- 复杂代码生成;
- 严肃知识工作;
- 多步骤分析任务。
2B 左右:速度与质量的平衡区
2B 左右模型速度开始下降,但回答质量会明显提升。原文中 Gemma 4 E2B 约 9.9 tok/s,已经不算特别快,但复杂提示和代码任务表现更好。
适合:
- 日常问答;
- 简单总结;
- 轻量代码辅助;
- 对质量有一点要求但仍希望保持交互性的场景。
这是 CPU-only 用户最值得优先尝试的区间。
3B–4B:质量更好,但等待感明显
Phi 4 Mini 3.8B 在 Q4_K_M 量化后模型体积约 2.5GB,测试速度约 6.9 tok/s。它的能力更强,但一次较长输出可能要等两分钟以上。
适合:
- 不急的分析任务;
- 后台总结;
- 结构化写作草稿;
- 质量比速度更重要的本地任务。
不适合:
- 高频聊天;
- 需要即时反馈的交互;
- 长时间连续使用。
7B–8B:能跑,但不适合实时使用
Ministral 3 8B 测试速度约 3.16 tok/s。这说明 CPU 机器确实能运行较大模型,但体验已经偏向“慢任务处理器”,而不是聊天助手。
适合:
- 离线批处理;
- 睡前跑总结;
- 不要求即时响应的实验。
不适合:
- 实时问答;
- 交互式编程辅助;
- 高频日常使用。
实用选择建议
如果你没有 GPU,可以按下面方式选择:
1. 先从 1B–2B 模型开始 这是速度和质量最稳妥的平衡点。
2. 不要一开始就追 7B/8B 大模型可能更强,但 CPU 上往往慢到影响实际使用。
3. 用 --verbose 实测自己的机器 不同 CPU、内存和量化版本差异很大,别只看别人 benchmark。
4. 按任务拆模型 日常聊天用小模型,复杂任务用 3B–4B 慢模型后台跑。
5. 接受本地 LLM 的边界 CPU-only 本地模型适合隐私、离线、低成本实验,不适合替代高性能云端模型。
推荐起步路线
如果你只是想试试本地 LLM,可以这样开始:
# 安装 Ollama 后,先试小模型
ollama run qwen3:0.6b --verbose
# 再试 1B 级别模型
ollama run tinyllama --verbose
# 如果速度还能接受,再尝试 2B–4B 模型
ollama run gemma3:1b --verbose观察输出里的 token 速度。如果低于 5 tok/s,就不要把它当实时助手;如果能稳定超过 15 tok/s,日常交互体验会好很多。
适合分享给谁
这篇内容适合分享给:
- 想在旧电脑上试本地 AI 的 Linux 用户;
- 关心隐私、不想所有内容都发到云端的人;
- 想用 Ollama 入门本地模型的人;
- 没有 GPU、但想了解本地 LLM 实际边界的人。
核心提醒
本地 LLM 的正确打开方式不是“最大模型优先”,而是:
> 先让模型快到愿意经常用,再决定是否为了更高质量牺牲速度。
在 CPU-only 场景下,小模型不是妥协,而是更符合实际体验的选择。
来源与限制
- 来源文章:It’s FOSS《Can You Run LLMs Locally Without a GPU? I Tested 8 Models on Linux》
- 原文链接:https://itsfoss.com/testing-local-llms-without-gpu/
- 本文为基于原文测试数据和摘要的中文分享版,不是独立 benchmark。
- 原文未提供完整标准化测试提示词,因此模型能力评价应视为作者体验型测试,而非严格排行榜。