无 GPU 也能跑本地 LLM：CPU 机器选型与模型选择指南

> 基于 It’s FOSS 文章《Can You Run LLMs Locally Without a GPU? I Tested 8 Models on Linux》的中文整理。原文链接：https://itsfoss.com/testing-local-llms-without-gpu/

一句话结论

无 GPU 的普通 Linux 电脑也能运行本地大语言模型，但关键不是“能不能跑”，而是“跑起来是否好用”。判断体验的核心指标是 tokens/s（每秒生成 token 数）；对多数 CPU-only 机器来说，1B–2B 参数量级模型通常是速度与质量之间最现实的平衡点。

为什么现在 CPU 也能跑本地 LLM

过去本地运行 LLM 往往意味着需要一张不错的 GPU。但现在几个变化降低了门槛：

GGUF 模型格式让模型更适合本地推理；
4-bit 量化显著压缩模型体积和内存占用；
llama.cpp / Ollama 等运行时提升了 CPU 推理效率；
小参数模型质量提升，使 1B–2B 模型也能完成不少日常任务。

因此，一台没有独立显卡、只有 8GB–12GB 内存的旧笔记本，也可以尝试本地 AI。

真正要看的指标：tokens/s

文章最有价值的判断是：本地 LLM 的体验不应只看参数量或内存占用，而应看 tokens/s。

大致可以这样理解：

3–5 tok/s：能跑，但等待感很强，适合离线慢任务；
6–10 tok/s：勉强可用，适合不频繁的复杂请求；
15–30 tok/s：接近流畅对话体验；
30 tok/s 以上：体感非常快，但通常模型能力较浅。

所以，CPU-only 场景下不要只追求大模型。更大的模型可能确实更聪明，但如果每次回答都要等几分钟，日常使用价值会明显下降。

测试环境

原文作者的测试环境大致如下：

处理器：Intel i5；
内存：12GB RAM；
GPU：无独立显卡，集成显卡未参与计算；
系统：Linux；
工具：Ollama；
测量方式：运行模型时使用 --verbose 查看 token 生成速度。

示例命令：

ollama run qwen3:0.6b --verbose

不同模型量级的实际体验

0.6B–1B：速度优先，适合轻量任务

这类模型最大的优势是快。

例如 Qwen 3 0.6B 在测试中达到约 34–36 tok/s，几乎没有明显等待感。TinyLlama 1.1B 也能达到约 25–28 tok/s。

适合：

快速问答；
简单命令解释；
轻量代码提示；
本地离线试验；
低配置机器入门。

不适合：

长上下文推理；
复杂代码生成；
严肃知识工作；
多步骤分析任务。

2B 左右：速度与质量的平衡区

2B 左右模型速度开始下降，但回答质量会明显提升。原文中 Gemma 4 E2B 约 9.9 tok/s，已经不算特别快，但复杂提示和代码任务表现更好。

适合：

日常问答；
简单总结；
轻量代码辅助；
对质量有一点要求但仍希望保持交互性的场景。

这是 CPU-only 用户最值得优先尝试的区间。

3B–4B：质量更好，但等待感明显

Phi 4 Mini 3.8B 在 Q4_K_M 量化后模型体积约 2.5GB，测试速度约 6.9 tok/s。它的能力更强，但一次较长输出可能要等两分钟以上。

适合：

不急的分析任务；
后台总结；
结构化写作草稿；
质量比速度更重要的本地任务。

不适合：

高频聊天；
需要即时反馈的交互；
长时间连续使用。

7B–8B：能跑，但不适合实时使用

Ministral 3 8B 测试速度约 3.16 tok/s。这说明 CPU 机器确实能运行较大模型，但体验已经偏向“慢任务处理器”，而不是聊天助手。

适合：

离线批处理；
睡前跑总结；
不要求即时响应的实验。

不适合：

实时问答；
交互式编程辅助；
高频日常使用。

实用选择建议

如果你没有 GPU，可以按下面方式选择：

1. 先从 1B–2B 模型开始 这是速度和质量最稳妥的平衡点。

2. 不要一开始就追 7B/8B 大模型可能更强，但 CPU 上往往慢到影响实际使用。

3. 用 --verbose 实测自己的机器 不同 CPU、内存和量化版本差异很大，别只看别人 benchmark。

4. 按任务拆模型 日常聊天用小模型，复杂任务用 3B–4B 慢模型后台跑。

5. 接受本地 LLM 的边界 CPU-only 本地模型适合隐私、离线、低成本实验，不适合替代高性能云端模型。

适合分享给谁

这篇内容适合分享给：

想在旧电脑上试本地 AI 的 Linux 用户；
关心隐私、不想所有内容都发到云端的人；
想用 Ollama 入门本地模型的人；
没有 GPU、但想了解本地 LLM 实际边界的人。

核心提醒

本地 LLM 的正确打开方式不是“最大模型优先”，而是：

> 先让模型快到愿意经常用，再决定是否为了更高质量牺牲速度。

在 CPU-only 场景下，小模型不是妥协，而是更符合实际体验的选择。

来源与限制

来源文章：It’s FOSS《Can You Run LLMs Locally Without a GPU? I Tested 8 Models on Linux》
原文链接：https://itsfoss.com/testing-local-llms-without-gpu/
本文为基于原文测试数据和摘要的中文分享版，不是独立 benchmark。
原文未提供完整标准化测试提示词，因此模型能力评价应视为作者体验型测试，而非严格排行榜。

无 GPU 也能跑本地 LLM：CPU 机器选型与模型选择指南

一句话结论

为什么现在 CPU 也能跑本地 LLM

真正要看的指标：tokens/s

测试环境

不同模型量级的实际体验

0.6B–1B：速度优先，适合轻量任务

2B 左右：速度与质量的平衡区

3B–4B：质量更好，但等待感明显

7B–8B：能跑，但不适合实时使用

实用选择建议

推荐起步路线

适合分享给谁

核心提醒

来源与限制