本地大模型不是 hype 是当下:M4 + GGUF 已经够你 daily driver
我已经一个月没付 Anthropic 钱了。不是抠门——是发现本地 Qwen3-Coder 在我 80% 的日常任务里和 Claude 没区别。差距还在,但差距不在"日常生产力"那 20cm。
硬件门槛已经过去
2024 年说"本地模型很慢"是事实。今天的硬件画风:
| 硬件 | 价格 | 能跑的模型 | 单 token 速度 | 适用场景 |
|---|---|---|---|---|
| MacBook Air M4 16GB | ¥9k | 7B Q4 | 45 t/s | 入门、轻度 |
| MacBook Pro M4 Pro 24GB | ¥18k | 14B Q5 | 35 t/s | 日常生产 |
| MacBook Pro M4 Max 48GB | ¥30k | 32B Q5 | 22 t/s | 重度、长上下文 |
| Mac Studio M4 Ultra 128GB | ¥55k | 70B Q4 / 200B Q3 | 12 t/s | 准前沿、私有部署 |
M4 Pro 24GB 是甜点——18000 块的笔记本能跑 Qwen3-Coder 14B Q5。这个组合的实测:单次代码补全 1-2 秒响应、单次 review 30-60 秒、整个项目重构 5-10 分钟。
和云端 Claude 在「响应时间 + 准确率」综合指标上是同一档。
实测对比(自己的项目)
把过去 2 周我的 AI Coding 用量分桶:
| 任务类型 | 用 Claude 时间 | 用本地 Qwen3-Coder 时间 | 差异 |
|---|---|---|---|
| 补全(单行 / 块) | 1.2s | 0.4s | 本地快 3x(没有网络) |
| 修单个函数的 bug | 8s | 11s | 云端快 30% |
| 写一个新的小功能 | 25s | 38s | 云端快 50% |
| 解释陌生代码 | 12s | 15s | 差不多 |
| 大型重构 | 5-8 min | 6-10 min | 差不多 |
| 复杂 spec → 实现 | 90s | 240s | 云端快 2.5x |
| 数学/算法证明 | 60s | 200s | 云端快 3x |
结论:高频小任务本地胜(响应快),低频复杂任务云端胜(推理深)。
把任务量加权后:80% 的日常时间在高频小任务上。所以日常体感是本地更顺。
本地的非性能价值
性能不是唯一变量。本地还有几个云端永远给不了的:
1. 真正的离线 飞机、地铁、咖啡馆 WiFi 卡、海外网络抽风。这些场景占我每月 20% 的工作时间。云端模型在这些时候完全没用。
2. 真正的隐私 我在做客户的某项目时,代码里有客户的 API key、客户的 schema、客户的业务逻辑。这些东西按合同不能离开我的本机。云端模型再好都没法用。
3. 零边际成本 跑本地的电费一晚 1 块钱、用多少都不肉疼。这导致使用习惯变了——我会让本地模型跑一些云端我舍不得跑的任务(比如把一整个项目 review 一遍、把整个 git log 拿去分析)。这些低 ROI 高频任务,反而是本地模型的甜点。
4. 没有 rate limit 的恐惧 不会再有"5h 窗口快用完"的焦虑。前一篇 Vibemeter 是看 rate limit 的工具,用了本地模型之后,它对我重要性降了一半。
谁还应该坚持用云端
不是说本地能取代云端。下面三类任务坚定推荐云端:
1. 需要前沿推理的任务 新框架(Rust 新 release、Bun 新 API)、复杂数学/算法、新模型协议设计。本地 14B 撑不住,需要 GPT-5.5 / Sonnet 4.6 级别的模型。
2. 多模态任务 看截图找 bug、看 Figma 写 React。本地视觉模型还在追赶。
3. 大批量并发 你需要同时跑 20 个 agent 并行?本地一台 Mac 跑 3 个就开始卡。这种场景买云端 API。
一个反共识的预测
到 2027 中,**「本地优先 + 云端兜底」**会成为高级工程师的默认 setup。不是为了省钱(云端会一直降价),是为了:
- 不被任何一家模型厂商绑死
- 不被网络/审查/地区差异影响
- 不让客户数据离开你的机器
- 享受随时随地随便用的体感
云端模型厂商会卡你的"高频小任务"——这是他们最不想失去的、token 消耗最大的、付费意愿最稳定的部分。本地模型 2026 年开始抢这个市场,云端不可能不反应。
给想跳进来的人
不需要等"模型再好一点"。今天就够用。
最小 setup 是:
- M4 Pro 24GB(或同等 Linux 工作站,3090 24GB 也行)
- Ollama / LM Studio 当 runner
- Qwen3-Coder 14B Q5 或 DeepSeek-Coder-V3 16B 当默认模型
- Cline / Continue / Aider 当客户端
- 保留 Claude / GPT 订阅作为兜底
一周后你会发现你 80% 的活儿没在用云端。然后你会重新思考为什么每月还要付那 $20-$200。