
为什么要在本地跑大模型OpenClaw 是一个非常好用的 AI 助手平台但它默认依赖云端 API。用量确实很大费用真的不便宜每月至少几百块打底。而本地模型呢一次硬件投入零边际成本。数据不出门连隐私问题也一并解决了。于是我搞了一套方案一台电脑跑 OpenClaw另一台电脑跑 Ollama 提供模型服务局域网内互通。下面是我完整的配置记录包含 5 个真实踩坑和解决方案。一、环境准备设备分工设备角色IP软件主机 AOpenClaw 客户端192.168.1.69OpenClaw 2026.3.2主机 BOllama 服务端192.168.1.189Ollama 3 个模型服务端主机 B要做的事安装 Ollama下载模型qwen3-vl:8b多模态、qwen3.5:latest日常文本、deepseek-r1:14b强推理启动 Ollama API 服务默认端口 11434配置防火墙开放 11434 端口——这条后面会反复提到配置CPUIntel® Core™ i5-14600KF内存32GGPUNVIDA GeForce RTX 4060(8G)客户端主机 A要做的事安装 OpenClaw 2026.3.2添加本地 Ollama 提供商设置默认模型二、核心配置在 OpenClaw 的配置文件中添加本地 Ollama 提供商local-ollama:{baseUrl:http://192.168.1.179:11434,apiKey:local,api:ollama,models:[{id:qwen3-vl:8b,name:Qwen 3 VL 8B,contextWindow:64000,maxTokens:8192},{id:qwen3.5:latest,name:Qwen 3.5,contextWindow:32000,maxTokens:4096},{id:deepseek-r1:14b,name:DeepSeek R1,contextWindow:32000,maxTokens:4096}]}然后设置默认模型并重启# 设置默认模型openclaw configsetagents.defaults.model.primarylocal-ollama/qwen3-vl:8b# 重启 OpenClaw Gatewayopenclaw gateway stop openclaw gateway三、踩坑实录5 个问题及解决方案这才是最有价值的部分。下面是我逐个排查、逐个解决的真实过程。坑 1API 格式不兼容直接 404现象配置完启动OpenClaw 报 404Ollama 服务端没有任何请求日志。原因OpenClaw 默认把请求包装成 OpenAI API 格式/v1/chat/completions但 Ollama 用的是自己的原生格式/api/chat。格式不匹配Ollama 直接拒绝。解决把 api 类型从openai-completions改成ollamaopenclaw configsetmodels.providers.local-ollama.apiollama这是最关键的一步也是文档里最容易漏掉的配置。坑 2防火墙挡住连接超时到天荒地老现象API 类型改对了但请求一直超时没有任何响应。原因Windows 防火墙默认拦截 11434 端口的外部访问。本机访问没问题局域网另一台机器过来就不行。解决在服务端执行New-NetFirewallRule-DisplayNameOllama-Direction Inbound-Protocol TCP-LocalPort 11434-Action Allow放行后再测试秒通。坑 3会话文件被锁卡住不动现象某次异常退出后重启OpenClaw 卡在加载会话阶段超时报错session file locked。原因异常退出时会话文件的锁没释放新进程拿不到锁就死等。解决找到 session 目录删掉.lock文件Remove-ItemC:\Users\Administrator\.openclaw\agents\main\sessions\*.lock-Force如果你也遇到类似问题先别急着重装大概率是锁没释放。坑 4Token 使用率飙到 94%对话突然中断现象长对话跑着跑着突然报错tokens 937k/1.0m (94%)然后就没下文了。原因对话历史越来越长累积的 token 快超过模型的上下文窗口上限。OpenClaw 的自动压缩机制还没来得及触发。解决手动清理旧会话释放空间Remove-ItemC:\Users\Administrator\.openclaw\agents\main\sessions\*.jsonl-Force预防策略定期清理会话保持 token 使用率在 80% 以下长任务分段执行每次新开对话合理设置上下文窗口不要盲目设大32K~64K 够用坑 5模型响应超时15 分钟是底线现象给本地模型发请求等了几分钟直接超时报错。原因本地模型有两个耗时大头一是首次加载30-60 秒二是推理生成。默认超时时间通常 5 分钟不够用。解决把超时拉到 15 分钟openclaw configsetagents.defaults.timeoutMs 900000对于 14B 的大模型第一次加载尤其慢。给它足够的时间后续请求会快很多。四、三款模型怎么选模型参数量类型适用场景qwen3-vl:8b8.8B多模态图文理解、截图分析qwen3.5:latest9.7B纯文本日常对话、简单任务deepseek-r1:14b14.8B推理复杂逻辑、代码分析省钱策略简单问题用 qwen3.5省算力复杂推理切 deepseek-r1物尽其用。多台机器的话可以按任务类型自动路由——这就是下面的分布式推理。五、延伸构想局域网分布式推理架构单机方案跑通之后我产生了一个想法能不能把多台机器的算力拼起来思路很简单局域网里不止一台机器有 GPU如果能统一调度就能实现更大规模、更低延迟的推理。架构设想调度中心一台机器作为调度器接收来自 OpenClaw 的请求工作节点多台机器各自运行 Ollama加载不同的模型智能路由根据任务类型、各节点负载、模型可用性动态分配请求容错机制单节点挂掉不影响整体自动切换到备用节点举个例子用户发来一个图片分析请求 → 调度器识别为多模态任务 → 路由到跑 qwen3-vl 的节点。同时另一台机器在处理纯文本对话互不干扰。这个架构还在设计中核心要解决的是任务拆分粒度和节点间通信效率。但方向是明确的用廉价硬件堆出高性能的本地推理集群彻底告别云 API 的按量计费。六、总结要点说明成本一台旧电脑跑 Ollama边际成本为零隐私数据全程不出局域网配置门槛核心就两步api 类型改成 ollama防火墙放行端口踩坑404、超时、锁文件、token 爆表、加载慢——全是可解的扩展性从单机到分布式算力可水平扩展关键参数速查API 类型ollama不是 openai-completions端口11434超时至少 900 秒上下文窗口32K~64K按需调整如果你也在用 OpenClaw 或者对本地部署感兴趣欢迎交流。省下来的 API 费够买好几台二手主机了。