GLM-4.7-Flash 量化版本地部署，1 张 4090 开跑-尧图网站设计

1、下载模型我选择的是这个 AWQ-4bit 量化版原因 1 是它支持 vLLM 部署原因 2 是它真的很小巧把原版 58GB 压到了 17GB原因 3 是压缩至此情况下幻觉没有显著增加modelscope download --model cyankiwi/GLM-4.7-Flash-AWQ-4bithttps://modelscope.cn/models/cyankiwi/GLM-4.7-Flash-AWQ-4bit/fileshttps://modelscope.cn/models/cyankiwi/GLM-4.7-Flash-AWQ-4bit/files2、升级 vLLMnightly先声明我没有选择此方法但是官方教程提到了大家可以试试我遇到的问题是各种依赖相互干扰烦死了。还有系统基础环境太差又不敢升级昨天DeepSeek-OCR-2 本地部署实测一文中我有提到。pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly pip install githttps://github.com/huggingface/transformers.gitvLLM 巨大里程碑一文中提到 vLLM 官网上线https://vllm.ai/这里面有个极友好的交互式 vLLM 安装选择器GPU、CPU 等我选择的方式是 vLLM-Dockerhttps://hub.docker.com/r/vllm/vllm-openai/tagshttps://hub.docker.com/r/vllm/vllm-openai/tags很简单直接docker pull vllm/vllm-openai:nightly拉取镜像这时还不行因为即便是 nightly 版本官方也没有支持 transformers 5.x这里有个骚操作新建一个 DockfileFROM vllm/vllm-openai:nightly RUN pip install transformers5.0.0rc2然后自行打包 glm-4.7 专用镜像docker build -t glm-4.7-custom .新镜像就是 glm-4.7-custom后面用它拉起模型至此 vLLM 升级完成3、启动模型vllm 直接启动我没有尝试CUDA_VISIBLE_DEVICE01 vllm server --model /data/models/GLM-4.7-Flash-AWQ-4bit \ --tensor-parallel-size 2 \ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --enable-auto-tool-choice \ --served-model-name glm-4.7-flash我的 docker 启动脚本如下1张卡就能跑起来这里我用了2张默认 max-model-len 直接报 OOM降到 10240然后 max_num_seqs 设 10 才跑起来docker run --rm --runtimenvidia --gpus device0,1 --name GLM-4.7-Flash -p 3004:8000 -p 5005:8000 -v /data/models/GLM-4.7-Flash-AWQ-4bit:models glm-4.7-custom --model /models/GLM-4.7-Flash-AWQ-4bit \ --tensor-parallel-size 2 \ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --enable-auto-tool-choice \ --served-model-name glm-4.7-flash \ --max-model-len 10240 \ --max_num_seqs 10 \ --host 0.0.0.0 \ --port 8000运行没问题我把它接入了 OpenwebUI使用感受思考太墨迹了甚至超过 30s 的思考有点不习惯生成速度倒是很不错显存占用如下这个级别的模型解决点内网疑难杂症甚至写点代码还是很不错的不过大家想不到吧我内网还在用着DeepSeek-R1-0528-Qwen3-8B之前有介绍时常给我惊喜比如下面问题它比 GLM 4.7 Flash 还靠谱还只需要一张卡就能跑思考极快。现在的大模型哪有赢家通吃各有千秋没必要大炮打蚊子。就算是一张厕纸一条底裤也有它本身的用处更何况大模型乎。如果在使用 GLM 4.7 Flash 时遇到循环或重复问题可以尝试添加--temp 1.0 --min-p 0.01 --top-p 0.95 --dry-multiplier 1.1我没遇到

GLM-4.7-Flash 量化版本地部署，1 张 4090 开跑

相关新闻

IDEA 无法打印Mybatis、Mybatis Plus日志的解决办法

深度解析Wireshark核心结构体：epan_dissect_t架构设计与性能优化

2025主流视频生成大模型怎么选？Seedance 2.0与竞品横向对比与报价盘点

中科蓝讯音频SoC开发实战：从芯片选型到量产问题排查

VMware与Hyper-V冲突排查手册（2024版）：从设备管理器异常驱动到WDDM GPU虚拟化抢占，覆盖12类真实产线案例

编程范式选择指导

VMware上安装Docker到底难不难？97%新手踩的3个致命错误，今天一次性说透

直击痛点型：PLM、ERP、MES买齐了，但你的智能制造真的100%落地了吗？

财务运营基础任务智能助手推荐与选择指南

计算机毕业设计之“大玩家”游戏论坛的设计与实现

如何在PC上免费畅玩Nintendo Switch游戏：Ryujinx模拟器终极指南

NewTab Redirect!终极指南：5步打造你的专属Chrome新标签页

2026 最全AI编程软件安装与上手实测教程

进化博弈论解析AI代理欺骗行为与风险管控

深入解析P89LPC932A1 CCU模块：输入捕获与PWM实战指南

Harness 中的响应合并：将多个片段组装为完整输出

Windows Cleaner终极教程：5分钟彻底解决C盘爆红问题，让系统重获新生！

别再只会用ifconfig了！在Ubuntu 22.04/20.04上，教你用ip命令并顺带配置好国内镜像源