GLM-4.7-Flash 量化版本地部署,1 张 4090 开跑

发布时间:2026/6/26 7:51:32

GLM-4.7-Flash 量化版本地部署,1 张 4090 开跑 1、下载模型我选择的是这个 AWQ-4bit 量化版原因 1 是它支持 vLLM 部署原因 2 是它真的很小巧把原版 58GB 压到了 17GB原因 3 是压缩至此情况下幻觉没有显著增加modelscope download --model cyankiwi/GLM-4.7-Flash-AWQ-4bithttps://modelscope.cn/models/cyankiwi/GLM-4.7-Flash-AWQ-4bit/fileshttps://modelscope.cn/models/cyankiwi/GLM-4.7-Flash-AWQ-4bit/files2、升级 vLLMnightly先声明我没有选择此方法但是官方教程提到了大家可以试试我遇到的问题是各种依赖相互干扰烦死了。还有系统基础环境太差又不敢升级昨天DeepSeek-OCR-2 本地部署实测一文中我有提到。pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly pip install githttps://github.com/huggingface/transformers.gitvLLM 巨大里程碑 一文中提到 vLLM 官网上线https://vllm.ai/这里面有个极友好的交互式 vLLM 安装选择器GPU、CPU 等我选择的方式是 vLLM-Dockerhttps://hub.docker.com/r/vllm/vllm-openai/tagshttps://hub.docker.com/r/vllm/vllm-openai/tags很简单直接docker pull vllm/vllm-openai:nightly拉取镜像这时还不行因为即便是 nightly 版本官方也没有支持 transformers 5.x这里有个骚操作新建一个 DockfileFROM vllm/vllm-openai:nightly RUN pip install transformers5.0.0rc2然后自行打包 glm-4.7 专用镜像docker build -t glm-4.7-custom .新镜像就是 glm-4.7-custom后面用它拉起模型至此 vLLM 升级完成3、启动模型vllm 直接启动我没有尝试CUDA_VISIBLE_DEVICE01 vllm server --model /data/models/GLM-4.7-Flash-AWQ-4bit \ --tensor-parallel-size 2 \ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --enable-auto-tool-choice \ --served-model-name glm-4.7-flash我的 docker 启动脚本如下1张卡就能跑起来这里我用了2张默认 max-model-len 直接报 OOM降到 10240然后 max_num_seqs 设 10 才跑起来docker run --rm --runtimenvidia --gpus device0,1 --name GLM-4.7-Flash -p 3004:8000 -p 5005:8000 -v /data/models/GLM-4.7-Flash-AWQ-4bit:models glm-4.7-custom --model /models/GLM-4.7-Flash-AWQ-4bit \ --tensor-parallel-size 2 \ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --enable-auto-tool-choice \ --served-model-name glm-4.7-flash \ --max-model-len 10240 \ --max_num_seqs 10 \ --host 0.0.0.0 \ --port 8000运行没问题我把它接入了 OpenwebUI使用感受思考太墨迹了甚至超过 30s 的思考有点不习惯生成速度倒是很不错显存占用如下这个级别的模型解决点内网疑难杂症甚至写点代码还是很不错的不过大家想不到吧我内网还在用着DeepSeek-R1-0528-Qwen3-8B之前有介绍时常给我惊喜比如下面问题它比 GLM 4.7 Flash 还靠谱还只需要一张卡就能跑思考极快。现在的大模型哪有赢家通吃各有千秋没必要大炮打蚊子。就算是一张厕纸一条底裤也有它本身的用处更何况大模型乎。如果在使用 GLM 4.7 Flash 时遇到循环或重复问题可以尝试添加--temp 1.0 --min-p 0.01 --top-p 0.95 --dry-multiplier 1.1我没遇到

相关新闻