【SGlang】sglang部署本地模型-尧图网站设计

官网https://docs.sglang.ai/get_started/install.html使用多模态模型命令--enable-multimodal设置启动服务后模型的名字--served-model-name Qwen3-VL-8B-Thinkingdocker启动模型使用已下载好的模型文件docker run--name 20251117_sglang_Qwen3-VL-4B-Thinking--gpusall--shm-size 20g-p30000:30000-v D:\docker_data\sglang:/root/.cache/huggingface--ipchost lmsysorg/sglang:v0.5.5.post1-cu129-amd64 python3-m sglang.launch_server--model-path/root/.cache/huggingface/hub/models/Qwen/Qwen3-VL-4B-Thinking--served-model-name Qwen/Qwen3-VL-4B-Thinking--mem-fraction-static0.9--quantization fp8--dtype float16--host0.0.0.0--port30000分配用于kv缓存占总显存的比例--mem-fraction-static 0.8分配GPU显存80%给kv缓存使用默认值0.8当显存不足时需要降低给kv分配的kv缓存设置用于模型执行器的GPU内存比例--gpu-memory-utilization 0.85设置上下文长度--context-length 1010000设置内存池最大token数会显著改变显存占用--max-total-tokens 20000分配20g内存给模型使用--shm-size 20g模型地址--model-path Qwen/Qwen3-VL-8B-Thinking此地址实际的位置是docker容器内部的以下地址此处用的modelscopehuggingface有同样的目录结构/root/.cache/modelscope/hub/models/Qwen/Qwen3-VL-8B-Thinking在本地挂载的地址模型使用8bit量化--quantization fp8模型运行时使用float16精度运行--dtype float16设置模型名字自定义服务启动后的模型名字为Qwen/Qwen3-VL-4B-Thinking--served-model-name Qwen/Qwen3-VL-4B-Thinking设置显存碎片可连续-e PYTORCH_ALLOC_CONFexpandable_segments:True本地文件目录结构其他参数查询启动一个空容器添加tail -f /dev/nulldocker run--name 20251118_sglang_Qwen3-VL-4B-Thinking--gpusall--shm-size 20g-p30000:30000-v D:\docker_data\sglang:/root/.cache/huggingface--ipchost lmsysorg/sglang:v0.5.5.post1-cu129-amd64 tail-f/dev/null进入容器内部执行命令dockerexec-it 20251118_sglang_Qwen3-VL-4B-Thinking/bin/bash查看命令参数python-m sglang.launch_server-help或者访问sglang官方网站查看https://docs.sglang.io/advanced_features/server_arguments.html官网查询其他详细参数https://docs.sglang.io/advanced_features/server_arguments.htmlcpu卸载直接参数卸载将多少GB的模型权重卸载到cpu中--cpu-offload-gb分组卸载将模型权重多少层分为一组--offload-group-size每组卸载多少层到cpu中--offload-num-in-group

【SGlang】sglang部署本地模型

相关新闻

用Python给朋友一个惊喜：自动化生成个性化生日贺卡（附完整源码）

CryptoSRAM：物联网安全加密的内存计算新范式

别再为Geant4数据包下载慢发愁了！Ubuntu 20.04下两种数据安装方式实测对比与避坑

告别Web界面！用InfluxDB CLI命令行5分钟搞定用户、Token和Bucket配置

Sora 2倒放生成突破性进展：72小时复现全流程，含PyTorch逆时间注意力层源码级解析

保姆级教程：用ESPFlashDownloadTool_v3.6.3给NodeMCU烧录固件，一次成功

在Ubuntu 22.04上，我是这样搞定OpenHarmony 4.0源码和工具链的（保姆级实录）

AI系统性能评估：从模型指标到部署上下文的思维转变与实践

从CHI 2016看微软VR研究：自然交互、混合现实与协同空间的技术演进

036、模糊PID控制器设计

别只调学习率了！深入YOLOv8源码，看懂NMS与IoU的底层实现与优化

Lens-Turbo 整合包发布：解压即用，文生图、图生图。12G 显存畅玩 AI 视觉生成（完美适配 50 系显卡）

【英语学习笔记】基于“底层逻辑转换”与“去动词化”的英汉互译核心方法论及写作高分公式

终极视频下载解决方案：VideoDownloadHelper 完全指南

2026最新！AI论文写作工具测评：这几款知网都认可

Harness 中的响应合并：将多个片段组装为完整输出

Windows Cleaner终极教程：5分钟彻底解决C盘爆红问题，让系统重获新生！

别再只会用ifconfig了！在Ubuntu 22.04/20.04上，教你用ip命令并顺带配置好国内镜像源