【零基础部署】Docker 部署 vLLM 高性能推理框架保姆级教程

发布时间:2026/5/28 22:00:39

【零基础部署】Docker 部署 vLLM 高性能推理框架保姆级教程 vLLM 是目前最流行的大模型推理框架之一,它的核心优势是高吞吐量和内存效率。如果你需要在本地或服务器上部署大模型并提供 API 服务,vLLM 是首选方案。本教程将手把手教你用 Docker 部署 vLLM,从环境准备到成功运行,零基础也能跟着做。1. 什么是 vLLM?vLLM(Very Large Language Model Serving)是 UC Berkeley 开源的高性能推理引擎,主要特点:PagedAttention:创新的注意力机制,显存利用率提升 2-4 倍连续批处理:动态处理多个请求,吞吐量提升 24 倍OpenAI 兼容 API:可以直接替换 OpenAI 的接口支持主流模型:Llama、Qwen、Mistral、ChatGLM 等简单来说,同样的 GPU,用 vLLM 能比原生 PyTorch 推理快 5-10 倍。2. 环境准备2.1 硬件要求配置项最低要求推荐配置GPUNVIDIA GPU 8GB+RTX 3090/4090 或 A100内存16GB32GB+磁盘50GB 可用空间100GB+(模型文件较大)CUDA11.8+12.1+注意:vLLM 需要 NVIDIA GPU,不支持 AMD GPU(ROCm 版本需要单独编译)。2.2 软件要求Docker 20.10+Docker Compose v2NVIDIA Container Toolkit(让 Docker 能使用 GPU)2.3 安装 NVIDIA Container Toolkit如果你的 Docker 还不能使用 GPU,需要先安装 NVIDIA Container Toolkit:# Ubuntu/Debian 系统# 1. 添加 NVIDIA 仓库curl-fsSLhttps://nvidia.github.io/libnvidia-container/gpgkey|sudogpg--dearmor-o/usr/share/keyrings/nvidia-container-toolkit-keyring.gpgcurl-s-Lhttps://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list|\sed's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g'|\sudotee/etc/apt/sources.list.d/nvidia-container-toolkit.list# 2. 安装 toolkitsudoapt-getupdatesudoapt-getinstall-ynvidia-container-toolkit# 3. 配置 Docker 使用 NVIDIA runtimesudonvidia-ctk runtime configure--runtime=docker# 4. 重启 Dockersudosystemctl restartdocker# 5. 验证安装dockerrun--rm--gpusall nvidia/cuda:12.1.0-base-ubuntu22.04 nvidia-smi如果看到 GPU 信息输出,说明配置成功。3. 使用 Docker 部署 vLLM3.1 快速启动(推荐新手)最简单的方式是直接使用官方镜像:# 创建数据目录mkdir-p~/vllm-data# 运行 vLLM 容器(以 Qwen2.5-7B 为例)dockerrun-d\--namevllm\

相关新闻