
本篇目标装好 vLLM跑起第一个生产级推理服务理解 vLLM 的核心逻辑vLLM 是什么一句话把模型常驻显存以高吞吐量为目标的生产级推理引擎。和 Ollama 的「按需加载、用完就释放」不同vLLM 的设计目标是模型一旦加载就一直占着显存持续不断地处理请求直到你手动关掉。这听起来有点「霸道」但这是故意的——因为 GPU 和显存之间的数据搬运是最大的性能损耗来源之一。vLLM 把模型常驻显存就是为了省掉每次请求都要重新加载的开销在高并发场景下吞吐量可以比 Ollama 高出数倍。适用场景对外提供 API 服务需要稳定高吞吐需要同时处理多个并发请求RTX 5090 / RTX 4090 / 多卡工作站生产环境部署不适用场景只是在本地偶尔跑一跑 → Ollama 更省事显存很小8GB 以下→ 能跑但效率低需要频繁切换不同模型 → Ollama 更灵活第一步安装vLLM 的安装比 Ollama 稍复杂一点主要因为它需要编译 CUDA 内核但也不难跟着走就行。Windows推荐用 WSL2⚠️ vLLM 官方对 Windows 原生支持有限建议在 WSL2Windows 的 Linux 子系统里跑体验和性能都更好。安装 WSL2如果没有打开 PowerShell管理员运行wsl --install重启电脑然后进入 Ubuntuwsl -d Ubuntu验证 WSL2 能看到你的显卡关键步骤进入 Ubuntu 后运行nvidia-smi如果看到显卡型号和显存信息说明 WSL2 已正确识别 NVIDIA 驱动可以继续。 如果nvidia-smi报错或找不到显卡请回到 Windows 确认已安装NVIDIA 驱动 for WSL2不是普通的 Windows 显卡驱动下载地址nvidia.com/drivers选择「GRD, Notebook」类别下的「NVIDIA Driver for CUDA on WSL」。在 WSL2 里安装 vLLM# 更新包管理器sudoaptupdatesudoaptupgrade-y# 安装 Python需要 3.8sudoaptinstallpython3 python3-pip-y# 安装 vLLM这一步会从源码编译需要 10~20 分钟pipinstallvllm为什么要这么久vLLM 里面有一段 CUDA 内核代码需要针对你的显卡型号现场编译第一次安装会编译好之后就快了。如果你用的是 RTX 4060/4090/5090编译一般都能顺利完成如果遇到报错通常是 CUDA 版本不匹配的问题看最后 FAQ 部分。验证安装成功python3-cimport vllm; print(vLLM 版本:, vllm.__version__)macOS / LinuxpipinstallvllmLinux 用户如果有 NVIDIA 显卡确保已安装 CUDA Toolkit。第二步启动你的第一个 vLLM 模型单卡部署单卡部署RTX 5090 示例vllm serve Qwen/Qwen2.5-14B-Instruct\--tensor-parallel-size1\--quantizationfp8\--max-model-len8192\--port8000参数解释参数含义推荐值--tensor-parallel-size用几张卡单卡1双卡21 或 2--quantization量化精度fp8高性能/fp16高精度RTX 5090 推荐 fp8--max-model-len最大上下文长度token 数4096省显存/ 8192完整上下文--portHTTP 服务端口8000RTX 5090 Qwen2.5-14B fp8 max-model-len 8192显存占用约 20~22GB5090 的 32GB 显存妥妥够还能留点余量跑并发请求。RTX 4060 8GB 呢8GB 显存跑 14B 太勉强建议跑 7B 模型vllm serve Qwen/Qwen2.5-7B-Instruct\--tensor-parallel-size1\--quantizationfp8\--max-model-len4096\--port8000⚠️ RTX 4060 跑 vLLM 不是最佳选择——显存太小vLLM 的高吞吐优势发挥不出来。RTX 4060 更适合用 Ollama。启动成功后会看到什么INFO: Started server process [12345] INFO: Uvicorn running on http://0.0.0.0:8000看到这行就说明服务跑起来了API 地址是http://localhost:8000。第三步API 调用基础vLLM 的 API 格式和 Ollama 一样都是 OpenAI-compatiblefromopenaiimportOpenAI clientOpenAI(base_urlhttp://localhost:8000/v1,api_keydummy# vLLM 不需要真实 key)responseclient.chat.completions.create(modelQwen/Qwen2.5-14B-Instruct,messages[{role:system,content:你是一个专业的中文技术助手。},{role:user,content:用一句话解释什么是量子纠缠}],temperature0.7,max_tokens200)print(response.choices[0].message.content)理解 vLLM 的显存逻辑这是 vLLM 和 Ollama 最大的区别理解了这个你就知道什么时候该用它。Ollama 的逻辑按需加载请求1来了 → 加载模型到显存 → 推理 → 释放显存 请求2来了 → 重新加载模型到显存 → 推理 → 释放显存 ...优点显存不会一直占用你可以随时换模型。缺点每次请求都要重新加载多个并发请求无法同时复用同一份显存。vLLM 的逻辑常驻显存服务启动 → 加载模型到显存一直占着 ↓ 请求1来了 → 直接推理不重新加载 请求2来了 → 直接推理不重新加载 请求3来了 → 直接推理不重新加载 ... ↓ 服务关闭 → 释放显存优点高并发下吞吐量极高显存利用率稳定。缺点模型一直占着显存其他任务用不了换模型需要重启服务。KV Cache 是什么vLLM 高性能的核心是KV Cache——每次推理产生的中间结果Key 和 Value 矩阵会被缓存起来下次处理相似上下文时直接复用不用重新计算。这就是为什么 vLLM 在长上下文、连续对话场景下特别快——KV Cache 命中率高省了大量计算。本篇小结你做到了说明✅ 理解了 vLLM 的核心逻辑常驻显存高并发高吞吐✅ 在 WSL2 里装好了 vLLMWindows 推荐 WSL2 方案✅ 单卡启动服务RTX 5090Qwen2.5-14B fp8 示例✅ API 调用OpenAI-compatiblePython 示例✅ 理解显存管理逻辑KV Cache、按需 vs 常驻下一步想尝试多卡部署、压测性能、深度排障→ 跳到第③篇进阶篇[vLLM实战——进阶篇多卡部署、压测与排障]想完全不用命令行→ 跳到第④篇[LM Studio5分钟尝鲜的正确姿势]基础篇到此结束。如果你只是想跑起来试试这些内容够了。如果想榨干显卡性能、做生产部署继续看进阶篇。