
专栏进度10 / 10 (微调实战专题 · 大结局)在实验室里我们习惯用 peft 加载模型但在生产环境我们需要的是一个各部分融合为一、响应极快、显存占用极低的单体模型。一、 权重合并从“插件”到“一体化”LoRA 训练产生的是增量权重。为了推理性能我们需要将 A 和 B 矩阵的乘积直接加回原始权重 W 中。Python 实战一键合并脚本frompeftimportPeftModelfromtransformersimportAutoModelForCausalLM,AutoTokenizer base_model_path./base_models/qwen2.5-7blora_model_path./saves/security_agent_loraexport_path./final_model/security_expert_v1加载基座和插件base_modelAutoModelForCausalLM.from_pretrained(base_model_path,torch_dtypeauto,device_mapcpu)modelPeftModel.from_pretrained(base_model,lora_model_path)合并并卸载 (Merge and Unload)这一步会将 LoRA 权重永久注入基座模型final_modelmodel.merge_and_unload()保存完整模型final_model.save_pretrained(export_path)tokenizerAutoTokenizer.from_pretrained(base_model_path)tokenizer.save_pretrained(export_path)print(权重合并完成现在你可以像调用普通模型一样调用它了。)二、 推理加速引入 vLLM 引擎合并后的模型如果直接用 transformers 库跑并发能力极弱。在工业界vLLM 是目前的王者它利用 PagedAttention 技术能将推理吞吐量提升 10 倍以上。部署你的行业专家 API只需一行命令即可开启一个兼容 OpenAI 接口标准的模型服务Bashpython -m vllm.entrypoints.openai.api_server–model ./final_model/security_expert_v1–trust-remote-code–port 8000–gpu-memory-utilization 0.9–max-model-len 4096三、 生产环境的“三道保险”动态批处理 (Continuous Batching)vLLM 会自动把不同用户的请求拼在一起算极大提升 GPU 利用率。多卡并行 (Tensor Parallelism)如果模型太大如 70B可以使用 --tensor-parallel-size 2 将模型切分到两张显卡上运行。健康检查与监控配合 Prometheus 和 Grafana实时监控你的行业模型是否出现了“推理超时”或“显存溢出”。四、 避坑指南部署后的“最后一道雷”Tokenizer 不一致合并权重时务必检查 tokenizer_config.json 是否被覆盖。如果分词器版本不对模型会满嘴胡言。显存碎片化在高并发场景下KV Cache 会迅速占满显存。对策根据业务需求调整 max_num_seqs 参数。精度退化如果你在第七篇做了量化部署时请确保推理框架如 vLLM支持该量化格式GPTQ/AWQ/GGUF。