
1 项目背景业务场景经过前面 39 章的学习,团队已经掌握了从数据处理、模型训练、推理优化到监控安全的完整技能栈。CTO 在年度技术规划会上提出终极目标:“建立一个统一的 AI 平台,支撑公司所有 NLP 业务——客服分类、合同抽取、知识库问答、商品审核。平台需要支持模型训练、评估、发布、推理、监控的全生命周期管理。”目前各业务线的 AI 能力都是以"烟囱式"独立建设的:客服团队自己搭了一套分类服务(用 BERT + Flask),法务团队自己搞了一套合同 NER(用 RoBERTa + FastAPI),运营团队又自己搭了 FAQ 问答(用 vLLM + 自研网关)。三个系统之间没有任何复用——模型底座不能共享(3 个 BERT 底座各自占用 400MB 显存)、推理框架不统一(Flask/FastAPI/vLLM 三种)、监控大盘各自为政(甚至用不同的 Prometheus 实例)。三套系统共占用了 6 张 A10 GPU,总显存利用率却只有 35%——因为每张卡都跑不满但也不能共享。CTO 要求:“半年内,用一个平台替代三套烟囱系统。降低 50% 的 GPU 成本(从 6 卡降到 3 卡),提升 2 倍的模型迭代速度(从 2 周缩短到 3 天)。”痛点构建企业级 AI 平台的核心挑战不是技术本身,而是架构设计和组织协作:问题: 烟囱式架构 目标: 平台式架构 ┌──────┐ ┌──────┐ ┌──────