ViMax：AI导演、编剧、制片人一体化——颠覆传统视频制作的智能体革命-尧图网站设计

ViMax当一句创意自动变成一部电影AI视频生成进入全新时代项目概览属性详情项目名称ViMax: Agentic Video Generation开发机构香港大学数据科学研究所 (HKUDS)GitHubhttps://github.com/HKUDS/ViMaxStars⭐ 5,479Forks 931语言Python 3.12许可证MIT License创建时间2025年3月30日传统AI视频生成的三大痛点在 ViMax 出现之前AI视频生成工具面临着严峻的技术瓶颈痛点描述❌时长限制大多数AI工具只能生成几秒钟的片段无法制作分钟级甚至小时级的长视频❌一致性混乱角色和场景在帧与帧之间变化不可预测“同一角色在不同镜头里长得不一样”❌仅视觉导向缺失剧本、音频、叙事结构和故事深度无法实现完整的视频创作流程 ViMax 的革命性解决方案ViMax 重新定义了AI视频生成范式导演编剧制片人视频生成器 —— 四位一体用户输入创意 → ViMax 自动编排 → 剧本创作 → 分镜设计 → 角色创建 → 视频生成 → 完整输出核心理念只需输入你的创意概念ViMax 自主处理剩余一切——端到端自动化视频创作。四大核心功能模块1. Idea2Video创意到视频从灵感到银幕的全自动转化输入原始创意想法智能多智能体工作流自动运行涵盖叙事构建、角色设计与视频制作全流程适合快速原型开发与创意验证idea If a cat and a dog are best friends, what would happen when they meet a new cat? user_requirement For children, do not exceed 3 scenes. styleCartoon2. Novel2Video小说到视频智能文学改编引擎将完整小说转化为分集视频内容智能叙事压缩保留关键情节与角色对话角色追踪确保人物一致性逐场景视觉化改编3. ⚙️ Script2Video剧本到视频无限剧本视频创作从个人故事到史诗冒险完全创作自由全面掌控视觉叙事的每个细节支持专业剧本格式输入script EXT. SCHOOL GYM - DAY A group of students are practicing basketball... John (18, male, tall, athletic) is the star player... John: (dribbling the ball) Im going to score a basket! ... user_requirement Fast-paced with no more than 20 shots. styleAnimate Style4. AutoCameo智能客串用你的照片生成专属视频上传个人照片即可创建客串视频将自己融入创意剧本与电影级镜头智能角色融合保持外观一致性自然互动角色行为符合剧情逻辑️ 多智能体架构深度解析系统架构概览ViMax 是一个多智能体视频生成框架Multi-Agent Video Generation Framework通过智能体协同实现自动化多镜头视频生成并确保角色与场景的一致性。智能体组件清单智能体模块功能职责screenwriter.py剧本创作智能体script_planner.py剧本规划智能体script_enhancer.py剧本增强智能体character_extractor.py角色提取智能体character_portraits_generator.py角色肖像生成智能体scene_extractor.py场景提取智能体event_extractor.py事件提取智能体storyboard_artist.py分镜艺术家智能体reference_image_selector.py参考图选择智能体camera_image_generator.py机位图像生成智能体best_image_selector.py最佳图像选择智能体novel_compressor.py小说压缩智能体global_information_planner.py全局信息规划智能体流水线架构层级┌─────────────────────────────────────────────────────────────────────┐ │ 输入层 (INPUT LAYER) │ │ 创意/剧本/小说 • 自然语言提示 • 参考图像 • 风格指令 • 配置参数 │ └─────────────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────────────┐ │ 中央调度 (CENTRAL ORCHESTRATION) │ │ 智能体调度 • 阶段切换 • 资源管理 • 重试/降级逻辑 │ └─────────────────────────────────────────────────────────────────────┘ ↓ ┌────────────────────────────┐ ┌────────────────────────────┐ │ 剧本理解 │ │ 场景与镜头规划 │ │ 角色/环境提取 │ ←→ │ 分镜步骤 • 镜头列表 │ │ 场景边界识别 │ │ 关键帧与节奏点 │ │ 风格意图解析 │ │ │ └────────────────────────────┘ └────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────────────┐ │ 视觉资产规划 (VISUAL ASSET PLANNING) │ │ 参考图选择 • 外观/风格引导 • 提示词条件化 │ └─────────────────────────────────────────────────────────────────────┘ ↓ ┌────────────────────────────┐ ┌────────────────────────────┐ │ ️ 资产索引 │ │ ♻️ 一致性与连续性 │ │ 帧/参考图目录 │ ←→ │ 角色/环境追踪 │ │ 嵌入向量 │ │ 参考匹配 │ │ 复用检索 │ │ 时序连贯性 │ └────────────────────────────┘ └────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────────────┐ │ ✂️ 视觉合成与组装 (VISUAL SYNTHESIS) │ │ 图像生成 • 最佳帧选择 • 首尾帧→视频 • 剪辑与时间线合成 │ └─────────────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────────────┐ │ 输出层 (OUTPUT LAYER) │ │ 帧图像 • 片段与最终视频 • 日志 • 工作目录产物 │ └─────────────────────────────────────────────────────────────────────┘ 核心技术能力1. 智能长剧本生成基于RAG检索增强生成技术的长剧本引擎智能分析小说级长文本自动切分为多场景剧本格式精准保留关键情节与角色对话确保叙事完整性2. 表现力分镜设计镜头级分镜系统运用电影语言生成富有表现力的分镜基于用户需求与目标受众定制为后续视频生成奠定叙事节奏专业级镜头设计能力3. 多机位拍摄模拟模拟专业摄影的多机位技术提供沉浸式观看体验确保同一场景内角色位置一致背景环境跨镜头连贯电影级拍摄效果4. 智能参考图选择智能参考图管理机制智能选取当前视频首帧所需参考图考虑前序时间线中的分镜内容确保多角色与环境元素准确性支持长视频扩展5. ⚙️ 自动化图像生成自动化提示词生成系统基于所选参考图与前序时间线的视觉逻辑自动生成图像生成器提示词合理安排角色与环境的空间交互位置优化视觉呈现效果6. ✅ 图像生成一致性校验MLLM/VLM驱动的质量控制并行生成多张候选图像通过多模态大语言模型选择最佳一致图像模拟人类创作者的工作流程自动化质量控制7. ⚡ 高效并行镜头生成并行处理优化对同一机位拍摄的连续镜头并行处理大幅提升视频生产效率优化计算资源利用缩短制作周期 ViMax 的五大核心优势特性描述一键生成无需技术细节一句话生成完整视频自动完成剧本、分镜、镜头、参考管理与一致性验证完全创作自由创意无边界——预告片、短篇故事、小说章节、原创概念皆可实现音画同步无缝融合角色语音与音效打造沉浸式视听体验专业品质自动质量控制确保角色一致性、场景构图合理、每帧达专业水准互动视频上传照片即可在自己故事中出演智能融合角色保持外观一致快速开始指南环境要求操作系统: Linux, Windows Python: 3.12 包管理: uv安装步骤# 克隆仓库gitclone https://github.com/HKUDS/ViMax.gitcdViMax# 使用 uv 安装依赖uvsync配置文件设置在configs/idea2video.yaml中配置模型和APIchat_model:init_args:model:google/gemini-2.5-flash-lite-preview-09-2025model_provider:openaiapi_key:YOUR_API_KEYbase_url:https://openrouter.ai/api/v1image_generator:class_path:tools.ImageGeneratorNanobananaGoogleAPIinit_args:api_key:YOUR_API_KEYvideo_generator:class_path:tools.VideoGeneratorVeoGoogleAPIinit_args:api_key:YOUR_API_KEYworking_dir:.working_dir/idea2video支持的模型提供商提供商模型上下文窗口备注MiniMaxMiniMax-M2.71M tokens最新推荐MiniMaxMiniMax-M2.7-highspeed1M tokens快速版本MiniMaxMiniMax-M2.5204K tokens稳定版本OpenAI兼容格式-通过OpenRouter 项目目录结构ViMax/ ├── agents/ # 智能体模块 │ ├── screenwriter.py # 剧本创作 │ ├── script_planner.py # 剧本规划 │ ├── character_extractor.py # 角色提取 │ ├── storyboard_artist.py # 分镜设计 │ ├── reference_image_selector.py # 参考图选择 │ └── ... ├── configs/ # 配置文件 │ ├── idea2video.yaml # 创意到视频配置 │ ├── script2video.yaml # 剧本到视频配置 │ └── idea2video_minimax.yaml # MiniMax配置 ├── tools/ # 工具模块 ├── pipelines/ # 流水线模块 ├── interfaces/ # 接口模块 ├── utils/ # 实用工具 ├── assets/ # 资产文件 ├── tests/ # 测试文件 ├── main_idea2video.py # 创意到视频入口 ├── main_script2video.py # 剧本到视频入口 ├── readme.md # 英文文档 ├── README_ZH.md # 中文文档 └── pyproject.toml # 项目配置☄️ 即将推出的功能功能状态‍ Google AI Studio API配置✅ 已完成开发者模式分支开发中 AutoCameo集成开发中更多演示案例规划中️ 镜头规划优化规划中新功能扩展规划中相关资源GitHub仓库: https://github.com/HKUDS/ViMaxYouTube频道: AI-Creator-is-hereuv安装指南: https://docs.astral.sh/uv/getting-started/installation/MiniMax API: https://www.minimaxi.com/信息来源: GitHub - HKUDS/ViMax

ViMax：AI导演、编剧、制片人一体化——颠覆传统视频制作的智能体革命

相关新闻

极化激元量子流体：从Bogoliubov色散到引力模拟的精密探测

Claude Code的Hook

当 DAA 成为常态，如何用“数字摄像头”建设 Agent 可观测性

别再只改POI版本了！解决EasyExcel报错，你可能还漏了xmlbeans这个关键依赖

【Perplexity词组搭配查询权威基准测试】：覆盖医学/法律/工程三大垂直领域，17项指标碾压传统n-gram方法（数据已通过ACL评审）

直流电机双闭环控制调参避坑指南：从Simulink仿真到稳定波形的关键几步

GAN评估指标“内卷史”：从Inception Score到FID，再到KID为何被StyleGAN2-ada选中？

深入理解PCIe地址转换（ATU）：以DW控制器为例，图解Inbound/Outbound与DMA配置

研一开学前，我用这份保姆级时间表3个月搞定CV基础（附Python/PyTorch/OpenCV避坑指南）

手把手教你用PlantUML和Gravizo：无需插件，在任意Markdown平台嵌入动态UML图

告别命令行恐惧：在Ubuntu 23.04上图形化玩转Mininet网络模拟（附MiniEdit配置全流程）

告别哑巴设备：用DY-SV17F语音模块给你的Arduino项目加上声音（附STM32串口控制代码）

2026年十大最佳地区搜索排名优化工具：权威榜单赋能企业高效增长

DDR3内存Row Hammer问题解析与防护方案

为ItsyBitsy ESP32设计3D打印外壳：从原型到产品的完整实践

别再手动点关了！用PowerShell永久关闭Windows Defender的保姆级教程（含Server 2016/2019）

别再只换芯片了！BP2832A替换CL1502，你的电感参数算对了吗？

全平台智能资源下载工具：res-downloader 完整使用教程