Echomimic虚拟数字人的部署与应用-尧图网站设计

Echomic是蚂蚁集团开发的数字人项目目前有三个版本三个版本略有不同V1版本专注音频控制人像动画“可编辑的人脸关键点控制V2版本增加了半身动画简化控制条件v3版本规模更大有13亿个参数支持”统一多模态、多任务人类动画”的模型。本文将介绍Windows下Echomimic V1版本的部署与应用。另外Linux系统以及EchomimicV2, V3的部署都与V1版本类似具体步骤如下1、代码下载git clone gitgithub.com:antgroup/echomimic.gitcd Echomimic2、ffmpeg下载与配置通过这个地址找到与本地电脑操作系统适配的ffmpeg下载,https://github.com/BtbN/FFmpeg-Builds/releaseswin11需要下载这个版本:ffmpeg-n6.1.3-win64-gpl-shared-6.1下载完成后配置ffmpeg的环境变量如下:setx /M PATH %PATH%;D:\code\llmops-echomimic\ffmpeg-n6.1.3-win64-gpl-shared-6.1\binsetx FFMEG_DIR D:\code\llmops-echomimic\ffmpeg-n6.1.3-win64-gpl-shared-6.1\ffmpegsetx INCLUDE D:\code\llmops-echomimic\ffmpeg-n6.1.3-win64-gpl-shared- 6.1\include;%INCLUDE%setx LIB D:\code\llmops-echomimic\ffmpeg-n6.1.3-win64-gpl-shared-6.1\lib;%LIB%3、下载pretrained_weights模型下载pretrained_weights总过32G左右官方提供了两种方式:3.1、通过git仓库下载执行如下命令git lfs install git clone https://huggingface.co/BadToBest/EchoMimic pretrained_weights3.2、通过Hugging Face CLI下载由于Git仓库下载不太稳定下载过程中下载到一半总是报连不上服务器导致下载中断建议通过Hugging Face CLI下载具体步骤如下1、下载并安装Hugging Face CLIPowerShell管理员权限打开后执行下面命令HuggingFace CLI下载的步骤如下powershell -ExecutionPolicy ByPass -c irm https://hf.co/cli/install.ps1 | iexpowershell表示用 PowerShell 执行命令。-ExecutionPolicy ByPass临时允许执行远程脚本否则系统会阻止。irm 是 Invoke-RestMethod 的缩写用来从网络下载内容。https://hf.co/cli/install.ps1Hugging Face 官方提供的安装脚本地址。| iex将下载的脚本内容直接执行相当于“下载并立即运行”。这段代码的作用是自动安装 Hugging Face 的命令行工具 hf安装完成后用 hf 命令来登录或下载模型。也可以通过这个命令升级模型:powershell -NoProfile -Command iwr -useb https://hf.co/cli/install.ps1 | iex安装完成后执行如下命令查看版本号老版本 hf --version ,新版本的hugging face 通过 python -c import huggingface_hub as h; print(h.__version__)查看版本号2、登录hf老版本hf login登录的过程中需要输入Token,可以通过如下地址查看自己的Token: https://huggingface.co/settings/tokens如果没有Token直接新建一个Token。新版本登录: hf auth login3、下载Echomimic模型hf download BadToBest/EchoMimic --local-dir D:\models\EchoMimic4、安装依赖Pycharm中Terminal中通过pip install -r requirements.txt安装所有依赖5、功能开发在原有Echomimic功能的基础上添加生成文案、以及把生成的文案转化为语音的功能。采用Gradio技术编排界面其中获取文案的功能调用爱乐乐AI Agent生成口播文案。然后调用OpenAI的tts模型将文案转换为语音结果放到Echomimic需要放置音频的地方。具体流程文案主题中输入文案点击获取文案按钮生成文案展示在文案内容中然后点击生成语音按钮生成的语音在下方生成对应文案的语音。结果如下图所示这部分布局代码如下6、项目启动配置启动参数启动D:\code\llmops-echomimic\venv\Scripts\python.exe D:\code\llmops-echomimic\webgui.py --server_name127.0.0.1 --server_port3000启动成功启动成功后把生成的方案转为语音然后上传一张照片点击生成Generate Radio就可以数字人界面如下至此数字人生成成功

Echomimic虚拟数字人的部署与应用

相关新闻

华为自主研发的AI-Native数据GaussDB：数据库技术与人工智能的深度融合的代表

大模型长文本处理实战：从注意力机制到RAG系统的上下文优化方案

IQUNIX EV63粉武士上手实测：EDG冠军同款|2026键盘推荐

Kicad 7.0 封装制作进阶：手把手教你搞定异形焊盘（附USB-TTL封装实战）

FPGA状态机实战：用Mealy和Moore两种方式手把手教你实现11010序列检测器

MobileGPT提示工程实战指南：从基础原理到移动端高效应用

不止于Hello World：用Mongoose库为你的C++桌面应用添加一个内置Web管理界面

别再只靠exclusion了！用Maven Helper插件5分钟搞定EasyExcel与SpringBoot的cglib版本冲突

200 行 Python 训练一个 GPT：Karpathy 的极简主义 AI 教育实验

Windows内存管理优化方案：Mem Reduct深度解析与实践指南

分布式架构应用酒馆棋牌娱乐+扫码点餐系统技术方案

专业GTA5安全增强工具：YimMenu全面防护与功能扩展指南

让 AI 做代码 Review（CR）：测试如何提前在代码提交阶段发现 Bug？

问题不是要不要审，而是审查放在哪条路径

水纹真实度提升300%的关键技巧，深度拆解--style raw、--chaos 45与自定义tile texture协同机制

别再手动点关了！用PowerShell永久关闭Windows Defender的保姆级教程（含Server 2016/2019）

别再只换芯片了！BP2832A替换CL1502，你的电感参数算对了吗？

全平台智能资源下载工具：res-downloader 完整使用教程