Echomimic虚拟数字人的部署与应用

发布时间:2026/5/30 4:08:16

Echomimic虚拟数字人的部署与应用 Echomic是蚂蚁集团开发的数字人项目目前有三个版本三个版本略有不同V1版本专注音频控制人像动画“可编辑的人脸关键点控制V2版本增加了半身动画简化控制条件v3版本规模更大有13亿个参数支持”统一多模态、多任务人类动画”的模型。本文将介绍Windows下Echomimic V1版本的部署与应用。另外Linux系统以及EchomimicV2, V3的部署都与V1版本类似具体步骤如下1、代码下载git clone gitgithub.com:antgroup/echomimic.gitcd Echomimic2、ffmpeg下载与配置通过这个地址找到与本地电脑操作系统适配的ffmpeg下载,https://github.com/BtbN/FFmpeg-Builds/releaseswin11需要下载这个版本:ffmpeg-n6.1.3-win64-gpl-shared-6.1下载完成后配置ffmpeg的环境变量如下:setx /M PATH %PATH%;D:\code\llmops-echomimic\ffmpeg-n6.1.3-win64-gpl-shared-6.1\binsetx FFMEG_DIR D:\code\llmops-echomimic\ffmpeg-n6.1.3-win64-gpl-shared-6.1\ffmpegsetx INCLUDE D:\code\llmops-echomimic\ffmpeg-n6.1.3-win64-gpl-shared- 6.1\include;%INCLUDE%setx LIB D:\code\llmops-echomimic\ffmpeg-n6.1.3-win64-gpl-shared-6.1\lib;%LIB%3、下载pretrained_weights模型下载pretrained_weights总过32G左右官方提供了两种方式:3.1、 通过git仓库下载执行如下命令git lfs install git clone https://huggingface.co/BadToBest/EchoMimic pretrained_weights3.2、 通过Hugging Face CLI下载由于Git仓库下载不太稳定下载过程中下载到一半总是报连不上服务器导致下载中断建议通过Hugging Face CLI下载具体步骤如下1、下载并安装Hugging Face CLIPowerShell管理员权限打开后执行下面命令HuggingFace CLI下载的步骤如下powershell -ExecutionPolicy ByPass -c irm https://hf.co/cli/install.ps1 | iexpowershell表示用 PowerShell 执行命令。-ExecutionPolicy ByPass临时允许执行远程脚本否则系统会阻止。irm 是 Invoke-RestMethod 的缩写用来从网络下载内容。https://hf.co/cli/install.ps1Hugging Face 官方提供的安装脚本地址。| iex将下载的脚本内容直接执行相当于“下载并立即运行”。这段代码的作用是自动安装 Hugging Face 的命令行工具 hf安装完成后用 hf 命令来登录或下载模型。也可以通过这个命令升级模型:powershell -NoProfile -Command iwr -useb https://hf.co/cli/install.ps1 | iex安装完成后执行如下命令查看版本号老版本 hf --version ,新版本的hugging face 通过 python -c import huggingface_hub as h; print(h.__version__)查看版本号2、登录hf老版本hf login登录的过程中需要输入Token,可以通过如下地址查看自己的Token: https://huggingface.co/settings/tokens如果没有Token直接新建一个Token。新版本登录: hf auth login3、下载Echomimic模型hf download BadToBest/EchoMimic --local-dir D:\models\EchoMimic4、安装依赖Pycharm中Terminal中通过pip install -r requirements.txt安装所有依赖5、功能开发在原有Echomimic功能的基础上添加生成文案、以及把生成的文案转化为语音的功能。采用Gradio技术编排界面其中获取文案的功能调用爱乐乐AI Agent生成口播文案。然后调用OpenAI的tts模型将文案转换为语音结果放到Echomimic需要放置音频的地方。具体流程文案主题中输入文案点击获取文案按钮生成文案展示在文案内容中然后点击生成语音按钮生成的语音在下方生成对应文案的语音。结果如下图所示这部分布局代码如下6、项目启动配置启动参数启动D:\code\llmops-echomimic\venv\Scripts\python.exe D:\code\llmops-echomimic\webgui.py --server_name127.0.0.1 --server_port3000启动成功启动成功后把生成的方案转为语音然后上传一张照片点击生成Generate Radio就可以数字人界面如下至此数字人生成成功

相关新闻