12500 黄大年茶思屋榜文“难题揭榜”第125期——媒体技术难题第四期 完整全题梳理

发布时间:2026/6/11 10:46:12

12500 黄大年茶思屋榜文“难题揭榜”第125期——媒体技术难题第四期 完整全题梳理 “难题揭榜”第125期——媒体技术难题第四期 完整全题梳理总公告信息发布时间2025-07-07浏览370次揭榜说明欢迎大家毛遂自荐、踊跃揭榜。对于解决难题或提供重大思路的会给予及时激励并张榜公布。如有任何问题请直接与接口专家联系如有其它建议可与首席科学家李瑞华 liruihuahuawei.com 联系。难题1弱网视频通话场景的极低码率AI视频编解码出题组织媒体编解码技术实验室、香港理论研究部接口专家王晶 wangjing215huawei.com孙杰 jsunhuawei.com余小勇 yuxiaoyonghuawei.com一、技术背景弱网视频通话场景信号不稳定、带宽低需要高清低码视频编解码方案。传统视频编解码在该场景主观体验差。对比视频来自Vimeo-90K数据集。AI视频编解码近几年发展迅速压缩效果已显著超越传统方案在弱网视频通话场景展现了很强的应用潜力。二、技术挑战高清低码如何基于人眼主观感知在低码率下实现高质量的视频传输模型轻量化AI视频编码计算复杂度高已公开方案均无法在手机部署。如何在保持压缩效率的同时显著降低模型复杂度三、业界进展DCVC-RT微软2025年推出的AI视频编解码压缩率超越H.266 21%但复杂度超过200kM ACs/px无法手机端部署。DeepRender宣称AI视频编解码压缩率超越H.265 55%可在MacBook Pro实时解码技术细节未公开。四、技术诉求面向弱网视频通话场景研究极低码率AI视频编解码测试集由华为指定1. 基本目标50kbps高清低码视频分辨率≥540p帧率≥10fps解码视频MOS分3低复杂度编码复杂度不超过30kMACs/px解码复杂度不超过20kMACs/px2. 挑战目标10kbps高清低码视频分辨率≥540p帧率≥10fps解码视频MOS分3低复杂度编码复杂度不超过80kMACs/px解码复杂度不超过50kMACs/px说明① 主观测试方法遵循标准ITU-R BT. 500, ITU-T P.910, ITU-T P.911参考文献[1] http://toflow.csail.mit.edu/[2] Jia, Zhaoyang, et al. “Towards Practical Real-Time Neural Video Compression.” arXiv:2502.20762 (2025)[3] https://deeprender.ai/用户评论补充用户提问#难题1# 请问允许使用非网络的压缩技术吗就是运算速度慢一点但是压缩比更好重建效果更好的技术。难题2个性化TTS场景下的副信息控制迁移技术已揭榜出题组织音频工程部接口专家黄鼎 huangding2huawei.com一、技术背景语音合成TTS在大语言模型的推动下核心演进逐步迈向高自然度、情感表达、多语言支持和个性化定制。受限于参考语音的音质和数量当前的合成模型不能有效支持语音翻译场景原始风格保持以及语音助手的自然情感反馈的高表现力要求探索情感精细控制、口语泛化和零样本复刻风格、情感和音色的任意组合仍然是业界挑战的难题对语音合成系统的场景化与个性化体验意义重大。典型场景语音助手语音翻译场景需保留原始说话人的情绪、口音。二、技术挑战音色、语义与副信息表征集外说话人风格/情感的复刻要将集内语音的音色和情感解耦现有方案解耦程度不足信息泄漏导致合成语音风格失真情感表达不自然。迁移情感与音色的重组副信息情感、语速、停顿、重音等是语音表达力关键受限于高表现力情感数据缺失、迁移情感与用户音色匹配度等问题显式细粒度的情感建模难度大。跨语言口音问题语种间声调、重音等表达方式的差异往往会导致外国腔问题准确迁移其语音风格和表达习惯并保证口音标准自然是一大难点。三、当前结果业界主流方案为分级架构分为韵律建模、音色注入两大部分LLM负责情感和风格建模CFM流模型控制音色。依赖于大数据大模型的泛化能力个性化场景下音色相似度MOS普遍已经达到4.2分但是情感反馈能力弱七分类情感合成准确率约70%且整体自然度较低主观mos分约为3.95不支持跨语言场景下的风格指定能力无法满足用户需求。四、技术诉求场景支持集外说话人的情感等副信息迁移涵盖多样化的场景与个性化表达需求此部分华为会提供对应素人测试集指标主观自然度评分MOS≥4.5音色相似度评分MOS≥4.5情感标签常见七类喜、怒、哀、惊、惧、厌、中性迁移准确率≥90%副信息标签语速、停顿、重音等准确率≥90%性能对于集外单人语音时长要求≤30s910B卡或同等算力推理实时率音频总时长÷音频生成时间1参考文献[1] Cosyvoice: A scalable multilingual zero-shot text-to-speech synthesizer based on supervised semantic tokens.[2] Fleespeech: Flexibly Controllable Speech Generation with Various Prompts.难题3面向语义和情感认知的语音encoder技术出题组织音频工程部接口专家杨建宾 yangjianbin3huawei.com一、技术背景在语音交互系统中语音encoder是至关重要的一环基于encoder提取的语音表征是语音大模型不可或缺的重要组件encoder有以下几个重要作用对语音信息进行表征学习encoder的隐藏层可以输出语音的离散或连续表征这种表征能够捕捉并压缩语音的信息使得下游模型能够根据这些特征进行语音识别、语音合成、意图理解、说话人识别等任务。多模态大模型接入encoder输出的表征可与文本及其他模态进行对齐接入大模型使多模态大模型具备语义及情感等音频模态信息的理解和生成能力可用于语音对话、语音识别、语音翻译等业务。二、技术挑战声学鲁棒性实际应用场景中面临噪声、远场等复杂环境以及方言、口音的多样性需要保证复杂场景下的一致性体验。情感语义认知基于同一个通用语音encoder能够同时分别输出准确的语义和情感表征。流式预训练流式预训练的效果如何能达到与离线预训练相当所得模型可以无缝应用于下游流式任务。三、当前结果安静、标准普通话场景字准确率达到97%以上但在复杂场景SNR5dB中等口音强度字准确率小于87%SUPERB语音处理通用性能基准测试榜单上情感识别准确率最高为70.62%ASR字准确率最高为96.64%分别来自不同系统。四、技术诉求语义理解鲁棒性诉求安静、普通话场景流式识别字准确率达到99%复杂场景SNR5dB中等口音强度流式识别字准确率95%以上流式识别时延小于500ms情感认知诉求在语义表征能力不受影响的情况下使encoder具备情感表征能力情感识别准确率挑战达到90%以上。性能诉求输出音频表征的帧率为12.5~25Hzencoder推理实时率在910B卡或同等算力≤0.1。验收方法ASR验收测试集为内部测试集验收指标为字准确率情感识别验收测试集为SUPERB情感测试集验收指标为情感识别准确率。参考文献[1] Du Z, Chen Q, Zhang S, et al. Cosyvoice: A scalable multilingual zero-shot text-to-speech synthesizer based on supervised semantic tokens[J]. arXiv preprint arXiv:2407.05407, 2024.[2] Radford A, Kim J W, Xu T, et al. Robust speech recognition via large-scale weak supervision[C]//International conference on machine learning, PMLR, 2023: 28492-28518.难题4可控人像重打光技术已揭榜出题组织图像工程部接口专家王钰清 wangyuqing31huawei.com一、技术背景背景摄影是用光的艺术专业的光影效果可显著提升照片整体氛围感。面对用户拍摄的各种复杂场景需要一个支持多要素连续可控和环境光效可控的整体端到端打光模型通过整体光影重塑提升照片氛围感当前学界、业界的AI重打光技术存在真实性差、不够美观、ID不一致等问题。目标本难题希望提升AI重打光的真实度和美观度实现多属性光型可控人景光效和谐自然。二、技术挑战可控人像打光技术要求对光位、光质、光比、色温等因素进行准确控制且要求皮肤、发丝等材质的光效细腻自然当前面临高质量打光数据获取困难的问题业界通常采用LightStage拍摄获取打光数据但其搭建成本高、周期长此外需要研发适配的模型架构支撑多要素联合控制。人景光效和谐要求对人物、环境进行和谐统一的打光编辑整体光效和谐度、真实度挑战大人物和景物的ID保持困难且同样面临高质量数据获取困难和模型架构设计的问题。三、技术诉求可控人像打光技术支持光位、光质、光比、色温等因素连续可控效果真实自然各种控制因素分别达成惊艳率70%优片率90%劣片率2%由第三方测试主观判定。人像背景统一打光技术保持人像与背景环境光效和谐自然ID一致整体端到端惊艳率70%优片率90%劣片率2%由第三方测试主观判定。性能要求4K分辨率下910B推理时延5s参考文献[1] Zhang L, Rao A, Agrawala M. Scaling in-the-wild training for diffusion-based illumination harmonization and editing by imposing consistent light transport[C]//The Thirteenth International Conference on Learning Representations. 2025.[2] Magar N, Hertz A, Tabellion E, et al. LightLab: Controlling Light Sources in Images with Diffusion Models[J]. arXiv preprint arXiv:2505.09608, 2025.

相关新闻