
Qwen-Audio评测全解析12个基准测试的SOTA表现【免费下载链接】Qwen-AudioThe official repo of Qwen-Audio (通义千问-Audio) chat pretrained large audio language model proposed by Alibaba Cloud.项目地址: https://gitcode.com/gh_mirrors/qw/Qwen-AudioQwen-Audio是阿里云研发的大规模音频语言模型作为一款先进的音频理解模型在12个标准学术数据集上展现了卓越的性能。这款通用音频理解模型支持多种音频类型和任务无需特定任务微调即可在多个基准测试中达到SOTAState-of-the-Art水平。 Qwen-Audio全能音频理解模型的突破Qwen-Audio是基于Qwen-7B预训练模型和Whisper-large-v2音频编码器构建的大规模音频语言模型。它能够处理说话人语音、自然音、音乐、歌声等多种音频输入并以文本形式输出理解结果。项目采用创新的多任务训练框架支持超过30种不同的音频任务实现了相似任务间的知识共享同时最小化不同任务之间的干扰。Qwen-Audio多任务训练框架支持超过30种音频任务 12个基准测试全面领先Qwen-Audio在12个标准学术数据集上进行了全面评测涵盖了语音识别、语音翻译、音频描述、场景分类、情感识别等多个维度。以下是关键评测结果的详细分析 中英文语音识别ASR表现突出在英文语音识别任务中Qwen-Audio在LibriSpeech测试集上取得了WER词错误率2.0%的优异成绩超越了SpeechT5、SpeechNet、SLM-FT和SALMONN等主流模型。中文语音识别方面表现更加亮眼在Aishell1测试集上达到WER 1.3%创下新的SOTA记录在Aishell2测试集上不同设备环境下的WER均保持在3.1-3.3%的优异水平 语音翻译S2TT多语言能力强大在CoVoST2多语言语音翻译数据集上Qwen-Audio展现了强大的跨语言理解能力翻译方向BLEU分数对比优势英→德25.1显著超越BLSP的14.1德→英33.9超越SpeechLLaMA的27.1英→中41.5超越SALMMON的33.1中→英15.7超越SpeechLLaMA的12.3 音频描述与场景理解音频标题生成AAC在Clotho数据集上Qwen-Audio在CIDER、SPICE和SPIDEr三个指标上均超越了Pengi模型其中CIDER得分达到0.441。音频场景分类ASC在Cochlscene数据集上取得ACC 0.795的SOTA成绩远超基准模型Cochlscene的0.669。 情感识别与语音分析语音情绪识别SER在MELD数据集上Qwen-Audio的情感识别准确率达到0.557超越了WavLM-large模型的0.542。语音分类VSC在VocalSound数据集上表现尤为突出ACC达到0.9289大幅领先CLAP的0.4945和Pengi的0.6035。Qwen-Audio在多个评测任务上的综合表现雷达图 快速上手指南环境要求Python 3.8PyTorch 1.12推荐2.0CUDA 11.4GPU用户FFmpeg安装与配置pip install -r requirements.txt基础使用示例Qwen-Audio-Chat提供了简洁的API接口几行代码即可开始音频理解from transformers import AutoModelForCausalLM, AutoTokenizer # 初始化模型 tokenizer AutoTokenizer.from_pretrained(Qwen/Qwen-Audio-Chat, trust_remote_codeTrue) model AutoModelForCausalLM.from_pretrained(Qwen/Qwen-Audio-Chat, device_mapcuda, trust_remote_codeTrue).eval() # 音频理解示例 query tokenizer.from_list_format([ {audio: assets/audio/1272-128104-0000.flac}, {text: what does the person say?}, ]) response, history model.chat(tokenizer, queryquery, historyNone) print(response) 多模态音频理解能力多语言支持Qwen-Audio-Chat支持中、英、日、韩、德、西、意等多种语言的语音理解还能识别中文方言和口音。环境音理解与推理模型不仅能识别环境音还能基于音频内容进行逻辑推理。例如识别玻璃破碎声后可以提供安全处理建议。音乐分析能力Qwen-Audio能够识别乐器类型、分析音乐风格并基于音乐内容提供详细的赏析和推荐。多音频输入处理支持同时处理多个音频输入进行对比分析和综合理解如识别不同语气下的情感差异。Qwen-Audio在多个评测任务上的详细对比数据 项目文件结构了解项目结构有助于更好地使用Qwen-AudioQwen-Audio/ ├── audio.py # 音频处理核心模块 ├── modeling_qwen.py # 模型架构定义 ├── tokenization_qwen.py # 分词器实现 ├── eval_audio/ # 评测脚本目录 │ ├── evaluate_asr.py # 语音识别评测 │ ├── evaluate_st.py # 语音翻译评测 │ ├── evaluate_caption.py # 音频描述评测 │ └── ... # 其他评测脚本 ├── assets/ # 资源文件 │ ├── audio/ # 示例音频文件 │ └── *.png # 图表资源 └── requirements.txt # 依赖包列表 实际应用场景1. 智能语音助手利用Qwen-Audio的语音识别和情感分析能力构建更智能的语音交互系统。2. 音频内容分析自动生成音频内容的文字描述适用于播客、会议录音等内容处理。3. 多语言翻译服务支持多语言语音实时翻译适用于国际会议、旅游等场景。4. 音乐教育工具分析音乐作品提供乐器识别、音乐风格分析等功能。 性能优势总结全面领先在12个标准评测中多个任务达到SOTA水平多任务统一单一模型支持30音频任务无需任务特定微调多语言支持覆盖主流语言及方言识别灵活交互支持多轮对话、多音频输入等复杂交互场景开源可用模型权重和代码完全开源支持商业使用 使用建议音频长度建议处理30秒以内的音频以获得最佳效果硬件配置GPU推理需要约24GB显存CPU推理需要约32GB内存模型选择Qwen-Audio适合基础音频理解Qwen-Audio-Chat适合对话交互任务适配虽然模型支持零样本学习特定任务微调可进一步提升性能Qwen-Audio代表了音频理解领域的重要突破其统一的多任务框架和卓越的评测表现使其成为音频AI应用的理想选择。无论是研究还是商业应用这个开源项目都提供了强大的技术基础和丰富的可能性。注本文基于Qwen-Audio官方文档和评测数据编写详细信息请参考项目文档。【免费下载链接】Qwen-AudioThe official repo of Qwen-Audio (通义千问-Audio) chat pretrained large audio language model proposed by Alibaba Cloud.项目地址: https://gitcode.com/gh_mirrors/qw/Qwen-Audio创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考