
130K小时多语言训练数据加持Granite-Speech-4.1-2B-NAR的WER表现全面解析【免费下载链接】granite-speech-4.1-2b-nar项目地址: https://ai.gitcode.com/hf_mirrors/ibm-granite/granite-speech-4.1-2b-nar在语音识别技术快速发展的今天IBM推出的Granite-Speech-4.1-2B-NAR模型凭借其创新的非自回归架构和130K小时的多语言训练数据在词错误率(WER)表现上取得了令人瞩目的成绩。这款基于NLE非自回归LLM编辑架构的语音识别模型专门为低延迟应用场景设计在保持高准确率的同时大幅提升了推理速度。什么是Granite-Speech-4.1-2B-NARGranite-Speech-4.1-2B-NAR是一个非自回归语音识别模型它将ASR任务重新定义为条件转录编辑问题。与传统的自回归模型逐词解码不同该模型通过双向LLM在单次前向传递中编辑CTC假设实现了更快的推理速度而不牺牲准确性。这个20亿参数模型支持英语、法语、德语、西班牙语和葡萄牙语五种语言。核心架构解析为什么WER表现如此出色 三层架构设计模型由三个关键组件构成CTC语音编码器4.4亿参数- 16层Conformer编码器使用字符级目标的CTC训练Q-Former投影器1.6亿参数- 将编码器输出下采样5倍双向LLM编辑器10亿参数LoRA适配- 基于granite-4.0-1b-base移除了因果注意力掩码这种架构利用了身份映射偏差原理使模型更倾向于复制输入标记从而将学习能力集中在纠正错误而非完全重建上。 WER性能数据一览基于130K小时多语言训练数据模型在多个基准测试中表现出色数据集WER数据集WERLibriSpeech clean1.29MLS EN4.77LibriSpeech other2.75MLS DE4.75CommonVoice 15 EN6.50MLS ES3.31CommonVoice 15 DE4.73MLS FR4.52CommonVoice 15 ES4.02MLS PT11.86CommonVoice 15 FR7.17AMI IHM7.91CommonVoice 15 PT2.57AMI SDM19.59Earnings-228.48GigaSpeech10.12SPGISpeech3.04TED-LIUM3.67VoxPopuli5.83⚡ 推理速度优势在单块H100 GPU上模型实现了约1820的RTFx实时因子支持批量推理批量大小128。这意味着在实际应用中Granite-Speech-4.1-2B-NAR能够提供接近实时的语音识别体验。训练数据130K小时的坚实基础模型的优异表现离不开其庞大的训练数据基础总训练时长约130K小时多语言语音数据支持语言英语、西班牙语、法语、德语、葡萄牙语数据来源CommonVoice 15、MLS、LibriSpeech、Libriheavy long、AMI、Granary VoxPopuli、Granary YODAS、Earnings-22、Fisher、CallHome、SwitchBoard等公开数据集一键安装与快速使用指南 环境配置pip install torch2.9.1 torchaudio2.9.1 pip install transformers4.57.6 accelerate1.13.0 pip install flash-attn2.8.3 --no-build-isolation 基础使用示例from transformers import AutoModel, AutoFeatureExtractor model AutoModel.from_pretrained( ibm-granite/granite-speech-4.1-2b-nar, trust_remote_codeTrue, attn_implementationflash_attention_2 )完整的代码示例可在modeling_nle.py和configuration_nle.py中找到。与其他模型的对比选择 何时选择Granite-Speech-4.1-2B-NAR低延迟场景需要快速推理的实时应用批量处理需要同时处理多个音频文件资源受限环境在保证准确性的前提下优化计算资源 其他Granite Speech模型推荐追求最高准确率granite-speech-4.1-2b - 自回归模型支持标点和大小写需要说话人信息granite-speech-4.1-2b-plus - 支持说话人归属ASR和词级时间信息性能优化技巧 提升WER表现的实用建议音频预处理确保输入音频为16kHz单声道格式批量优化合理设置批量大小以平衡内存和速度精度选择使用bfloat16精度进行推理以获得最佳性能特征提取正确使用feature_extraction_nle.py中的特征提取器技术实现细节️ 核心配置文件模型配置configuration_nle.py特征提取feature_extraction_nle.py模型实现modeling_nle.pyCTC编码器modeling_ctc.py投影器实现modeling_projector.py 工作流程CTC编码器生成声学嵌入和初始假设假设与插入槽交错排列投影音频嵌入与交错假设嵌入连接双向LLM在所有位置同时预测编辑操作CTC贪婪解码产生最终转录总结与展望Granite-Speech-4.1-2B-NAR通过创新的非自回归架构和130K小时的多语言训练数据在WER表现上达到了业界领先水平。其独特的CTC编码器双向LLM编辑器设计不仅保证了高准确率还显著提升了推理速度特别适合实时语音识别应用。随着语音识别技术的不断发展非自回归模型正成为低延迟场景的重要选择。Granite-Speech-4.1-2B-NAR的成功实践为语音识别技术的性能优化提供了新的思路和方向。无论是学术研究还是工业应用这款模型都值得深入探索和使用。其开源特性也使得开发者能够基于此进行二次开发和优化推动整个语音识别领域的技术进步。【免费下载链接】granite-speech-4.1-2b-nar项目地址: https://ai.gitcode.com/hf_mirrors/ibm-granite/granite-speech-4.1-2b-nar创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考