如何快速上手IBM Granite Speech 4.1-2B:5分钟实现多语言语音转文本

发布时间:2026/6/17 7:01:14

如何快速上手IBM Granite Speech 4.1-2B:5分钟实现多语言语音转文本 如何快速上手IBM Granite Speech 4.1-2B5分钟实现多语言语音转文本IBM Granite Speech 4.1-2B是一款高效紧凑的语音语言模型专为多语言自动语音识别ASR和双向自动语音翻译AST设计支持英语、法语、德语、西班牙语、葡萄牙语和日语。本文将带你5分钟内快速掌握这个强大工具的使用方法实现专业级语音转文本功能。 为什么选择Granite Speech 4.1-2B这款模型拥有20亿参数经过174,000小时的音频训练相比上一代产品带来了多项显著改进更高的多语言ASR转录准确率采用创新的双头CTC编码器全语言标点符号和大小写处理包括德语名词大写增强的关键词列表偏向功能提升名称、缩写和技术术语的识别能力 准备工作环境搭建一键安装依赖首先确保你的环境中已安装Python然后通过以下命令安装必要的依赖包pip install transformers torchaudio soundfile获取模型文件使用以下命令克隆项目仓库git clone https://gitcode.com/hf_mirrors/ibm-granite/granite-speech-4.1-2b cd granite-speech-4.1-2b仓库中包含模型运行所需的所有关键文件如config.json、preprocessor_config.json和分词器配置文件等。 快速开始5分钟实现语音转文本使用Transformers库的基本示例以下是一个简单的Python代码示例展示如何使用Granite Speech 4.1-2B进行语音转录import torch import torchaudio from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor # 设置设备 device cuda if torch.cuda.is_available() else cpu # 加载模型和处理器 model_name ibm-granite/granite-speech-4.1-2b processor AutoProcessor.from_pretrained(model_name) model AutoModelForSpeechSeq2Seq.from_pretrained( model_name, device_mapdevice, torch_dtypetorch.bfloat16 ) # 加载音频文件使用项目中提供的示例音频 audio_path multilingual_sample.wav wav, sr torchaudio.load(audio_path, normalizeTrue) assert wav.shape[0] 1 and sr 16000 # 确保是单声道16kHz音频 # 创建文本提示 user_prompt |audio|transcribe the speech with proper punctuation and capitalization. chat [{role: user, content: user_prompt}] prompt processor.tokenizer.apply_chat_template(chat, tokenizeFalse, add_generation_promptTrue) # 运行语音转文本 model_inputs processor(prompt, wav, devicedevice, return_tensorspt).to(device) model_outputs model.generate(**model_inputs, max_new_tokens200, do_sampleFalse, num_beams1) # 提取并打印结果 num_input_tokens model_inputs[input_ids].shape[-1] new_tokens model_outputs[0, num_input_tokens:].unsqueeze(0) output_text processor.tokenizer.batch_decode(new_tokens, add_special_tokensFalse, skip_special_tokensTrue) print(f转录结果: {output_text[0]}) 按任务选择最佳提示词根据不同的使用场景选择合适的提示词可以获得更好的结果任务推荐提示词注意事项ASR原始转录can you transcribe the speech into a written format?支持多语言提示如法语Pouvez‑vous reconnaître le contenu de la parole ?ASR带标点transcribe the speech with proper punctuation and capitalization.非英语ASR需要使用英语提示ASR带关键词偏向transcribe the speech to text. Keywords: kw1, kw2, ...非英语ASR需要使用英语提示AST原始翻译translate the speech to language.language可以是English, French, German, Spanish, Japanese, Italian, Mandarin⚡️ 提升性能使用vLLM加速推理对于需要更高吞吐量的场景可以使用vLLM进行推理加速pip install vllmvLLM提供了离线和在线两种使用模式具体实现可参考项目README.md中的详细说明。 支持的语言和应用场景Granite Speech 4.1-2B支持以下语言的语音识别和翻译英语、法语、德语、西班牙语、葡萄牙语、日语英语到意大利语和英语到普通话的翻译该模型非常适合企业应用中的语音处理需求如会议记录、客户服务通话分析、多语言内容创建等场景。 更多资源技术文档README.md配置文件config.json、preprocessor_config.json官方资源https://www.ibm.com/granite/docs/通过以上步骤你已经掌握了IBM Granite Speech 4.1-2B的基本使用方法。这个强大的工具能够帮助你轻松实现多语言语音转文本功能为你的项目增添高效的语音处理能力。现在就开始尝试吧创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关新闻