手把手教你搭建!Fun-ASR-MLT-Nano-2512语音识别Web界面快速上手

发布时间:2026/6/30 16:06:05

手把手教你搭建!Fun-ASR-MLT-Nano-2512语音识别Web界面快速上手 手把手教你搭建Fun-ASR-MLT-Nano-2512语音识别Web界面快速上手想不想拥有一个自己的语音识别助手不用再担心隐私泄露也不用忍受网络延迟更不用为每次调用付费。今天我就带你从零开始一步步搭建一个功能强大的本地语音识别系统——Fun-ASR-MLT-Nano-2512。这个系统最吸引人的地方就是它自带一个漂亮的Web界面。你不需要懂复杂的命令行打开浏览器上传音频文件点一下按钮文字就出来了。整个过程就像用在线工具一样简单但所有数据都在你自己的电脑或服务器上处理安全又快速。接下来我会用最直白的方式告诉你每一步该怎么做。从安装环境到启动服务从使用界面到解决常见问题保证你看完就能自己动手搭起来。1. 准备工作你需要什么在开始之前我们先看看需要准备些什么。别担心要求不高。1.1 硬件和软件要求首先你的电脑或服务器需要满足一些基本条件。我把它们列成了一个简单的表格方便你对照检查。项目最低要求推荐配置操作系统Linux (比如 Ubuntu 20.04)Ubuntu 22.04 或更高版本Python版本Python 3.8Python 3.11内存8 GB16 GB 或更多硬盘空间5 GB (主要放模型文件)10 GB 以上GPU (可选)没有也能用就是慢点NVIDIA显卡 (比如 RTX 3060)几个关键点说明一下为什么推荐Linux这个模型在Linux上运行最稳定依赖库也最好装。如果你用Windows建议安装WSL2Windows的Linux子系统。GPU不是必须的。没有独立显卡用CPU也能跑只是识别速度会慢一些。有GPU的话速度会快很多。模型文件有多大大概2GB左右所以确保你的硬盘有足够空间。1.2 获取项目文件我们使用的是“二次开发构建by113小贝”这个优化过的镜像版本它已经修复了一些问题用起来更省心。通常你可以通过以下几种方式获取从镜像仓库直接拉取如果你在云平台或使用Docker。下载压缩包并解压到你的工作目录。假设你已经把项目文件放到了/root/Fun-ASR-MLT-Nano-2512这个目录下。打开终端进去看看里面有什么cd /root/Fun-ASR-MLT-Nano-2512 ls -la你会看到类似下面这样的文件结构心里先有个数Fun-ASR-MLT-Nano-2512/ ├── app.py # Web服务的启动文件最重要 ├── model.pt # 核心模型文件大约2GB ├── requirements.txt # Python依赖包列表 ├── example/ # 示例音频可以用来测试 │ ├── zh.mp3 │ ├── en.mp3 │ └── ... └── ... (其他配置文件)好了场地和材料都准备好了我们开始“施工”。2. 三步搭建安装、启动、访问搭建过程其实就三步装软件、启动服务、打开网页。我们一步一步来。2.1 第一步安装系统依赖和Python包首先我们需要安装一个处理音频的工具ffmpeg模型靠它来读取各种格式的音频文件。在终端里输入以下命令针对Ubuntu/Debian系统sudo apt-get update sudo apt-get install -y ffmpeg安装完成后我们来安装Python需要的各种库。项目里已经有一个requirements.txt文件列出了所有需要的包。一键安装即可pip install -r requirements.txt这个过程可能会花几分钟因为它要下载和安装包括PyTorch在内的一些比较大的包。如果网络慢可以尝试使用国内的镜像源比如pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple常见问题提示权限不足在命令前加上sudo或者更好的是使用Python虚拟环境。想用虚拟环境可以这样操作# 安装虚拟环境工具如果还没装 pip install virtualenv # 创建名为‘funasr’的虚拟环境 virtualenv funasr_env # 激活虚拟环境 (Linux/Mac) source funasr_env/bin/activate # 激活后再执行 pip install -r requirements.txt2.2 第二步启动Web服务依赖装好了现在启动我们的语音识别服务。还是在项目目录下运行这个命令nohup python app.py /tmp/funasr_web.log 21 echo $! /tmp/funasr_web.pid这个命令干了三件事nohup ... 让服务在后台运行即使你关闭了终端窗口它也不会停。 /tmp/funasr_web.log把程序运行的所有输出信息日志都保存到/tmp/funasr_web.log这个文件里方便以后查看有没有报错。echo $! /tmp/funasr_web.pid把当前运行的服务进程号PID存到一个文件里这样我们后面想关闭服务的时候就知道该关谁。第一次启动会慢一点因为系统要加载那个2GB的模型文件到内存里。这个过程可能需要30秒到1分钟。你可以通过查看日志来判断它是否启动成功tail -f /tmp/funasr_web.log当你看到日志里出现类似Running on local URL: http://0.0.0.0:7860的字样时就说明服务已经启动好了。2.3 第三步访问Web界面服务启动后打开你的浏览器在地址栏输入http://localhost:7860如果一切顺利一个清晰、友好的Web界面就会出现在你面前通常界面会分为几个区域音频上传区、参数设置区、识别结果展示区。如果你想从同一网络下的其他电脑比如你的手机或另一台笔记本访问这个界面需要做一个小改动找到app.py文件里启动服务的那行代码通常在文件最后确保server_name是0.0.0.0这表示允许所有网络连接。 然后在其他设备浏览器里输入http://[你的服务器IP地址]:7860就可以了。别忘了在服务器防火墙上开放7860端口sudo ufw allow 7860。恭喜到这里你的本地语音识别系统就已经搭建完成了。是不是比想象中简单3. 怎么用Web界面全指南界面有了我们来看看怎么用它。这个Web界面设计得很直观你完全不用看说明书就能上手。3.1 核心功能区域介绍界面主要分为三大块输入区 (Input)上传音频文件点击按钮选择电脑里的MP3、WAV等音频文件。录音直接点击录音按钮用麦克风实时录制语音进行识别。示例音频界面上可能直接提供了几个内置的示例文件中、英、日文等点一下就能快速测试。设置区 (Settings) - 可选语言选择如果你的音频是特定语言如中文、英文、日语在这里指定可以提高识别准确率。不选的话模型也会自动检测。ITN开关ITN逆文本规整是个很实用的功能。打开它模型会把识别出的“一二三”自动转换成“123”把“明天下午两点”规范化让结果更符合阅读习惯。输出区 (Output)识别完成后转换成的文字会显示在这里。通常还会附带每个词的时间戳什么时候开始说的方便你做字幕。你可以一键复制文字或者下载成TXT文本文件。3.2 一次完整的识别流程我们用一个中文音频文件来走一遍流程上传文件点击“Upload Audio”按钮从你的电脑里选择一个.mp3格式的会议录音。选择语言可选在下拉菜单里选择“中文”。开启ITN推荐把“Enable ITN”选项勾上。开始识别点击“Transcribe”或“开始识别”按钮。查看结果稍等几秒取决于音频长短和你的电脑速度识别出的文字就会出现在下方。你可以检查一下“2023年”是不是被正确识别并规整成了数字。试试示例文件如果不确定自己的音频行不行可以先拿项目自带的example/zh.mp3试试水感受一下识别速度和准确度。4. 进阶使用用代码调用和常见问题如果你是个开发者想把语音识别功能集成到自己的程序里或者遇到了些小麻烦这部分就是为你准备的。4.1 通过Python代码直接调用除了Web界面你完全可以用代码来调用这个模型实现批量处理或者集成到自动化流程中。下面是一个最简单的例子# 导入必要的库 from funasr import AutoModel # 1. 加载模型告诉程序模型就在当前目录 print(正在加载模型首次加载较慢请耐心等待...) model AutoModel( model., # 模型路径.表示当前目录 trust_remote_codeTrue, devicecuda:0 # 使用GPU。如果是CPU改成 cpu ) # 2. 准备要识别的音频文件列表 audio_files [example/zh.mp3, path/to/your/audio.wav] # 3. 开始识别 print(开始识别音频...) results model.generate( inputaudio_files, # 可以一次传多个文件 language中文, # 指定语言 itnTrue # 启用文本规整 ) # 4. 打印结果 for i, res in enumerate(results): print(f文件 {audio_files[i]} 的识别结果) print(res[text]) print(- * 30)把这段代码保存成test_asr.py放在项目目录下运行就行。device参数很智能如果你写cuda:0但电脑没有GPU它会自动退回到CPU运行。4.2 你可能遇到的问题和解决办法即使按照步骤来有时也会碰到点小状况。这里有几个常见问题的排查方法问题访问http://localhost:7860打不开网页。检查服务是否在运行在终端输入ps aux | grep app.py看看有没有相关的Python进程。检查日志运行tail -n 50 /tmp/funasr_web.log看看最后50行日志有没有报错。常见的错误是端口被占用可以尝试修改app.py里的server_port为另一个数字比如7861。重启服务先停止kill $(cat /tmp/funasr_web.pid)再重新启动nohup python app.py ...。问题上传音频后识别失败或没反应。检查音频格式模型支持 MP3, WAV, M4A, FLAC 等常见格式。确保你的文件没损坏。检查采样率虽然模型会处理但16kHz采样率的音频兼容性最好。可以用工具如FFmpeg转换一下。查看日志日志里通常会明确写出错误原因比如“无法解码音频文件”。问题识别速度很慢。首次识别慢是正常的模型需要加载到内存耐心等待30-60秒。确认是否使用了GPU在Web界面或代码中看看有没有关于“CUDA”或“Using device: cuda:0”的提示。如果没有可能默认用了CPU。音频太长非常长的音频如1小时可能会占用大量内存。可以考虑先将长音频切割成小段。问题如何关闭服务优雅的关闭方式是kill $(cat /tmp/funasr_web.pid)。如果找不到pid文件可以用pkill -f python app.py。5. 总结你的专属语音识别工具好了整个搭建和使用过程就是这样。我们来回顾一下你刚刚完成了什么准备了一台Linux电脑或服务器满足了基本的环境要求。安装了必要的软件包括FFmpeg和一堆Python库。运行了一行命令就启动了一个带Web界面的语音识别服务。学会了通过网页上传音频、录音并瞬间得到文字结果。还知道了如何用代码调用它以及出了问题该怎么排查。最重要的是这一切都在你的本地环境里完成。你的会议录音、访谈内容、创意口述所有这些语音数据都不用离开你的设备安全和隐私得到了最大程度的保障。同时你再也不用受网络波动的影响识别速度只取决于你自己的硬件。这个基于Fun-ASR-MLT-Nano-2512的系统就像一个放在你自己家里的、支持31种语言的“字幕组”或“速记员”。无论是整理会议纪要、为视频生成字幕还是做语音笔记分析它都能派上用场。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关新闻