
Qwen3-ASR-0.6B在Ubuntu20.04上的安装与部署保姆级教程如果你对语音识别感兴趣想自己动手部署一个能听懂人说话的模型那今天这篇教程就是为你准备的。Qwen3-ASR-0.6B是一个轻量级的语音识别模型效果不错对硬件要求也不算太高。但第一次部署时可能会被各种环境依赖和报错搞得头大。别担心这篇教程会像朋友聊天一样带你一步步走完在Ubuntu 20.04上部署Qwen3-ASR-0.6B的整个过程。从最基本的系统环境检查到用WebUI直观地使用模型再到用Docker打包整个环境我都会用大白话讲清楚。目标是让你看完就能跑起来遇到问题也知道怎么解决。1. 动手之前先看看你的“工具箱”在开始安装任何软件之前先确认一下你的电脑环境是否准备好了这能避免很多莫名其妙的错误。1.1 系统要求首先确保你用的是Ubuntu 20.04。打开终端输入下面的命令就能看到系统信息lsb_release -a你会看到类似Description: Ubuntu 20.04.x LTS的输出。如果不是20.04后面的步骤可能会因为软件包版本不同而出问题。1.2 硬件与驱动检查语音识别模型通常需要GPU来加速我们先确认一下显卡和驱动。检查显卡型号lspci | grep -i nvidia如果有输出说明你的机器有NVIDIA显卡。检查NVIDIA驱动nvidia-smi这个命令会显示驱动版本和CUDA版本。如果提示命令未找到说明你还没安装NVIDIA驱动。你可以通过Ubuntu的“软件和更新”应用在“附加驱动”选项卡里选择安装或者用命令行安装这里不展开讲。看到类似CUDA Version: 11.7这样的信息就很好说明驱动和CUDA基础环境已经有了。1.3 基础软件包更新在安装新东西前最好先更新一下系统已有的软件包列表并安装一些我们后续可能会用到的编译工具。sudo apt update sudo apt upgrade -y sudo apt install -y wget curl git build-essential好了前期检查工作完成我们的“工作台”已经准备妥当可以开始安装核心部件了。2. 搭建核心环境Python、CUDA与PyTorch这是最关键的一步就像盖房子要先打地基。我们会安装特定版本的Python、CUDA工具包和PyTorch框架。2.1 安装Python 3.10Ubuntu 20.04默认的Python 3.8可能版本稍旧我们安装3.10会更稳妥。sudo apt install -y software-properties-common sudo add-apt-repository ppa:deadsnakes/ppa sudo apt update sudo apt install -y python3.10 python3.10-venv python3.10-dev安装完成后检查一下版本python3.10 --version2.2 配置CUDA环境虽然nvidia-smi显示了CUDA版本但那只是驱动支持的版本。我们还需要安装对应版本的CUDA工具包比如11.7以供开发使用。访问NVIDIA官网下载对应版本的CUDA Toolkit安装脚本或者直接用wget。这里以CUDA 11.7为例wget https://developer.download.nvidia.com/compute/cuda/11.7.0/local_installers/cuda_11.7.0_515.43.04_linux.run运行安装程序注意如果已安装驱动在安装选项中要取消勾选Driversudo sh cuda_11.7.0_515.43.04_linux.run安装完成后将CUDA路径添加到环境变量。编辑你的~/.bashrc文件echo export PATH/usr/local/cuda-11.7/bin:$PATH ~/.bashrc echo export LD_LIBRARY_PATH/usr/local/cuda-11.7/lib64:$LD_LIBRARY_PATH ~/.bashrc source ~/.bashrc验证安装nvcc --version这个命令输出的版本应该与你安装的CUDA版本一致。2.3 创建虚拟环境并安装PyTorch使用虚拟环境是个好习惯它能把你这个项目的依赖和系统其他Python项目隔离开避免“打架”。创建并激活虚拟环境python3.10 -m venv qwen_asr_env source qwen_asr_env/bin/activate激活后你的命令行提示符前面通常会显示(qwen_asr_env)表示你已经在这个虚拟环境里了。安装PyTorch 前往 PyTorch官网根据你的CUDA版本11.7选择对应的安装命令。例如pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117注意命令中的cu117就对应CUDA 11.7。验证PyTorch能否识别GPU 在虚拟环境中打开Python解释器python然后输入import torch print(torch.__version__) print(torch.cuda.is_available()) # 期望输出 True print(torch.cuda.get_device_name(0)) # 输出你的显卡型号如果torch.cuda.is_available()返回True恭喜你PyTorch和CUDA环境配置成功地基打好了接下来我们去把模型“请”回家。3. 获取模型并安装依赖现在我们来下载Qwen3-ASR-0.6B模型的代码并安装它运行所需的所有“零件”。3.1 克隆模型仓库找一个你喜欢的目录比如在用户主目录下创建一个项目文件夹cd ~ mkdir ai_projects cd ai_projects git clone https://github.com/QwenLM/Qwen3-ASR.git cd Qwen3-ASR3.2 安装Python依赖项目通常会提供一个requirements.txt文件里面列出了所有需要的Python库。我们直接用pip安装就行。# 确保你在虚拟环境中 source ~/qwen_asr_env/bin/activate # 确保你在 Qwen3-ASR 项目目录下 pip install -r requirements.txt这个过程可能会花点时间取决于你的网速。如果遇到某个包安装特别慢或失败可以尝试使用国内的镜像源比如在pip命令后加上-i https://pypi.tuna.tsinghua.edu.cn/simple。3.3 下载模型权重文件模型代码本身不包含训练好的“大脑”权重文件我们需要额外下载。根据项目README的指引你可能需要通过Hugging Face或者ModelScope来下载。例如使用Hugging Face的huggingface-cli工具如果还没安装先运行pip install huggingface-hubhuggingface-cli download Qwen/Qwen3-ASR-0.6B --local-dir ./model_weights或者如果项目提供了明确的下载脚本就运行它。下载的模型文件可能会比较大请耐心等待。至此模型和它的所有依赖都就位了。怎么用呢最直观的方式就是通过网页界面。4. 启动WebUI和模型对话Qwen3-ASR项目通常提供了一个基于Gradio的Web界面让你可以通过上传音频文件或直接录音来进行语音识别。4.1 启动WebUI服务在项目目录下运行启动脚本。这个脚本的名字可能是webui.py、app.py或者demo.py具体需要查看项目根目录的文件。假设是webui.pypython webui.py运行后终端会输出一些日志最后通常会有一行类似这样的信息Running on local URL: http://127.0.0.1:7860这说明服务已经成功启动在本机的7860端口。4.2 访问与使用界面打开你电脑上的浏览器在地址栏输入http://127.0.0.1:7860。页面加载后你应该能看到一个简洁的界面。一般会有一个文件上传区域让你上传.wav或.mp3等格式的音频文件。一个录音按钮如果浏览器支持可以直接点击录音。一个“识别”或“提交”按钮。一个文本框用于显示识别出的文字结果。尝试上传一个短的、清晰的语音文件比如自己用手机录一段“今天天气不错”点击识别。稍等片刻识别出的文字就会出现在文本框里。4.3 常见启动问题解决端口被占用如果7860端口已被其他程序使用启动脚本可能会报错。你可以在启动命令中指定另一个端口例如python webui.py --server_port 8080。Gradio相关错误如果提示缺少Gradio组件可以尝试升级pip install gradio --upgrade。模型加载失败检查上一步下载的模型权重文件是否放在了正确的路径通常是项目目录下的model_weights或checkpoints文件夹并且路径是否在代码中被正确引用。需要仔细查看项目的配置文件或脚本开头部分。用WebUI测试没问题证明我们的部署是成功的。但每次都要手动激活环境、启动脚本有点麻烦。有没有更“干净”、更便于分享的方法呢有那就是Docker。5. 使用Docker容器化部署Docker可以把我们的整个环境系统库、Python、模型代码、依赖打包成一个独立的“集装箱”。这样在任何安装了Docker的机器上都能一键运行完全不用操心环境配置问题。这里我给你两种方案。5.1 方案一使用现成的Docker镜像最省事如果模型官方或社区提供了制作好的Docker镜像那部署就简单到令人发指。安装Docker如果还没装sudo apt install -y docker.io sudo systemctl start docker sudo systemctl enable docker # 将当前用户加入docker组避免每次都要sudo需要重新登录生效 sudo usermod -aG docker $USER拉取并运行镜像 假设镜像名为registry.example.com/qwen3-asr:0.6b你需要替换为真实的镜像地址。docker pull registry.example.com/qwen3-asr:0.6b docker run -p 7860:7860 --gpus all registry.example.com/qwen3-asr:0.6b-p 7860:7860是把容器内的7860端口映射到宿主机的7860端口。--gpus all是把宿主机的GPU给容器用。5.2 方案二自己编写Dockerfile构建镜像更灵活如果没有现成镜像或者你想自定义环境就需要自己写一个Dockerfile。在项目根目录创建Dockerfile# 使用一个包含CUDA的基础镜像 FROM nvidia/cuda:11.7.0-runtime-ubuntu20.04 # 设置工作目录 WORKDIR /app # 安装系统依赖和Python RUN apt-get update apt-get install -y \ python3.10 \ python3.10-venv \ python3-pip \ git \ rm -rf /var/lib/apt/lists/* # 复制项目代码 COPY . . # 安装Python依赖 RUN pip3 install --no-cache-dir -r requirements.txt # 暴露WebUI端口 EXPOSE 7860 # 设置启动命令 CMD [python3, webui.py, --server_name, 0.0.0.0]构建镜像docker build -t my-qwen3-asr:latest .运行容器docker run -p 7860:7860 --gpus all my-qwen3-asr:latest无论哪种Docker方案成功运行后同样在浏览器访问http://127.0.0.1:7860就能使用WebUI了。6. 写在最后走完这一趟你应该已经在Ubuntu 20.04上成功让Qwen3-ASR-0.6B模型“安家落户”了。从最原始的命令行环境搭建到可视化的Web界面操作再到用Docker打包成随时可用的服务我们覆盖了从入门到进阶的几种典型部署方式。实际动手时可能会遇到一些教程里没写的小坑比如网络问题导致下载慢、某个库版本冲突等等。这时候别慌仔细看终端的报错信息它通常会告诉你哪里出错了。搜索引擎是你最好的朋友大部分常见错误都能找到解决方案。部署成功只是第一步接下来你可以试着用不同的音频去测试它的识别准确率或者研究一下如何将它集成到你自己的应用里去比如做一个语音笔记工具。希望这篇教程能帮你省下一些摸索的时间让你更专注于创造有趣的东西。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。