写了三年小说零读者？这个开源AI工具，3小时能给你一部广播剧-尧图网站设计

广播剧制作成本从5万降到0——不是降了是直接归零。去年冬天一个写网文的朋友问我有没有办法把小说做成广播剧我说有——找人配音、买音效库、租录音棚、请混音师。他沉默了一会问多少钱我算了一下5万起工期两个月。他再没提过这件事。今年六月我在 GitHub 上看到了 dfytensor 的 BokeSkill。准确地说是看到了它跑完一个完整的广播剧 demo——从小说文本输入到角色配音、环境音效、背景音乐、多轨混音最后输出一个 wav 文件。整个过程没有人工干预。不是省了一些步骤是整条链路全自动。一、你以为是钱的问题其实是整条音频制作链路在吃掉你的创作时间传统广播剧制作五个环节缺一不可编剧改编脚本——把小说拆成可配音的片段设计节奏和钩子配音导演分配角色——为每个角色找合适的声音配音演员逐句录制——一部中篇小说动辄上百句台词音效师搭环境音——雨声、脚步、开门、碎裂每一声都要对混音师多轨合成——对白、音效、BGM 叠在一起调音量、做远近每个环节都有沟通成本、排期成本、返工成本。更致命的是作为创作者你对任何一个环节没有掌控力——配音演员请假工期延一周混音师理解错了情绪全部重来。这也是为什么大部分网络小说作者——包括那个再没提过广播剧的朋友——永远不会尝试把自己的文字变成声音。不是不想是不敢想。BokeSkill 做的事情不是优化某个环节而是把整条链路压缩成了一组 AI 模型一条命令。你给小说原文。它拆场景、设钩子、分角色、配声音、铺音效、混音输出。不用会只需有——有一块 NVIDIA 显卡。但成本归零只是第一层。接下来你会发现——AI 做的东西居然能比人工调的还对。二、四个模型一条命令从小说到 WAV 的全自动流水线BokeSkill 底层串联了四个本地 AI 模型跑在一条统一的生成脚本上。来看这条流水线的每一环第一阶段声音设计Qwen3-TTS VoiceDesign你只需要用文字描述角色声音——“40岁低沉沙哑的中年男声语速偏慢说话时习惯在句末短暂停顿”——模型就给你生成一个角色参考音色。不需要试音不需要 audition不需要等人回复。第二阶段逐句配音Qwen3-TTS Base VoiceClone用上一步生成的参考音色克隆出该角色的每一句台词。14 句、50 句、200 句——全自动跑完。每句话的情绪可指定悲伤、愤怒、震惊、温柔。不是 TTS 机器人腔是有情绪的配音。第三阶段音效背景音乐Stable Audio 3 Medium Qwen2.5-Omni 质量评估这是整条流水线最让我意外的一环。Stable Audio 3 Medium 同时负责两件事音效你写木质大门缓慢打开的吱呀声带有老旧金属铰链的摩擦感它 8 步生成一段 3 秒的音效。BGM你写低音弦乐缓慢爬升伴随工业打击乐的渐强节奏它给你一条完整的背景音乐。然后Qwen2.5-Omni-3B对每一个生成的音频打分1-10 分。低于 7 分的自动触发修复循环——重写 prompt、重新生成、重新评分。直到所有音效和 BGM 都达到 7 分以上才进入混音。这不是玩具。这是一个带自我质量控制的工业级管线。第四阶段多轨混音 DSPAudio-Oscar Mixer对白轨、音效轨、音乐轨三条总线叠在一起经过压缩器、限制器、响度归一化——输出一条专业的drama_final.wav。全程一条命令python bridge_final.py而且所有生成全在本地执行。这也是下一个话题。三、纯本地运行——你的小说不经过任何人的服务器这一点我不想轻描淡写地带过。目前市面上绝大多数的 AI 音频工具不管是配音还是音效生成都是云端 API。你的文本要上传到别人的服务器生成结果要经过别人的网络。对于写了几十万字小说的作者来说这不仅是隐私问题——更是内容安全问题。BokeSkill 全部在本地运行Qwen3-TTS 在你的 GPU 上推理Stable Audio 3 在你的 GPU 上生成音效和音乐Qwen2.5-Omni 在你的 GPU 上做质量评估混音在你的 CPU 上完成不需要 API Key。不需要网络连接。不需要担心你的稿子被谁看到、被谁用来训练模型。当前实测配置RTX 4090 D24GB 显存32GB 内存Windows 系统。四个模型顺序加载/卸载峰值显存占用约 11GB——一台主流 AI PC 完全够用。代码全在 GitHub 上MIT 协议可以商用。开源只是起点。BokeSkill 的真正价值不在于它今天能做什么而在于它明天会被社区做成什么。结语这不是一个工具这是一次内容创作方式的降维打击BokeSkill 让我想起 2022 年的 Stable Diffusion——初版还很粗糙但所有人都知道游戏规则变了。当广播剧的制作成本从5 万元 2 个月降到0 元 3 小时当配音演员、音效师、混音师的工作可以被一组本地 AI 模型替代整个音频内容创作的生态都会被重塑。但这不是AI 取代人类的故事。这是**“让更多创作者用上音频表达”**的故事。那个写网文的朋友他的小说终于有机会被听到了。不是因为他有钱而是因为门槛消失了。BokeSkill 正在快速迭代——从单集广播剧到多集连载从单 BGM 铺底到按场景分轨切换。如果你有想法或者有一部想变成声音的故事https://github.com/dfytensor/BokeSkill配好模型一条命令你的小说就是广播剧。

写了三年小说零读者？这个开源AI工具，3小时能给你一部广播剧

相关新闻

多尺度地理加权回归(MGWR)终极指南：突破传统空间分析限制的Python工具

Android系统的Native用户空间层权限安全：隔离机制与攻防对抗

GeoHash + Redis Streams：百万级实时围栏系统设计

终极解决方案：VisualCppRedist AIO全合一安装包完全指南

如何快速掌握STM32与LCD 1602的I2C通信：嵌入式开发的实用指南

编写程序统计家庭消杀用品，使用频次，种类，分析化学物质残留对人体影响。

3种企业级私有化部署方案：打造安全高效的本地化工具平台

统计机器学习：从预测准确率到不确定性推断的工程化转型

跟着 MDN 学 React 框架 Day 4：构建 React 待办清单——项目启动与静态结构搭建

终极指南：5分钟掌握League-Toolkit英雄联盟智能工具箱

深度剖析GDSDecomp：Godot逆向工程的架构哲学与实战指南

反向海淘订单状态机设计：taocarts 状态流转与并发控制

终极Photoshop纹理压缩指南：5分钟掌握Intel Texture Works专业级BCn/DXT压缩

如何在GTA5在线模式中建立全面安全防护：YimMenu游戏辅助菜单深度解析

如何用d2s-editor快速修改暗黑破坏神2存档：5分钟掌握终极技巧

Harness 中的响应合并：将多个片段组装为完整输出

Windows Cleaner终极教程：5分钟彻底解决C盘爆红问题，让系统重获新生！

别再只会用ifconfig了！在Ubuntu 22.04/20.04上，教你用ip命令并顺带配置好国内镜像源