写了三年小说零读者?这个开源AI工具,3小时能给你一部广播剧

发布时间:2026/6/16 5:13:36

写了三年小说零读者?这个开源AI工具,3小时能给你一部广播剧 广播剧制作成本从5万降到0——不是降了是直接归零。去年冬天一个写网文的朋友问我有没有办法把小说做成广播剧我说有——找人配音、买音效库、租录音棚、请混音师。他沉默了一会问多少钱我算了一下5万起工期两个月。他再没提过这件事。今年六月我在 GitHub 上看到了 dfytensor 的 BokeSkill。准确地说是看到了它跑完一个完整的广播剧 demo——从小说文本输入到角色配音、环境音效、背景音乐、多轨混音最后输出一个 wav 文件。整个过程没有人工干预。不是省了一些步骤是整条链路全自动。一、你以为是钱的问题其实是整条音频制作链路在吃掉你的创作时间传统广播剧制作五个环节缺一不可编剧改编脚本——把小说拆成可配音的片段设计节奏和钩子配音导演分配角色——为每个角色找合适的声音配音演员逐句录制——一部中篇小说动辄上百句台词音效师搭环境音——雨声、脚步、开门、碎裂每一声都要对混音师多轨合成——对白、音效、BGM 叠在一起调音量、做远近每个环节都有沟通成本、排期成本、返工成本。更致命的是作为创作者你对任何一个环节没有掌控力——配音演员请假工期延一周混音师理解错了情绪全部重来。这也是为什么大部分网络小说作者——包括那个再没提过广播剧的朋友——永远不会尝试把自己的文字变成声音。不是不想是不敢想。BokeSkill 做的事情不是优化某个环节而是把整条链路压缩成了一组 AI 模型 一条命令。你给小说原文。它拆场景、设钩子、分角色、配声音、铺音效、混音输出。不用会只需有——有一块 NVIDIA 显卡。但成本归零只是第一层。接下来你会发现——AI 做的东西居然能比人工调的还对。二、四个模型一条命令从小说到 WAV 的全自动流水线BokeSkill 底层串联了四个本地 AI 模型跑在一条统一的生成脚本上。来看这条流水线的每一环第一阶段声音设计Qwen3-TTS VoiceDesign你只需要用文字描述角色声音——“40岁低沉沙哑的中年男声语速偏慢说话时习惯在句末短暂停顿”——模型就给你生成一个角色参考音色。不需要试音不需要 audition不需要等人回复。第二阶段逐句配音Qwen3-TTS Base VoiceClone用上一步生成的参考音色克隆出该角色的每一句台词。14 句、50 句、200 句——全自动跑完。每句话的情绪可指定悲伤、愤怒、震惊、温柔。不是 TTS 机器人腔是有情绪的配音。第三阶段音效 背景音乐Stable Audio 3 Medium Qwen2.5-Omni 质量评估这是整条流水线最让我意外的一环。Stable Audio 3 Medium 同时负责两件事音效你写木质大门缓慢打开的吱呀声带有老旧金属铰链的摩擦感它 8 步生成一段 3 秒的音效。BGM你写低音弦乐缓慢爬升伴随工业打击乐的渐强节奏它给你一条完整的背景音乐。然后Qwen2.5-Omni-3B对每一个生成的音频打分1-10 分。低于 7 分的自动触发修复循环——重写 prompt、重新生成、重新评分。直到所有音效和 BGM 都达到 7 分以上才进入混音。这不是玩具。这是一个带自我质量控制的工业级管线。第四阶段多轨混音 DSPAudio-Oscar Mixer对白轨、音效轨、音乐轨三条总线叠在一起经过压缩器、限制器、响度归一化——输出一条专业的drama_final.wav。全程一条命令python bridge_final.py而且所有生成全在本地执行。这也是下一个话题。三、纯本地运行——你的小说不经过任何人的服务器这一点我不想轻描淡写地带过。目前市面上绝大多数的 AI 音频工具不管是配音还是音效生成都是云端 API。你的文本要上传到别人的服务器生成结果要经过别人的网络。对于写了几十万字小说的作者来说这不仅是隐私问题——更是内容安全问题。BokeSkill 全部在本地运行Qwen3-TTS 在你的 GPU 上推理Stable Audio 3 在你的 GPU 上生成音效和音乐Qwen2.5-Omni 在你的 GPU 上做质量评估混音在你的 CPU 上完成不需要 API Key。不需要网络连接。不需要担心你的稿子被谁看到、被谁用来训练模型。当前实测配置RTX 4090 D24GB 显存32GB 内存Windows 系统。四个模型顺序加载/卸载峰值显存占用约 11GB——一台主流 AI PC 完全够用。代码全在 GitHub 上MIT 协议可以商用。开源只是起点。BokeSkill 的真正价值不在于它今天能做什么而在于它明天会被社区做成什么。结语这不是一个工具这是一次内容创作方式的降维打击BokeSkill 让我想起 2022 年的 Stable Diffusion——初版还很粗糙但所有人都知道游戏规则变了。当广播剧的制作成本从5 万元 2 个月降到0 元 3 小时当配音演员、音效师、混音师的工作可以被一组本地 AI 模型替代整个音频内容创作的生态都会被重塑。但这不是AI 取代人类的故事。这是**“让更多创作者用上音频表达”**的故事。那个写网文的朋友他的小说终于有机会被听到了。不是因为他有钱而是因为门槛消失了。BokeSkill 正在快速迭代——从单集广播剧到多集连载从单 BGM 铺底到按场景分轨切换。如果你有想法或者有一部想变成声音的故事https://github.com/dfytensor/BokeSkill配好模型一条命令你的小说就是广播剧。

相关新闻