万象有声创业笔记（二）：中文小说画本，AI 有声书制作的拦路虎-尧图网站设计

写在前面上一篇《一个20多年码龄的老程序猿的创业故事》里我讲了自己从大厂、创业公司、有声书行业一路走来最后和几位老同事一起回到熟悉的赛道开始做万象有声的过程。那篇文章更多是在讲“为什么创业”为什么在 AI 已经席卷各行各业的时候我们仍然选择有声书制作这个看起来很垂直、很辛苦、也很容易被低估的方向。这一篇想接着讲“为什么这个方向值得做”。有声书制作不是简单地把文字丢给语音合成模型真正影响成品质量和生产效率的是拆章、画本、角色识别、语音合成、审听、后期、质检等一整套流程。其中“画本”尤其关键它决定哪些内容是旁白哪些内容是角色台词谁在说话情绪是什么下游配音和后期都要依赖它。这也是万象有声正在认真解决的问题不是做一个看上去很炫的 AI Demo而是把多年有声书制作经验、中文小说文本理解、AI 大模型能力和工程化流程结合起来做一个真正能提升生产效率、降低返工成本、改善成品质量的平台。本文会以中文小说画本为例展开讨论我们为什么需要 V1、V2、Adaptive、V1V2 融合以及画本 Agent 编排框架这样的方案设计。摘要有声小说制作中的「画本」本质是把章节原文切分为可配音的句子片段并标注每段是旁白还是某角色的对话必要时还要给出说话人、情绪等元信息。在万象有声的全流程制作体系里画本处在非常靠前的位置它前接原文清洗、智能拆章后接角色分配、语音合成、后期制作和质检。画本做得准后面的自动化才有意义画本错了越往后返工成本越高。这项工作看起来是 NLP 标注但在中文网文场景里难点并不在「理解一句话」而在体例不可穷举同一本书里可能混用弯引号、角引号、冒号台词、无引号 direct speech甚至整章切换为剧本标记体引用、书名、拟声与真实对话在字形上高度相似。中文小说还有大量世界知识依赖人物别名、门派家族、师徒亲属、职场上下级、游戏公会、系统提示、内心独白和真实出声之间的边界都会影响画本判断。基于现有双引擎方案全文 LLM 路径即 V1规则 Recall LLM 归因路径即 V2与批次级 Adaptive 路由的工程实践本文认为大模型适合有界判定对已框定候选做归因、对采样块做体例确认不适合在 Draw 完成后用规则证明「没有遗漏任何 direct dialogue」。当前最务实的主策略是在 Prepare 阶段做一次批次级路由——体例规整且漏对话风险低时走规则路径否则走全文路径Draw 分组默认服从批次画像不自由换引擎但应保留轻量异常哨兵当局部出现剧本体、聊天体、无引号 direct、体例漂移等强异常时触发受控的局部 V1 升级或整组 fallback。画本 Agent 编排框架内部也可称 Harness可视为中文画本 AI Agent 的工程化运行框架用感知、规划、系统调度、验证与降级来约束大模型随意性它的价值不在替代 V1/V2而在把两类能力组织成更稳、更可观测、成本可控的分层 Adaptive Agent 方案。第一章画本问题与生产流水线1.1 画本要解决什么画本输出通常包含按章节组织的句子片段列表、角色表、每句的旁白/对话标记。下游 TTS、导演排期、角色配音分配都依赖这一结构化结果。与通用信息抽取不同有声场景对漏对话该读成角色台词却标成旁白的容忍度极低而对假对话把书名、术语引号误标为台词也有一定 sensitivity但中文里后者往往可以通过听感与上下文纠正前者则直接损害制作质量。1.2 两阶段流水线Prepare 与 Draw生产系统将画本拆成两个阶段职责边界清晰Prepare批次准备在全书或大批次章节上运行一次统计体例特征、均匀采样、调用大模型确认体例与漏对话风险写入批次画像含推荐引擎同时按模型输入/输出字数预算把章节切分为若干分组任务。Draw分组画本对每个分组读取同一份批次画像按推荐引擎执行画本结果落库。分组之间共享引擎决策不做自由的分组级重新路由——这是方案层的重要约束因为体例漂移、漏对话风险首先是全书级问题不能用某一组的局部文本随意推翻 Prepare 结论。但 Draw 阶段可以保留轻量异常哨兵当局部文本出现强体例漂移、剧本标记、聊天标记、连续无引号问答、异常对话密度突变时触发受控的局部复核、局部 V1 补洞或整组 fallback。分组动机纯粹是工程预算连续章节可合并直到接近模型上下文上限超大单章需拆段每段独立画本。分组逻辑与体例识别、引擎选择解耦——输入侧关注章节总字数输出侧关注规则或启发式估计的「疑似对话字数」异常哨兵只作为质量保险丝不作为常规路由入口。图 1Prepare 负责画像与分组Draw 默认服从画像仅在强异常下受控升级。默认生产配置采用Adaptive自适应模式Draw 常规路径不重新 profiling而是使用 Prepare 持久化的推荐引擎画像缺失时保守降级为全文路径强异常命中时再做受控升级。第二章中文小说格式的多样性中文网文体例不可穷举。下面按工程上与路由决策高度相关的九类谱系展开每类给出可直接对照的案例文本、两种路径的难度以及 Prepare 路由启示。这不是完整 taxonomy而是画本系统必须正视的「硬案例集」。2.1 弯引号对话体例规整型案例 A单行“你好。”他说。案例 B多轮连续“你来了。”她抬起头。“嗯。”他应了一声目光却落在窗外。“还在想那件事”方案难度全书统一弯引号且说话人标签模式稳定时规则路径边界清晰难度低典型失误是标签在引号内外位置变化导致归因错位。全文路径难度低token 偏高但 recall 高。路由启示采样确认「弯引号动词标签稳定」→ 规则路径性价比最高。2.2 角引号与嵌套引号案例 A「别走。」她拉住他的袖口。案例 B嵌套「你以为我会相信这种话」他冷笑「上次你也说『就这一次』。」案例 C对话内嵌专名「这本书叫『红楼梦』你读过吗」方案难度规则路径需区分外层对话与内层书名/强调嵌套错一层就会把书名当对话难度中。全文路径语义可区分难度中。路由启示嵌套频繁、对话内专名引用多 → 提高漏对话风险评分mixed 时走全文路径。2.3 冒号台词网文高频案例 A冒号无引号钱秘书说道你就是王旭案例 B冒号弯引号她沉声问“你到底想怎样”案例 C内心独白边界争议他心想这件事不对劲。从进门那一刻起空气就不对。方案难度规则路径须约束「言说动词冒号」并排除「他心想」类内心独白是否算对话取决于产品定义难度中偏高。全文路径可利用上下文难度低。路由启示冒号台词占比高但内心独白与对话混排 → 不能仅凭「有冒号」判规整。2.4 引号混用案例同章混排“Hello?” 对方发来消息。她回复「谁啊」他又打一行Im fine.方案难度规则路径对每种引号需独立规则混用批次覆盖不完整难度高→ 宜全文路径。全文路径难度中。路由启示Prepare 采样发现 ≥2 种引号体系并存 → 标mixed全文路径不在 Draw 分组级切换。2.5 无引号对话与间接引语案例 A无引号 direct她问你真要这么做他答是。案例 B间接引语有声读作旁白他告诉她明天不会来了。她问他是不是已经决定了。案例 C自由间接引语算了她心想反正也没人在意。方案难度规则路径无闭合引号 spanrecall 低难度高。全文路径难度中间接引语是否标为对话需产品一致定义。路由启示无引号 direct 与间接混排 → Prepare 标漏对话风险走全文路径。2.6 剧本体 / 标记体规则路径盲区案例 A旁白毒酒抵在唇边殿外雨声如注。沈锦瑟声音微弱气若游丝娘……女儿……不孝……案例 B【闪回·三年前】陆沉冷你走吧。苏晚哭腔我不走方案难度规则路径召回面向引号/冒号体例剧本标记体未覆盖难度极高。全文路径结构虽特殊但模式固定难度中需在 prompt 中明确「角色…」为对话。路由启示采样识别剧本体 →必须全文路径或未来扩展规则路径前不可走规则路径。2.7 引用 / 强调引号假对话高发案例 A他读了一本书叫「红楼梦」连夜没睡。案例 B所谓「内卷」不过是资源稀缺下的被动竞争。案例 C「你看这段」他指着屏幕「『核心算法』四个字是后来加上的。」方案难度规则路径引号 recall 高但 precision 低Gap 式「见引号就补」在此类文本假阳性灾难性难度高。全文路径需语义判断是否在说话难度中。路由启示引用密度高的章节即使弯引号规整也不等于零风险Prepare 应看引用/对话比非只看引号形状。2.8 拟声 / 特效 / 括号旁白案例 A啊——门砰的一声关上。案例 B“你……”她欲言又止“算了。”案例 C【系统提示任务完成奖励 100】方案难度规则路径宜排除或单独标签误当对话污染角色表难度中偏 precision。全文路径难度低。路由启示系统流、游戏穿书体常 mixed全文路径更稳。2.9 体例漂移批次级约束的反例案例同一 Prepare 批次内第一章“签到成功。”他看了眼面板。……中间省略十章……第十二章主持人高声有请下一位选手方案难度画像若只采前几章会误判全书规整漂移章大面积漏抽系统性风险极高。全文路径对突变章仍有效难度中整书 token 成本高。路由启示采样须均匀跨章 LLM 确认体例漂移路由以批次级为主Draw 不做自由 re-route但可用异常哨兵捕获漏采样导致的局部漂移并触发受控升级。图 2体例谱系与路径适配示意。体例类型代表案例摘句规则路径全文路径推荐路由弯引号对话“你好。”他说。低低规则路径角引号/嵌套「…『红楼梦』…」中中视 mixed 而定冒号台词钱秘书说道你就是王旭中偏高低视内心独白比例引号混用“Hello?” 与「谁啊」同章高中全文路径无引号/间接她问你真要这么做高中全文路径剧本体沈锦瑟微弱娘……极高中全文路径引用/强调一本书叫「红楼梦」高precision中谨慎规则路径拟声/系统【系统提示…】中低视全书体例体例漂移前章引号后章剧本极高中全文路径或人工表体例对照——路由决策参考非穷举分类。章末收束「规整」是批次统计采样语义结论不是「看见弯引号就算规整」。剧本体、引号混用、无引号 direct、体例漂移四类是 Prepare 闸门应重点拦截、避免误入规则路径的场景。第三章大模型在画本中的能力与边界3.1 大模型适合做什么Prepare 阶段是大模型 ROI 最高的环节对均匀采样的段落做体例确认、核对规则推断证据、审阅「宽疑似」行是否含无标记真实台词输出是否适合规则路径、是否存在漏对话风险。这一判定是全书级、一次性的token 成本相对整书 Draw 可接受。Draw 阶段规则路径中大模型的职责应收窄为对规则已框定的对话候选 span做说话人、情绪、是否对话的结构化归因对存疑子集做二轮复核。边界由规则给出模型不做自由切分输出更结构化、token 更省。**Draw 阶段全文路径**中大模型承担块级/行块级全文理解首轮覆盖全章或分组行级文本再对规则与模型 diff 不一致的行做块级二轮复核。这是 mixed、非规范体例的主战场。3.2 大模型不宜做什么Draw 完成后纯规则无法证明「没有遗漏 direct dialogue」。任何基于「行内出现引号」「行符合冒号模式」的扫尾在中文里都会遭遇引用、术语、招牌、拟声等大量假阳性。Gap 式补救的本质是用启发式找「规则未覆盖的可疑行」再局部调模型——它与「路径 B 后再跑路径 A 填洞」在触发层同类不能升级为语义完备性证明。不宜在体例已规整的批次上默认双引擎全量各跑一遍。Token 翻倍而规整书两种路径输出高度重合收益极低。不宜让观测指标自动驱动路由。例如估计漏检率可落库告警但若参与自动 re-route规则假阳性会驱动错误决策——生产路由应依赖 LLM 确认的漏对话风险与体例一致性而非单一统计阈值。图 3LLM 适用区间与 Draw 后验证的结构性上限。成本权衡轴方案语言分组输入字数预算、二轮复核子集规模、Gap/局部全文补救的 token 增量。生产环境中Gap 式引号扫尾在 dev/test/product 配置下均为默认关闭与「漏对话应在 Prepare 走全文路径」的经验一致。第四章两种画本路径的方案对比4.1 路径 A全文 LLM 路径V1流程概念章节文本行级化 → 首轮全文 LLM 分析旁白/对话/说话人→ 规则层与模型结果 diff找出不一致行 → 对不一致行块做二轮 LLM 复核 → 合并为句子片段与角色表。二轮失败则整组失败无部分成功降级。优势体例杂、非规范对话、mixed、剧本体、无引号 direct 等场景recall 高是 Prepare 画像误判时的事实兜底对引用/嵌套引号的语义 disambiguation 强于纯规则 recall。代价token 高对话边界由模型生成稳定性弱于规则框定长章分组多时成本线性累积。4.2 路径 B规则 Recall LLM 归因路径V2流程概念行级化 → 规则按体例召回对话候选 span → LLM 只对候选做归因 → 对存疑候选二轮复核并合并 →可选Gap 补救对可疑但未覆盖行做局部发现与归因生产默认关→ QA 记录不一致不阻断→ 拼装输出。优势体例规整时 token 显著低于路径 A边界可控、输出结构化纯旁白批次可跳过对话归因。代价强依赖体例与规则覆盖画像误判进入该路径后规则未召回的非规范对话容易遗漏Gap 与引号扫尾不宜默认开启意味着 Draw 后不能指望无条件自动填洞只能依赖异常哨兵与受控 V1 升级处理强局部风险。图 4路径 A 与路径 B 的参与者与阶段对比。维度路径 A全文 LLM路径 B规则归因适用体例mixed、剧本、无引号、漂移弯引号/角引/冒号规整、纯旁白Token高低规整书Recall高依赖规则误判批次低Precision中二轮 diff 纠偏高边界规则框定失败模式二轮失败整组失败漏召回无正式补救Gap 关生产默认画像/风险路由选中Adaptive 规整书主路径表 1双路径方案对比。第五章 Adaptive 批次路由——当前推荐的主策略5.1 方案描述Adaptive 不是第三条分析内核而是Prepare 路由 Draw 读画像异常受控升级的编排模式全书规则统计统计弯引号、角引号、冒号台词等占比检测 mixed如非主格式占比超阈值。均匀采样按字符预算把全书分成若干段段内顺序采样末段自尾部填充以覆盖书末体例避免只读前几章。LLM 双通道确认采样块判断主对话体例规则推断证据宽疑似 JSON 判断漏对话风险、候选边界是否稳定、是否适合规则路径。写入批次画像含推荐引擎、gate 原因、confidence 等Draw 各分组默认服从此决策不自由换引擎。Draw 异常哨兵仅检测强异常信号如剧本标记、聊天标记、连续无引号问答、异常对话密度突变、候选边界大面积失稳命中后触发局部 V1 升级或整组 fallback。路由原则概念体例mixed/ 不可识别 → 全文路径LLM 确认漏对话风险→ 全文路径LLM 与规则体例不一致 → 全文路径LLM 调用失败 → 保守全文路径体例规整、边界稳定、无漏对话风险 → 规则路径纯旁白且无隐藏对话风险 → 规则路径可跳过对话归因观测与路由分离估计漏检率、隐藏对话行计数等可落库用于监控与回归但不直接参与自动 re-route避免规则假阳性驱动。异常哨兵只处理强体例信号与系统性漂移不因单个弱统计指标推翻 Prepare。图 5Adaptive 决策树方案节点Prepare 做主闸Draw 只做受控异常升级。路由条件推荐路径理由mixed / 多引号体系并存全文规则覆盖不完整LLM 发现无标记 direct全文规则 recall 不足候选边界不稳定全文归因输入不可信LLM 失败全文保守兜底弯引号/冒号规整且无风险规则token 与稳定性最优纯旁白 confirmed规则无对话归因成本表 2路由条件与推荐路径。画像缺失时Adaptive 降级为全文路径——宁可多耗 token也不在无画像时走规则路径赌体例。画像存在但 Draw 命中强异常时不直接推翻全书画像而是优先局部升级只有异常呈系统性分布时才整组 fallback 并把失败样本回流到画像策略。第六章 Draw 之后的验证——结构性困境6.1 验证能做什么结构自洽切分片段拼接是否还原原文行号与 span 是否对齐。一致性启发规则候选与 LLM 归因是否打架如候选标为对话但归因否定。统计代理QA 告警、接受率偏低、gate 原因分布——用于监控与抽检优先级。路径 A 的二轮复核是首轮 LLM 与规则 diff 的互证不是 ground truth。路径 B 的 QA 服务记录 issue 但不阻断返回Gap 关闭时Draw 后没有无条件自动补救只有命中强异常时才进入受控升级。6.2 验证不能做什么不能证明「没有遗漏任何 direct dialogue」。这是信息论层面的上限Draw 输出已是某一引擎下的最优解后置规则只能检查自洽无法访问「未被任何候选表示的语义对话」。画本 Agent 编排框架可以把验证组织成更完整的质量门禁也可以在风险升高时选择更强的理解路径但这仍是风险治理与置信度提升不是数学意义上的完备性证明。图 6验证层级与不可达目标。结论质量保障应依赖Prepare 主闸人工抽检 golden set 回归而非 Draw 后自动化「漏对话检测器」。第七章画本 Agent 编排框架与能力边界画本 Agent 编排框架不是一条新的“画本引擎”而是一种面向中文画本任务的AI Agent 工程化框架。中文画本的本质是让 agent 在章节文本中感知体例、理解人物与叙事关系、规划采用何种分析路径、调度 V1/V2 等能力完成标注再通过验证与降级机制减少大模型的随意性。它要解决的问题不是“让大模型多想一点”而是让大模型在受约束的流程里想什么时候相信规则候选什么时候交给全文语义理解什么时候需要复核什么时候必须保守降级。7.1 设计意图画本 Agent 编排框架的目标是把中文画本拆成可治理的 agent 循环感知读取批次画像、采样体例、对话密度、人物关系线索、引号/冒号/剧本体等格式特征形成对当前批次的风险判断。规划根据风险与成本预算决定采用 V2 主路径、V1 全文路径、局部语义补洞、复核强度与降级条件。系统调度把规则、全文理解、候选归因、世界知识、质量门禁组织成一次可解释的执行策略而不是让某一次模型调用独立决定全部结果。验证检查结构还原、候选一致性、角色归因合理性、异常对话密度、体例漂移等信号并把失败原因沉淀为后续画像与 golden set。降级当风险超过阈值时选择更强但更贵的理解路径避免在低置信方案上继续追加局部补丁。因此画本 Agent 编排框架的方案价值在于降低不确定性充分利用大模型的理解能力同时用画像、计划、门禁、回归集约束其自由发挥。理想状态下它应在不显著增加 token 成本的前提下让正确性更稳定、失败更可观测、策略更容易演进。7.2 困境一Agent 编排不能替代语义能力画本 Agent 编排框架能决定“何时用什么能力”但不能凭空创造新的语义证据。若输入文本中的无标记 direct speech 本身没有被候选、画像或全文理解捕获后置门禁最多发现结构异常或统计风险不能直接推出“某一句一定是漏对话”。这意味着画本 Agent 编排框架必须依赖 V1/V2 的能力互补而不是把编排层误当成新的识别能力。7.3 困境二验证目标容易被过度承诺中文画本最难的质量目标是“无漏对话”但它不是一个可以靠后置规则完全证明的性质。画本 Agent 编排框架可以做分级验证结构还原、span 对齐、角色表一致性、对话密度突变、疑似体例漂移、说话人归因冲突等。这些验证能提高置信度也能帮助发现明显坏结果但门禁通过只能说明“已知检查项通过”不能说明“语义上没有遗漏”。如果把画本 Agent 编排框架描述成自动化完备证明就会高估 agent 的能力边界。7.4 困境三成本收益必须前置约束Agent 式方案天然容易增加“再看一遍”“再问一次”“再复核一层”的冲动。中文小说章节长、批次多如果每个分组都默认追加全文复核或大范围补洞成本会快速吞掉 V2 的性价比。画本 Agent 编排框架的规划层必须把预算作为硬约束优先在 Prepare 阶段做批次级路由只有在极窄、高置信的空洞里才使用局部全文理解高风险批次应直接走 V1而不是先低成本尝试后再大面积返工。7.5 困境四与 Prepare 路由的职责边界Prepare 是批次级主闸负责识别体例、风险与推荐路径画本 Agent 编排框架是 agent 运行框架负责把画像、计划、调度、验证和降级串起来。二者不能互相替代。若画本 Agent 编排框架在 Draw 后频繁推翻 Prepare 的结论说明画像或路由策略本身需要改进若 Prepare 已经识别为 mixed、剧本体、无标记 direct 风险高则画本 Agent 编排框架不应为了节省一次全文理解而强行走低成本路径。合理边界是Prepare 决定默认方向Draw 异常哨兵只捕获强局部漂移并以局部升级优先、整组 fallback 次之。7.6 困境五世界知识必须可控地进入流程中文小说画本经常依赖世界知识人物别名、门派/家族/公司/军衔、师徒与亲属称谓、古风尊卑称呼、内心独白与真实出声的差异、旁白插叙与台词交错等。画本 Agent 编排框架可以把这些知识作为感知和验证信号例如“这个称谓是否可能是说话人”“这句是否像心声而非出声”“这个角色是否在当前场景中出现”。但世界知识也会诱发模型脑补因此必须落在可追踪的证据链上文本依据优先批次画像其次外部或长期记忆只能辅助降置信判断不能单独改写画本结论。图 7画本 Agent 编排框架作为 AI Agent 运行框架组织画像、规划、能力调度、验证与反馈。Agent 编排能力主要收益主要边界适用位置感知画像降低体例误判采样无法覆盖所有局部漂移Prepare / Draw 前置路径规划控制成本与风险依赖风险评分质量批次级主闸系统调度组合 V1/V2 优势不能替代底层理解能力Draw 执行分级验证发现坏结果与异常模式不能证明语义完备Draw 后质检反馈沉淀改进画像与回归集需要人工或线上信号闭环迭代治理异常升级捕获局部体例漂移只适合强异常不能滥用Draw 哨兵表 3画本 Agent 编排框架的方案收益与能力边界。第八章融合 V2 和 V1 的补救方案探讨补救方案的核心不是“多跑一遍就更准”而是让 V2 的高性价比召回与 V1 的全文语义理解形成互补。V2 适合处理体例稳定、候选边界清晰的批次成本低、输出可控V1 适合处理 mixed、无标记 direct、剧本体漂移、上下文强依赖归因等语义复杂场景。融合方案应避免默认双跑而是在明确风险点上调用更强能力。8.1 融合原则Prepare 仍是主闸。只要批次画像已经判断为高风险就应直接选择 V1 或更强的全文理解策略而不是先走 V2 再补救。补救只处理“低风险批次中的局部异常”不能替代批次级路由。V2 结果优先保持稳定。对规整体例批次V2 给出的候选边界和角色归因通常更可控。V1 不应在全量范围内重写结果而应只处理窄范围空洞、冲突段、验证失败段。V1 负责语义空洞。当局部文本出现无引号直接发言、冒号后多句延展、说话人跨段承接、人物称谓依赖世界知识等情况时V1 的全文理解可作为补洞能力而不是作为所有句子的第二套判定。Merge 必须保守。融合时以原文结构还原为硬约束以 V2 稳定结果为主干V1 只新增高置信漏对话或修正明确冲突不因风格偏好改写切分。推荐优先级方案收紧 Prepare 闸门把 mixed、多引号体系、剧本体、无标记 direct、体例漂移等高风险批次提前交给 V1。V2 作为低风险主路径对弯引号、角引号、冒号台词规整的批次优先使用低成本、可控的规则候选与归因方案。V1 极窄补洞仅在验证发现局部异常、抽检发现漏对话、或画像提示某类窄格式未覆盖时对相关片段做全文语义补洞。整组 fallback 到 V1当局部补洞无法解释失败原因或同一分组出现系统性体例漂移时整组采用 V1避免堆叠多个局部补丁。Gap 类扫尾保持谨慎中文引号、拟声、术语、书名和心理活动会制造大量假阳性默认不应作为主要补救手段。8.2 典型融合场景规整引号书V2 主导V1 只在角色归因跨段、连续短句归属不清时提供局部判断。冒号台词与内心独白混排Prepare 若确认风险低可由 V2 处理显性言说动词对“他心想”“她暗道”等边界争议段V1 只参与产品定义相关的窄判定。剧本体或聊天体漂移若采样已发现整章体例变化应直接走 V1 或专门体例策略不建议让 V2 先输出一版再大面积修补。人物称谓复杂书V2 负责候选边界V1 结合上下文和世界知识辅助“师父”“殿下”“老祖”“总裁”等称谓归因但必须保留文本证据。8.3 更优推荐分层 Adaptive Agent 方案综合中文小说世界知识与文本格式多样性最稳妥的方向不是在 V1、V2、Adaptive、画本 Agent 编排框架之间二选一而是形成分层 Adaptive AgentPrepare 全局画像识别全书体例、采样漂移、对话格式、隐藏 direct 风险、引用/拟声/系统流比例决定默认 V1 或 V2。V2 低风险主路径对规整弯引号、角引号、稳定冒号台词使用规则候选 LLM 归因保持低成本和稳定边界。Draw 异常哨兵每个分组只做轻量检测如对话密度突变、未识别格式、剧本标记、聊天标记、连续冒号段、疑似无引号问答没有强异常时不重新路由。局部 V1 升级异常只升级局部片段或整组不全书双跑升级结果只补洞或修正明确冲突。Agent 编排统一治理画本 Agent 编排框架不替代 V1/V2而是负责规划、预算、验证、降级和反馈闭环。世界知识辅助归因维护人物别名、称谓关系、组织关系、当前场景出场人物用于提高说话人判断所有结论必须能回到文本证据。这个方案承认中文小说的真实复杂度同一本书可能前十章是规整引号后面切到聊天群、系统提示、比赛主持、剧本体或群像多视角。Prepare 负责把大多数风险挡在前面Draw 哨兵负责处理漏采样或局部突变V1/V2 负责各自擅长的理解能力画本 Agent 编排框架负责让这些能力在成本、风险和质量之间可控地协作。8.4 结论融合 V2 和 V1 的正确姿势是V2 做低成本主干V1 做高风险理解Draw 哨兵处理强局部异常画本 Agent 编排框架负责规划与验证Prepare 决定批次级方向。任何 Draw 后补救都无法替代 Prepare 决策与人工质检漏对话的根因多在批次级体例误判应优先 upstream 修复。更好的工程目标不是“自动证明无漏对话”而是用分层机制持续降低漏检率、控制成本并沉淀可复用的失败知识。第九章未来展望中文小说画本的未来应放在 AI Agent 能力演进的大背景下看。画本不是单次抽取任务而是长文本理解、角色记忆、体例识别、工具调度、质量验证共同组成的 agent 工作流。随着长上下文、多步规划、自校验、工具调用和记忆能力增强系统可以更接近“导演助理”既理解章节文本也理解小说世界里的关系、称谓和叙事惯例。短期以分层 Adaptive 为默认生产策略强化 Prepare 画像与画本 Agent 编排框架感知层覆盖剧本标记体、冒号台词、内心独白、聊天体、旁白插叙等高频体例V2 继续承担低风险主路径V1 负责高风险批次与极窄补洞Draw 增加轻量异常哨兵只对强局部漂移触发受控升级Gap 类扫尾保持谨慎加强 confidence、体例漂移、验证失败原因与抽检结果的观测。中期让画本 Agent 编排框架成为稳定的 agent 编排层先规划、再调度、后验证必要时降级建设 golden set 回归覆盖九类体例硬案例和真实线上失败样本明确 V2/V1 融合语义做到“规则主干全文补洞保守 merge”把人物表、别名、场景出场信息、称谓关系作为可追踪上下文用于辅助归因而非自由脑补把 Draw 异常升级的命中样本回流到 Prepare 画像策略。长期随着 AI Agent 的世界知识和长程记忆增强画本方案可以从“识别句子是谁说的”升级为“理解这一章的叙事状态”。系统可维护跨章节人物关系、门派/家族/职业体系、师徒亲属称谓、古风尊卑、现代职场层级、虚拟网游阵营等知识也可以用工具化验证检查角色是否在场、称谓是否合理、台词是否符合当前视角。但仍应保留一个清醒边界agent 可以不断提高置信度、降低漏检率、沉淀失败案例不能承诺自动化证明“无漏对话”。未来的最优方案是让世界知识、长上下文与工程门禁共同服务于画本正确性而不是把全部判断交给一次自由生成。图 9方案演进时间线。结语为什么万象有声要死磕画本如果只把 AI 有声书制作理解成“把文本交给 TTS”那画本似乎只是一个中间步骤但真正做过有声书生产的人都知道画本是整条链路的地基。旁白和台词分错了角色归因错了内心独白和真实出声混了后面的语音合成、角色音色、审听和后期都会被连带拖慢。这也是万象有声选择从全流程做起的原因。我们希望 AI 不只是替人完成某个孤立动作而是能真正理解有声书制作中的上下游关系从智能拆章到中文画本从角色识别到语音合成从后期处理到质量检查每一步都要服务于最终成品的稳定交付。中文小说画本之所以值得单独写一篇是因为它很能代表万象有声要解决的问题既有中文网文体例的复杂性也有有声行业生产流程的专业性还需要把大模型能力放进可控、可验证、可持续迭代的工程系统里。我们相信AI 有声制作最终比拼的不是谁的 Demo 更像“魔法”而是谁能把真实生产中的复杂问题一点点拆开、解决并长期稳定地跑起来。如果你正在做有声书制作、内容出海、网文 IP 运营或者只是对 AI 如何改造有声行业感兴趣欢迎关注和体验万象有声。这篇文章讨论的是画本后面还可以继续聊拆章、角色音色、TTS 选型、后期自动化、质检闭环等更具体的问题。欢迎体验基于上述AI Agent编排规则实现的中文小说画本 https://www.audimind.com附录术语表术语含义全文 LLM 路径路径 A / V1行级化全文 LLM diff 二轮复核规则归因路径路径 B / V2规则召回 span LLM 归因可选 GapAdaptivePrepare 画像路由 Draw 读推荐引擎强异常受控升级GapDraw 后对可疑未覆盖行的局部发现与归因生产默认关批次画像Prepare 写入的体例、风险、推荐引擎等全书级结论分组任务按字数预算切分的 Draw 执行单元共享批次画像画本 Agent 编排框架中文画本 AI Agent 的工程化运行框架组织感知、规划、系统调度、验证与降级内部也可称 Harness文中路径 A/B 对应口语中的 V1/V2正文以方案名称为主。画本 Agent 编排框架讨论的是 agent 编排与治理方案不是某个具体实现细节。

万象有声创业笔记（二）：中文小说画本，AI 有声书制作的拦路虎

相关新闻

3分钟掌握图片盲水印：无需原图提取的版权保护终极指南

华硕笔记本风扇控制终极指南：5分钟解决散热异常问题

Codex vs Claude Opus系列模型对比：2026开发者该选哪个AI编程助手？

天气图像分类技术原理与工程实践指南

齿形与材质双突破，盖茨工业皮带的传动技术拆解

AI Agent 开发与多 Agent 协作系统设计全景指南

如何5分钟配置完成：Translumo终极实时屏幕翻译工具快速上手指南

微信AI智能体：重构服务连接的超级操作系统

深入解析MPC105：PowerPC系统的PCI桥接与内存控制器设计

终极Obsidian日历插件指南：如何用可视化时间线彻底改变你的笔记习惯

混元图像3.0开源解析：80B原生多模态生图模型的工业落地实践

联邦学习如何重构心理App的临床可信度

终极Photoshop纹理压缩指南：5分钟掌握Intel Texture Works专业级BCn/DXT压缩

如何在GTA5在线模式中建立全面安全防护：YimMenu游戏辅助菜单深度解析

如何用d2s-editor快速修改暗黑破坏神2存档：5分钟掌握终极技巧

Harness 中的响应合并：将多个片段组装为完整输出

Windows Cleaner终极教程：5分钟彻底解决C盘爆红问题，让系统重获新生！

别再只会用ifconfig了！在Ubuntu 22.04/20.04上，教你用ip命令并顺带配置好国内镜像源