
错误的层面博主曾尝试搭建SaaS堆栈来解决问题设想用Eddie AI迭代剪辑Higgsfield MCP生成B - roll素材Submagic添加字幕Buffer进行跨平台发布每月费用约140美元。但实际运行前就出现问题生成式AI视频在旅游品牌中无立足之地错误标注的AI镜头会让酒店遭差评所以Higgsfield被排除每周发布3 - 5篇内容过于激进实际可行频率更接近每周2 - 3篇。后来博主发现DaVinci Resolve Studio自带的功能约涵盖Eddie功能的70%Eddie也被排除。最终方案是用Claude Code通过开源的DaVinci Resolve MCP驱动Resolve用ElevenLabs为信息类剪辑添加旁白费用降至22美元。但市场上的AI视频编辑器假定素材已标注好而博主的素材文件名和文件夹名无法让这些工具找到特定内容AI编辑器解决的是“第二个问题”第一个问题是素材索引。问题所在博主意识到对于未标注的素材库没有现成答案能让代理程序知道每个剪辑里有什么。关键在于上游环节要先建立索引让素材库能用英语查询上层编辑器才能发挥作用。于是博主在本地建立了索引。构建过程这是博主在SimbaStack为客户做的AI原生项目此次博主既是客户又是工程师决策过程简单很多。项目形态由四个因素决定必须以本地优先因为素材库存储在物理固态硬盘和笔记本电脑里上传到云端成本高且不安全希望使用边车文件而非中央数据库每个剪辑有.description.md文件可grep搜索即使索引器出问题文件也能保留且信息会随文件移动一次视觉调用要涵盖所有信息数据架构要详尽包括评级、技术质量等希望有三种视觉后端可供选择默认用Claude通过Max订阅的CLI需要速度时用Anthropic API批量处理时用指向LM Studio的本地后端本地后端最重要。每个剪辑的处理流程如下使用ffprobe获取元数据使用exiftool获取GPS经纬度和海拔信息适用于iPhone、大疆Pocket、无人机拍摄的素材通过Nominatim进行反向地理编码免费但有速率限制无需API密钥使用ffmpeg提取五帧均匀分布、分辨率为1920px的画面使用WhisperX进行转录实现单词级别的对齐并使用pyannote进行说话人识别支持97种语言使用insightface检测人脸并将512维的ArcFace嵌入向量存储在集中式SQLite人脸数据库中以便日后进行跨素材库的人物查询视觉模型读取帧、转录文本片段和文件夹上下文信息返回YAML前置元数据和文字描述将边车文件写入磁盘。意外之喜2021年博主买的16英寸MacBook Pro M1 Max当时买与大语言模型无关。五年后这台笔记本电脑竟能在LM Studio中运行Gemma 4 31B Q4模型对一年的视频素材进行处理。批量处理时笔记本电脑64GB内存不够用峰值时交换空间使用了50.89GB。网上搜索得知短时间这样使用没问题在一个周末让电脑满负荷运行在其承受范围内。这台电脑发热、风扇转动但能在博主处理其他事情时生成边车文件。16英寸的M1 Max堪称传奇五年后还能以可用速度运行31B参数的模型且有一定性能余量预计还能再用三到五年。四个错误四条教训这个项目大部分代码由Claude Code编写有四次差点输出错误结果WhisperX 3.8更新了说话人识别API解决方法是进行签名自省采用防御性的构造函数调用Claude CLI会把权限错误当作成功响应返回解决方法是添加标志并进行防御性检查Gemma返回的people_count是字符串“many”问题出在数据架构设计上解决方法是编写更严格的提示词并转换旧响应摩托车剪辑不应被剔除重新定义剔除标准视频回忆素材应更宽松处理。实际收获有三件事博主现在比一周前更加坚信枚举约束比指令更能防止模型虚构内容使用架构而非指令使用结构化提示词的本地31B模型在性能上与云端模型差距不大大规模批量索引应在本地进行云端服务用于重新评估本地标记为“待审核”的剪辑AI视频编辑器定位过高最有价值的层面是索引目前大部分AI视频编辑器跳过了索引这个先决条件。下一步计划回顾过去博主意识到剪辑积压是工具问题自己有能力解决。这个周末博主打算开发编辑器用Claude Code作为协调器用DaVinci Resolve MCP进行剪辑用ElevenLabs为信息类剪辑添加旁白语音克隆只能用于实用内容。索引让这一切变得可行目前一台用了五年的笔记本电脑已能用英语查询一年的Mara Hilltop素材。接下来要处理旧固态硬盘里剩下的素材。Mara Hilltop的社交渠道目前仍停更索引器只解决了一半问题编辑器是另一半问题若成功社交渠道将重新活跃博主会写第二篇文章若失败会分析原因。博主表示正确做法可能是雇人若有人认识能理解Mara Hilltop风格的剪辑师请介绍给他。