用谷歌的嵌入API,17分钟造出一个多模态AI?真的试了

发布时间:2026/5/19 18:11:28

用谷歌的嵌入API,17分钟造出一个多模态AI?真的试了 不训练模型、不买GPU集群一分钟不到AI就能看图识物、听声辨字先说一个你能理解的比喻想象你要教一个只会说话的人大语言模型认识图片和声音。传统做法是重新培训他让他从头学习看图、听声这个过程费时费钱这需要几十张高端GPU跑几周。我们的做法是给他配一个翻译。图片进来翻译先把它变成一段语义描述一串数字再交给这个人来回答问题。这个翻译很便宜训练只要不到一分钟。这个翻译就是今天的主。谷歌给了我们一把现成的钥匙谷歌最近开放了一个叫gemini-embedding-2-preview的API。它能做一件很神奇的事把任何东西——图片、声音、文字、视频——都压缩成同一种格式的数字串3072个数字组成的向量。厉害的是语义相近的内容压缩出来的数字串也会很接近。比如一张狗的照片和一段狗叫声在这个数字空间里会住得很近。当时就想这不就是现成的翻译器吗直接拿来用不就行了顺带一提这个实验全程跑在 Gemini Pro 上。如果你也想自己复现或者日常用 Gemini Pro 做开发/研究最近有个渠道在卖3个月兑换码充自己账号只要 ¥89比官方订阅划算不少库存不多感兴趣可以看看 :https://fe.dtyuedan.cn/shop/ddm我们怎么做的三步极简只有第二步那个小转换器需要训练其他全部是现成的、不需要动的。打个比方第一步是谷歌的词典第三步是一个已经很厉害的语言专家我们只需要训练中间一个速记员教他怎么把词典里查出来的东西整理成语言专家能看懂的格式。训练这个速记员单张显卡不到一分钟。结果出乎意料地好在 8 个任务上分别训练了独立的适配器全部用贪婪解码做自由生成看精确匹配准确率任务数据集准确率物体分类CIFAR-1097%性别识别声音RAVDESS99%单词级语音识别Speech Commands94%句子级语音指令Fluent Speech Commands89%服装分类Fashion-MNIST83%数字识别SVHN62%情绪识别RAVDESS53%场景文字/OCRIIIT-5K33%一个 3072 维的向量 1700万参数的小网络 一个没有任何微调的 LLM就能在图像分类上达到 97%。这个结果说实话超出了预期。惊掉下巴的实验做了一个出格的测试——把只看过图片训练出来的转换器拿去识别从没见过的音频。结果 播放狗叫声 → AI说dog置信度95% 播放鸟鸣声 → AI说bird置信度81% 播放猫叫声 → AI说cat置信度70% 播放青蛙叫 → AI说bird置信度2%整体准确率59.8%是瞎猜的3.6倍。这说明谷歌的这个API确实做到了一件了不起的事狗这个概念在它的数字空间里无论来自图片还是声音都住在同一个地方。类似地只听过声音训练的性别分类器拿去看人脸照片准确率也有62%。但它也有做不到的事最后测试了最硬的场景真实的语音转文字1000句不同的话。结论完全失败0%准确率。为什么因为前面那些语音识别本质上是选择题。模型学会的是这段声音属于169个已知指令里的哪一个——就像背了一本有169个词的小词典。一旦遇到词典里没有的话它就完全不知所措只能胡说八道。这是这套方案目前最大的天花板只能做分类不能做真正的开放理解。总结适合谁用这套方案不是要取代专业的多模态大模型它的价值在于极低的门槛适合这些场景想给自己的开源模型快速加上能看图/听声的能力任务是分类、识别这类选择题没有大量GPU资源预算有限不适合这些场景需要真正理解开放内容对精度要求极高的专业场景需要处理OCR、情绪等细粒度任务用谷歌现成的API做翻译用1分钟训练一个速记员给任何AI大模型装上感知能力——简单任务上几乎媲美专业方案是目前最轻量的多模态入门路径之一。

相关新闻