多模态从Agent构建到视频AIGC_视觉转译_融合推理_多模态应用场景_传统视觉模型和多模态模型对比_yolo_unet对比---AI大模型系统从零开始0009

发布时间:2026/6/11 12:51:18

多模态从Agent构建到视频AIGC_视觉转译_融合推理_多模态应用场景_传统视觉模型和多模态模型对比_yolo_unet对比---AI大模型系统从零开始0009 再来看视觉模型,也就是多模态模型可以看到其实就是一个模型,能同时文字和图片,视频等,这里有视觉转译。这个经常用,其实就是把图片和提示词,同时作为提示词提供给模型。可以看到上面这样就可以把图片的内容描述出来,然后使用。再作为知识库的内容,然后再进行切片等。实际上千问也是支持视频理解的,但是没有上传视频的功能。但是Gemini是有的,可以看到

相关新闻