
我们都经历过这种情况拍摄结束后进入编辑阶段你意识到完美的镜头正是你没有拍的那个。你需要鸟瞰视角或者仅仅是一个轻微的旋转来让构图更出色但那个瞬间已经过去了。直到最近事情就是这样。你只能接受已有的照片。但我们现在正生活在一个创意专业人士的疯狂时代。新一波AI工具不仅仅是从零开始生成图像它还关乎重新混合和完善我们已经捕捉到的现实。今天我想分享一个我一直在测试的工作流程它感觉像魔法一样从单张平面图像创建新的相机角度。我让两个最流行的模型互相较量Nano Banana Pro和Qwen Image Edit。1、测试设置Weavy节点在这次测试中我在Weavy又名Figma Weave中使用了基于节点的工作流程。如果你还没有玩过基于节点的编辑它就像是为你的图像处理管线构建一个可视化配方。我设置了两条并行路径**Nano Banana Pro**Google最新的多模态强大力量。**Qwen Image Edit**一个基于Stable Diffusion的流行模型。我给它们两张具有挑战性的人像——一位穿着Aviator Nation连帽衫的女性和另一位紫色头发的女孩——并要求两个模型旋转主体给我鸟瞰视角和45度旋转。提示很简单在Gemini应用中效果很好“创建[]img1中女性的新角度就好像她的整个身体旋转了45度一样。使用与原始图像相同的构图。”如果你没有Weavy、Higgsfield等账号上面相同的提示在免费的Gemini移动或网页应用中也有效。但是有两个陷阱首先它会有水印。其次如果你第一次没有得到正确结果重新生成会更困难——在这种情况下最好开始一个新对话这样它不会被现有图像卡住。2、挑战者Qwen Image Edit让我们从Qwen开始。理论上它是一个扎实的工具对于很多业余应用来说它完全够用。但当你用专业眼光审视时缺陷就开始显现了。**颜色/对比度问题**我立刻注意到Qwen在压暗暗部的同时把对比度调得太高。在穿着连帽衫的女性照片中颜色发生了显著变化。它看起来很鲜艳但不准确。对于专业工作流程来说色彩保真度是一切。我不希望我的工具为我调色。**Stable Diffusion外观**你知道我说的是什么样的外观。有一点塑料感细节上有点柔和看看女孩的头发和皮肤例如。Qwen实际上是运行在Stable Diffusion之上的LORA低秩适配它继承了该架构的所有怪癖。它不太理解光的物理原理只理解像素的统计概率。**文字问题**这是一个致命缺陷。我在提示中包含了文字指令但Qwen完全搞砸了连帽衫上的字母。这是扩散模型的典型行为它把字母看作形状而不是语言注意上面连帽衫图像中的袖子。**提示遵循度**我不得不和这个工具斗争一下。除非我明确地将旋转参数如45度写入文本提示否则它不会尊重滑块参数。不过公平地说这可能是Weavy实现的一个怪癖所以对此要持保留态度但摩擦就是摩擦。3、冠军Nano Banana Pro然后是Nano Banana Pro。说实话它完全是另一个级别的。它并不完美——我会透明地说我不得不重新生成几次因为它并不总是在第一次尝试时遵循提示。姿势和位置在不同生成之间的变化比Qwen更大。但当它成功时质量是巨大的。**产品一致性**这是杀手级功能。Nano Banana Pro是多模态LLM不仅仅是扩散模型。它有一个世界模型。它理解主体穿着Aviator Nation连帽衫——可能从它与Google Shopping和Google Images的集成中获取信息——并在考虑这种上下文的情况下渲染了服装。**鸟瞰视角**由于那种3D世界理解鸟瞰视角真正令人信服。Qwen很难从上方弄清楚场景的几何结构但Nano Banana似乎知道身体如何占据3D空间。**文字完美**因为它是LLM它能读写。连帽衫上的文字几乎完美渲染。没有胡言乱语没有外星象形文字。**相似度和颜色**面部看起来像原始照片中的人。颜色忠实于源材料。感觉就像在处理原始文件而不是在上面套用滤镜。4、在Nano Banana Pro中控制相机角度这是Nano Banana Pro以一种真正让我惊讶的方式展示其多模态能力的地方。我决定测试是否可以用图表而不是文字来控制相机角度。首先我尝试了一个2D俯视图展示了一个相对于一辆旧款Acura Legend侧面照的相机角度……完美成功。但事情变得更好了我上传了一个粗略的3D图表显示了一个在3D空间中指向立方体的相机令我惊讶的是它也完美成功了。现在完全坦白我的图表并不完美。但这实际上是最好的部分。 **Nano Banana Pro不需要完美。**它理解了意图猜测了数学并且做得相当不错。同样它并不完美但这确实给了你用相对精确的方式在Nano Banana Pro中控制相机角度的能力你可以用灯光做同样的事情。5、结束语如果你只是随便玩玩Qwen速度很快能创建高对比度、鲜艳的图像。但对于需要可靠、高保真结果的创意专业人士来说我很难推荐Qwen。仅颜色偏移就是一个我们不需要的麻烦无法处理文字限制了它在商业工作中的实用性。Nano Banana Pro可能需要在重新生成上多一点耐心但输出质量的差异是不可否认的。它尊重你主体的身份理解你场景中的文字并以扩散模型尚未达到的复杂程度渲染光线和几何结构。对我来说以及我的工作流程Nano Banana Pro是轻松的选择——特别是Higgsfield的Angles实现。原文链接Nano Banana 相机控制 - 汇智网