Image2出来差不多一周多了,前期网上关于它能力的测试和讨论也够丰富了。大家的讨论大多集中在“有图有真相”的时代已经过去,或是说出图很好很自然上面。笔者前段时间刷到一个用Image2来做形象改造的帖子,获得不小反响。用户只需要简短的描述,即可实现发型定制、太阳镜定制的需求。出的图片一致性非常好,给的建议在评论区看来,也十分中肯。

形象改造提升带来的收益,不容小觑。自己舒心,做事情也更顺利。但不少朋友其实缺少审美锻炼,无法区分什么是好的。本着想试试新模型的威力,再加上不少网友也无法正常访问Image2,笔者便顺势构建了这样一个应用《海蓝颜究社》。希望让更多的朋友能够用上,提升自己的外在形象。

这类应用,是不少人面对AI创业命题的首选作品。我们这里主要介绍文生图上的经验教训,暂不包括网页应用。两者的时间开销约为1:1,感兴趣的朋友可以另外留言。产品地址beauty.kuhung.me或点击链接。
在开始之前,先说结论,再说遇到的坑。首先它的效果确实不错,人物一致性和文字已经非常好了,确实是第一梯队的文生图、图生图模型。给出建议也比较中肯。而这细活豆包、Gemini做不了,他们的一致性差、文本效果一般。

接下来我们进入正题,遇到了哪些问题,如何解决和最后效果展示。
首先第一个:提示词不准。虽然网上有给出简洁版的提示词,并且告诉你他是这样生成的。但当你实际操作的时候,会发现稳定性非常差。具体表现在两个方面:第一个是做出的效果和他的图不一致,会简化很多。其次是,当你用相同的指令,反复提交时,生成的结果也会不一样。

这一度让人困惑。即使是ChatGPT自己有提示,用它的提示词也生成不了预期的效果。

原因我猜测如下,概率模型本质上就具有随机性。你想要更准确的效果控制,要么在图的基础上再修改;要么就是在提示词上做约束。最直接的方法,就是你把图片和当前版本提示词、以及预期效果丢给ChatGPT,让它补完提示词。
这样试过又会发现:GPT画蛇添足、过度设计。它将原本40个词的提示词,扩充到了1500字。扩充的后果是效果像了,但是细节不一样了。

GPT扩写这提示词,像没经过内部矫正一样。即使把ChatGPT里面的风格,设置成控制输出,也难以形成优雅统一的提示词。在浏览网页的时候,发现官网有专门的提示词教程。它其中写得明白:从少到多;结构化表达;明确修改范围和不变范围。通过这种方式,除开我们要做的这类图像编辑和转换,还可以实现信息图、UI等功能。

人写肯定不现实,还是让文笔更好的Opus来。丢给它要的目标图的形式,再给出提示词和提示词之后的结果图,让它一步步靠近。最终,实现近似可控的图片编辑效果。

这里面,最难的其实是一致性和排版;最需要权衡的是信息密度和样式。目前从结果来说,当约束人物一致性不变时,已经不会存在人物差距过大的问题,基本能保持一致;而排版通过提示词约束,也能一定程度上保持。不过稍微麻烦的是,不同目标(例如发型与墨镜)出来的效果还是会略微不同。

另外一个情况是,当约束中文排版时,由于有约束简洁,导致最后的信息密度一般。当然,也许是看惯了常用语言,有语言羞耻症。
最后,有条件的读者朋友可以试试原始提示词;不方便的读者朋友,笔者在早鸟5折的基础上,额外提供一张专属可叠加的8折折扣码「BEAUTY2026」,结算时输入或点击链接,免输入即刻体验。