文/陈根
继openai发表gpt-4后,ai生成图片工具 midjourney亦推出了新版本midjourney v5。新版本不仅提升了图像细节处理和多人物处理能力,还解决了手指无法准确描绘的问题,更可以生成名人的相片。
midjourney v5的惊艳升级
midjourney是类似于dall·e的一种文本到图像的ai,专长于“漂亮”图像,即可以根据用户提供的文本提示生成华丽的视觉效果。鉴于其本质上是为“默认漂亮”而构建的,因此即使对于定义模糊的提示,它也能提供更可靠的“审美”图像。而且,midjourney可以通过在聊天应用程序discord中向机器人发送消息来使用,不需要编程。
曾经midjourney v4演绎的“六指琴魔”,在v5中几乎得到了堪称完美的解决。那么,短短数月的更新升级,到底做了些什么,会让效果一下拉高到如此“惊人”的程度呢?
首先是细节部分更加逼真。v5生成的效果可以说是越来越逼近照片效果了。不仅如此,在有面部特写时,各种肌肤纹理以及光影效果,比如说反射、眩光和阴影等,v5都能搞定。
其次,拥有了更多的可选风格。在discord发布说明中,相较于v4版本,midjourney v5版本拥有更多的可以选择的风格,分辨率也提升了2倍。单纯从风格上来讲,可以从0~1000中选择,stylize 0=照片,stylize 1000=更艺术。而且,v5还会对提示词更加敏感,用更少更精简的文本生成更好的有效的图片。
再者,经过这次升级之后,midjourney基本摆脱了“不会画手”标签,想要靠看手指数的多少来判别ai作画已经不管用了。
除了上面几点比较明显的升级之外,midjourney v5版本还更新了一些小细节,增添了些新功能。比如:更广泛的样式范围和更灵敏的提示语;更高的图像质量,改进的动态范围;更详细、正确的图像细节;以及,可以减少不需要的文本提示,支持无缝平铺的–tile参数,–ar宽高比大于2:1等。相比较于v3和v4,v5更“不拘一格”,并且经过调整可以提供更广泛多样的输出并对输入做出非常敏感的反应。一言以蔽之,v5 使用截然不同的神经结构和新的美学技术,希望能感受到人类集体想象力中某种深刻而深不可测的事物的进展。