神经网络是一种工具,而不是魔法按钮。ZiMAD谈论与人工智能合作进行手机游戏图形设计的经验
如何与人工智能找到共同语言,以及在不降低质量的情况下,实际上可以将工作委托给神经网络的哪些部分,— 这是公司 ZiMAD 的艺术家安德烈·诺维科夫在他的专栏中为 App2Top 讲述的。
安德烈·诺维科夫
当我刚开始做设计师时,市场上的软件少得多,功能也有限。
今天 — 一切都变了。例如,一些解决方案可以将单调的工作降到最低。
但这也有反面效果,软件变得更难掌握。因此,必须不断学习,掌握新的内容。
现在,在我的工作中,我主要使用 Photoshop 与内置的人工智能和 Stable Diffusion 的组合。
我开始学习后者是通过网上的手册。一年前,如果没有弄清楚这些手册,甚至连安装和设置神经网络(没有现成的包)都无法做到。最后,我甚至还参加了一个关于 Stable Diffusion 的培训课程。
我是否建议别人也这样做?
绝对是的。如果有机会向那些已经掌握这一主题并愿意分享经验的人学习,那么一定要抓住这个机会。课程可以将学习时间从两周缩短到两天 — 提供所有的路径和技巧,以及基本知识,掌握这些,您就可以立即开始使用软件。
Stable Diffusion 的设置是在本地计算机上进行的 — 安装 Python,启动编译器,接下来获得链接,通过这个链接打开网络界面。
Stable Diffusion 的特点在于其设置的多样性。使用它时,必须知道哪些设置及其作用。这不同于 Photoshop 中那些可以通过图标猜测功能的常规按钮。
但用户也可以使用其他接口,这是特定用户的选择。其他选项包括 Easy Diffusion、Vlad Diffusion、NMKD Stable Diffusion GUI。
神经网络几乎瞬间就能产生结果 — 这不是渲染,您可以在等待时去厨房喝咖啡,或与同事在饮水机旁聊几句。但是,为了与人工智能快速合作,重要的是要将一切设置好。
训练人工智能
与神经网络“按部就班”的工作是学习的结果。
例如,我需要神经网络能够生成符合我风格的室内设计。为此,我做了以下几件事:
- 拿了一张 ZiMAD 项目(Puzzle Villa)的图片;
- 将所有图片剪切成小块,以便每个片段中都有一个室内元素;
- 请神经网络描述它在图片中看到的内容(在这一步中,重要的是评估数据的正确性并根据需要进行纠正;如果不这样做,在后续工作中,神经网络将坚持产生错误的生成结果;例如,如果它将柜子误认为一个人,那么在请求生成柜子时,它就会输出一个人);
- 在对神经网络进行训练后,得到了所需的风格。
顺便说一下,这种风格可以传递给同事以实现最终图像的最大一致性。他们只需拥有一个关键 — 背景。
最终,我与人工智能的工作归结为三个阶段:
- 给神经网络展示50+张图片,描述并获得新风格;
- 将需要修改的图片传送通过风格处理;
- 得到的图片由插画师进一步修改(添加或删除细节)。
1 — 原始图像;2 — 经过风格处理的图像;3 — 已由插画师修饰的图像。
提示 — 与人工智能互动的关键
如果您想从神经网络获得高质量的结果,那么您需要练习使用提示,即文本请求。最终结果取决于它们的表述方式。
每个提示都是独特的,任何小细节,包括所使用的单词顺序,都可能影响图像。
但是,我不推荐仅使用提示。与神经网络可以互相转发图片。对我来说,这比用文字解释所有内容简单。例如,假设我需要基于特定的猫生成一张图片。
我插入猫的图片,写下我想要的内容,比如「给猫戴上帽子」。但是,在第一次请求时,人工智能提供所需结果的可能性几乎为零。为了加快过程,我在 Photoshop 中先勾勒出帽子的草图。
然后,在人工智能界面中,我选择需要神经网络处理的区域(inpaint工具),并设置所需的参数 — 变体数量、详细程度,以及最重要的,去噪强度,决定神经网络将如何遵循我的草图(其中0不会进行任何修改,而1.0会完全忽略我的草图,自由绘制)。
接下来,我得到了几种我想要的猫戴帽子的变体,并选择了我满意的选项。
这里还有一个例子,展示了神经网络如何加速艺术家的工作。
一位2D艺术家需要为一个活动创作独特的用户界面。他做了草图,我将其通过神经网络处理,并在提示中补充了艺术家的所有要求。结果,我们几乎瞬间就得到了很好的基础进行进一步修改。
重要的是:插图中的苹果箱、楼梯和羊是单独生成的。这是为了获得更可预测的结果和后续灵活的修改。
另一个非常强大的方向是3D。目前我有生成小空间的任务。神经网络在室内设计方面表现良好,但在生成时总是跳动透视,而我需要特定的视角。这个问题我用 ControlNet 通过几个简单步骤解决。
第一步。我在 3D 中建模场景,放置场景中的对象,设定相机,渲染深度图,并得到这样的图像。
第二步。我将深度图上传到 ControlNet,设置参数,以便神经网络基于这张深度图像生成图像,保持视角和对象位置。接下来,在提示中说明,人工智能必须输出一个阴暗、凌乱的阁楼,窗子在屋顶中间,中央有一个纸箱。获得以下图像。
此后,我根据技术要求在图形编辑器中完善氛围。应该得到一幅悲伤的小猫图像,它在暴风雨的夜晚,躲在阁楼中请求帮助。我得到了这幅可以交给动画师进行后续工作的图像。
人工智能对艺术家的价值
神经网络是一个工具,帮助建立可以随意打磨的基础。简而言之,多亏神经网络,艺术家们有了更多时间专注于图像的精细处理,而不是技术性工作。
在一两年前,当我被分配任务画20个头像时,制作过程会是这样的:
- 寻找参考资料;
- 准备草图;
- 从零开始绘制每个头像;
- 修饰每个头像。
今天,神经网络承担了大部分工作,大幅缩短了用于常规任务的时间。
如果项目风格已经准备好,那么生成一个游戏头像可能只需5-7分钟。在这段时间内,我可以选择20-30张图片。生成十个头像同样数量的变体大约需要一个小时。
借助人工智能的力量,我可以单独完成比以前更多的任务。因此,这是一种很好的工具。确切地说,这是一个工具,而不是一个神奇的按钮,声称将剥夺艺术家的工作。
神经网络之间相辅相成。例如,Stable Diffusion 在休闲图形上效果更佳,而 Photoshop 的神经网络在处理真实图像时表现出色。然而,结果并不像 Stable Diffusion 那样可预测,因为没有更多的设置,这由便捷的界面所弥补。
比如,如果有一张有趣的图片,裁剪起来不方便,那么可以直接在 Photoshop 中补充缺失的部分。这个过程轻松迅速。在 Stable Diffusion 中,虽然可以获得同样的结果,但需要多花一些努力。
Midjourney 能够生成美丽的奇幻图像,但不幸的是,其分辨率有待提高。因此,在 ZiMAD,我们将 Midjourney 与 Stable Diffusion 结合使用,以提高分辨率。好处在于,可以保持图像不变,仅提高分辨率或根据需要添加细节。
例如,一位同事利用 Midjourney 为 Magic Jigsaw Puzzles 制作了一张美丽的图像,而我通过 Stable Diffusion 将其分辨率提升到 4k。
在此过程中,我使用了 Script 字段,选择了我们这个案例中的 LDSR 放大器,设置放大因子参数,该参数决定图像将被放大多少倍,同时记得将去噪强度参数设置在接近最低的值(如果设定值过高,神经网络会严重重绘图像,在我们的例子中,放大值应在0.1-0.2之间)。
如果找到了合适的去噪参数,神经网络只会补充细节,而不会大幅改变图像。例如,这样,狼的毛发变得更加细腻,像素感消失了。
使用 Stable Diffusion 当然也有缺点。建筑和文字仍然很难处理,建筑物可能显得杂乱无章,而文字则完全无法阅读。
但我相信,随着时间的推移,这些缺点会得到解决。
尽管在使用神经网络时会出现困难,艺术家和游戏团队今天就需要学习如何与之合作。否则,他们在市场上几乎无法保持竞争力。
例如,现在我面临的任务是准备50个图标。手动创建它们可能至少需要一周时间。而借助神经网络,这个任务可能不会超过两天。
因此,最好不要抵抗新技术,而是学习如何与之有效互动。