“我们正在努力将基于Stable Diffusion的神经渲染技术添加到Cascadeur中,”— 叶甫根尼·迪雅宾谈未来的Cascadeur、神经网络和Product Hunt
角色动画软件 Cascadeur 已经获得了 13 万用户的关注,并于今天在 Product Hunt 上发布。我们认为,这正是与其创始人探讨当前工具面临的挑战,以及它与神经网络的集成的绝佳机会。
Cascadeur
亚历山大·谢苗诺夫,App2Top 主编: 耶夫根尼,你好!我从去年 12 月以来就想和 Cascadeur 团队谈谈图形神经网络。顺便问一下,你们对它们有什么看法?
耶夫根尼·迪亚宾
耶夫根尼·迪亚宾,Cascadeur 创始人兼首席制作人:我们对此非常感兴趣,甚至在研究它们以满足我们的需求。如果从总体上看,我并不担心突然的技术革命会导致许多职业消失。照相机的出现并没有减少艺术家的数量,而每个手机上都配有自动对焦的相机也没有减少专业摄影师和摄像师的数量,尽管这改变了他们的工作。此外,当前这些新神经网络在实践中的应用面临许多问题和限制——这大大削弱了初步印象。让我们看看进展会有多快。
很好。那么,想做却没有理由。今天你们在 Product Hunt 上发布,这是个很好的理由,我们就从这里开始。Product Hunt 有什么用?
耶夫根尼:Product Hunt 是一个社区,汇聚了创作者、初创企业和爱好者。每天,他们都会评估和讨论新产品,而他们的评价对于各种专业媒体来说都很重要。
顺便说一句,借此机会向读者们提个醒——如果你们想支持我们的项目,可以在 Product Hunt 网站上今天就行动,甚至可以留下你的反馈或问题——我们一定会回复每一个。
今天 Cascadeur 在 Product Hunt 上发布
Cascadeur 的用户基础为 13 万人。你自己曾说过,你们曾收到来自游戏和电影公司的排队咨询。Product Hunt 会给你们带来什么,是你们尚未达到的目标呢?
耶夫根尼:是的,我们受到了大工作室和独立开发者的关注——我们的知名度很高。但在软件的认识与动手学习之间存在一个严峻的门槛。如果我们在 Product Hunt 获得“今日产品”奖项,这将成为来自专家社区的社会证明。对此,我认为这将帮助我们重新定义在大型媒体中的定位,并说服更多人尝试 Cascadeur。
去年 12 月,Cascadeur 在经过一年的测试后进行了全球正式发布。作为一个服务,你们在此之后面临了哪些挑战?
耶夫根尼:发布后,用户涌入,这极大地增加了支持的负担。问题如雨后春笋般涌现,而专业人员的数量没有增加,并且想要扩展他们并不容易——他们必须深入了解软件和技术细节。
因此,我们正在制作 FAQ,以加快“第一线”的支持,同时优先支持 Pro 版本用户——在办理许可证时,他们将立即获得通往专属渠道的链接。总之,我们正在优化流程。
我们还首次遇到一些公司需要同时购买 40 个许可证的情况。不得不迅速完成这个功能。此外,20% 的用户是学生或教育工作者,因此我们需要增加教育许可证。
你们肯定在收集反馈。根据反馈,当前 Cascadeur 用户通常缺少什么?
耶夫根尼:用户缺少成千上万的小功能,而要实现所有这些几乎是不可能的。因此我们必须选择认为最受欢迎或最重要的功能。例如,提升与 Blender 的兼容性或上传音频的能力。有些需求非常频繁,但也很复杂,例如面部动画或混合形状,这些迟早都需要实现,但目前我们还没有足够的资源。
至于我们的主要话题——物理,许多用户期待看到布娃娃、碰撞和环境交互。目前我们的自动物理功能专注于运动中的动态平衡校正、跳跃中的轨迹和旋转校正,以及增加次级振动和扭动——这些极大提升了动画质量并加快了制作速度。但目前仍然缺少从墙壁反弹、爬上台阶或与其他角色互动的能力。我们正在积极致力于这些功能。
还有一些用户抱怨角色手指的操作不便,因为需要旋转每个指节。但在即将到来的更新中,我们将增加手指的自动姿态功能——这是一种智能 rig,可以通过几个控制器轻松管理手指。
我想分享一下我的困扰。当我看到 Stable Diffusion—ControlNet—Blender 的组合能力时,我立刻想到了 Cascadeur。与 Blender 不同的是,它专注于姿态,而我相信它的入门门槛低于 Blender(而且,与 ControlNet 的基本功能相比,它确实更方便)。对此,我想问:Cascadeur 能期待对 SD 的支持吗?
耶夫根尼:这个想法确实很有前景!我们也很快想到这一点!而且不仅是我们。然而,只有我们拥有最便于新手和爱好者使用的角色姿态控制工具。我们只需在此基础上添加基于 Stable Diffusion 的神经渲染,将 3D 模型转化为任意风格的 2D 图片。总之,我们已经在这方面进行开发。
我们一直希望能够接触到更广泛的受众,但 Cascadeur 的问题在于,它并不生成最终产品,而只是生产链中的一个环节。但神经渲染可以消除这一界限,尤其是在 Cascadeur 的移动版本中。您下载手机应用程序,通过自动姿态设置一个足够自然的姿势,选择摄像头角度,上传角色的图片,就可以获得所需姿势的角色。这将提供比通过文本描述获得的任何效果都具有更大的创意控制。现在仅仅是图片,但将来也会涉及视频,Cascadeur 的优势将充分体现出来。
Cascadeur
目前已经出现了第一批能够制作视频的神经网络。两三年后,我们可能会看到第一部完整的短片。但它们是基于 text-to-animation 原理,还是 text+animation-to-animation 原则,在这种情况下,动画化的模型将充当提示?
耶夫根尼:目前我对神经网络在不依赖物理模拟的情况下生成高质量 3D 动画持怀疑态度。我们认为 text-to-animation 是一个初步草稿,我们可以对其进行清理,修正姿势和物理,最终获得用户可以用我们工具编辑的高质量动画。我无法想象,如何能仅通过文本需求而获取期望结果,除非是最简单的情况下。
如果再加上视频的神经渲染,早晚会成为可能,那么这个工具将变得相当神奇。你用文字描述一个想法,得到一个相当逼真的选项,进行编辑,最终得到一个拥有所需角色和任何风格的成品视频。但目前这一切还只是概念,真正实施还有很长的路要走。
Cascadeur 自身就是基于神经网络构建的。换句话说,你们在这个领域已经很久。然而,你们是否仅在训练自己的服务中使用它们?还是在其他领域进行过实验?
耶夫根尼:首先,我想指出,目前 Cascadeur 的物理系统比神经网络更多,这也是我们与大多数生成运动解决方案的主要区别。我们几年前开始使用神经网络,最成功的应用是在自动姿态工具中,该工具帮助以最少的操作生成自然的姿态。
如果谈到 Nekki 公司整体,那么神经网络也在其他项目中用于不同的任务。例如,我可以提到在 Shadow Fight 4: Arena 中的机器人。它们是基于玩家的战斗进行训练的,能够操控不同的角色,利用它们的特殊技能和特定于这些角色的战术。
在 Cascadeur 中,许多动画是这样制作的:程序中加载一个视频作为模版,动画师根据该视频中的关键帧进行动画。你们在服务中实现一款模型,能够仅根据视频生成动画草稿的想法,现实吗?你们在这个方向上工作了吗?
耶夫根尼:是的,我们正在努力实现这个功能——这是一种依赖视频的草图工具。Cascadeur 在下一个版本中将有这个功能的第一个 alpha 版本。虽然现在尚未能达到良好的质量,但作为一个草稿,根据参考视频中至少包含关键姿势和时序的动画,这可以节省大量时间。我们将不断发展和优化这个功能。因为在客户端操作缓慢,所以需要将其转移到服务器,这样我们在性能上将不受限制。
Cascadeur
回到商业上:现在有人说投资者像疯了一样纷纷涌入 AI 领域。你们在这方面有体会吗?这类投资者期待什么,他们应该明白自己实际上在与微软、谷歌和 Adobe 竞争?
耶夫根尼:我认为这里并不存在与巨头竞争的大问题。大公司投资于技术本身,而小公司和初创企业则试图在不同领域利用这些技术。我们并没有从零开始开发我们的神经渲染或基于视频的模型,而是使用可用的库和模型,并将其调整和微调以满足我们的需求。
我觉得对这些项目的投资会显著增加。我们由 Nekki 公司资助,但也对其他提议持开放态度。
顺便问一句,你们自己是否预计到神经网络会在 MJ、SD 和 ChatGPT 后获得这样的关注?
耶夫根尼:我们几年前就意识到神经网络的未来在于它们被嵌入到不同工具中,因此开始招募数据科学家,进行研究和开发我们自己的工具,以便为革命做好准备。但 Midjourney 和 ChatGPT 的成功仍然让我们感到惊讶,并带来了新的希望和想法,例如神经渲染、text-to-animation 等。
你能给出一些预测吗?在 AI 技术方面,包括你们自己的,至少到今年年底会有什么期待?
耶夫根尼:我认为世界和市场不会像许多人担心的那样快速变化,但首先,投资会改变,这反映了对某种未来的信心。在接下来的年份中,我会期待出现智能搜索和对指导者的看法发生变化——人们将能够在自己的任务中获得个人帮助和指导。生成网络将帮助更快地原型设计和尝试不同的想法,但在大多数情况下,它们无法提供最终结果。
至于我们,我们将 AI 视为一位加快动画师工作的助手,动画师确切知道他们想要的是什么。动作识别、自动姿态、自动物理、神经渲染——所有这些首先是缩短想法与结果之间的时间,但在每个阶段,动画师都拥有完全的控制权,可以进行任何修改。我相信在年底之前,我们就能推出新的 AI 功能。
还有两个技术问题:在了解免费版本的限制时,我注意到用户只能导出“300帧和 120 个关节”的模型。对于不熟悉动画的人来说,这是多少?
耶夫根尼:从梦幻般的未来回到必须收回开发成本的现实!限制的初衷是为了让爱好者和独立开发者能够免费使用 Cascadeur,而不剥夺他们的重要功能。300 帧在每秒 30 帧下相当于 10 秒。这对于游戏动画来说已经绰绰有余,但对于较长的过场动画可能就不够了。此外,120 个关节对几乎任何角色都是足够的,但若是多个角色或非常复杂的角色就不够了。
什么时候可以期待对 Godot 的支持?
耶夫根尼:一旦我们添加对 glTF 格式的支持,紧接着就是对 USD 格式的支持。总之,我们正在努力实现这一目标。