基本上处于一个全球排期的状态
这个就导致了做动漫的工作室
心有余力不足
其实我们这一圈聊了下来之后
基本上所有的动漫工作室都在看AI
当然大家不一定会说
你说主流的 顶级的
对 我们能叫上名字的动画工作室
当然AI对于艺术家来说
是一个特别敏感的话题
所以对于这些工作室来说
往往他们在外面宣发的很少
但是技术大家都看得到
他们能看到这些可能的应用场景
也是很激动的
他们真的有行动吗
有的有的
比如说像动漫
其实动漫的生产环节相对来说
是比较流程化
比如说先从故事的脚本
角色设计开始入手
然后把它做成故事板
再做到原画里面还有一元二元
然后再做中间帧的动画
背景同时做
然后再加上音乐
最后把这些东西全部合起来
最后加上配音
然后再有后期调整
他们最希望能看的事情就是
这些流程当中
有没有这样那样的环节
可以用AI去提升效率的
他们找到了吗
没有
其实
我们待会儿可以说一下
为什么没有
没有 对吧
就是举一个非常具体例子
AI其实在动漫当中有一个
特别特别明显的潜在应用场景
就是中间帧
比如说我们刚才讲一个人喝咖啡
他用手拿起咖啡杯
然后放到自己嘴里面然后喝一口
这里面可能就会有三个关键帧
关键帧大概是手拿到杯子
可能形成一个
这个我们要画一张画
然后杯子拿到嘴边可能形成一个
这个我们要画一张画
然后喝一口
喝完之后什么状态
杯子是什么角度
这个我们要画一张
可能有三张
而动画只有这三张
它肯定是很撕裂的一种体验
所以为了让
大家会觉得跳帧
对
感觉中间漏了一点什么
所以为了让整个动作变得很流畅
我们需要在这三个关键帧当中
进行补帧
如果说我们是一个特别细节的
是一个很靠近这个人的镜头的话
中间可能要补不少帧
中间帧这个过程
和关键帧这个过程的绘制
在动漫行业当中一般是两个步骤
而关键帧的绘制大家都会觉得
是一种非常富有创造性的活动
中间帧的绘制相对来说就枯燥一些
因为
实习生做的活动
所以中间帧的绘制也往往是
动漫行业新人第一个会上手的工作
而中间帧的绘制往往是很多人
想到AI能不能用于帮助我们
提升产能时候的第一个应用场景
它这个需求相当于是
我给你两张原画
然后你根据这两张原画
来生成中间的这一系列动作
还不仅仅说是文生图
它其实是图生图
还是图生视频
图生视频
因为视频也是一系列图
对对对
所以基本上就可以理解为
是一个图生图的一个过程
而这个过程从技术的角度上来说
听上去好像不是特别困难
无论是美国这边的大学也好
创业公司也好
甚至包括硅谷的一些院校
国内的院校还有公司也是一样
往往是关键帧生成上
时不时的就会发布一些
很厉害的一些论文
每一两个月可能就会看到一个
我们在关键帧生成上
又有了什么什么突破
哪些公司在关键帧上比较有突破
非常非常多
B站前几周
就发了一个挺不错的论文
就B站的研发团队
他们自己也在研发这方面的技术
对对对
甚至说美国的一些比较独立的
一些科研团队
都有做出来很不错的结果
我们看到这些当然是很激动的
但是理想总是非常的丰满
现实其实相当的骨感
我们这次去参观的工作室
都有尝试在用AI辅助中间帧的生成
但问题就在于效果不够稳定
不够稳定
其实这四个字当中最关键的
一个词是够
要多少才能够用
这个是一个特别特别
玄妙的一个问题
对 能不能还是用我们
刚刚喝咖啡的这个例子
来解释一下什么叫够
可以 没问题
比如说这个人他穿的是一个夹克衫
这个夹克衫在运动的过程当中
可能会产生皱褶
或者说我们这个人的手
可能会产生一些
我想要去表现的一些光影的变化
或者说他带了一个手套
这个手套上有一定的纹理
或者说这个咖啡杯上
画了一个什么东西
那么这个时候关键帧
就开始出现一些很玄妙的
一些问题了
比如说我们在拿起咖啡杯之后
生成了一个关键帧
这个关键帧由AI做出来
可能90%
大家已经看不出什么问题了
但是很有可能这里面
就会出现百分之五到十的差错
而这个差错就会对动画制作流程
产生特别大的影响
它就不是一个连续性的过程
你人用物理跟常识去看
就会觉得别扭
对 而且这有些时候还不是物理的问题
这有些时候是一个创意性的问题
因为动漫的制作
它也并没有追求每一帧
都完全符合物理世界的规律
往往更多的是我希望
它在这种创意的允许范围之内
它可信且好看
而这两个问题都会产生
比较严重的问题
在可信这方面
如果我的这一个皱褶
一下出现突然一下消失
又一下出现又突然一下消失
那它如果真的播放的时候
是不是会产生一种很奇怪的观感
这个袖子上到底有没有东西
大家可能会联想到
是不是跟剧情的关系
对对对
尤其是像动漫这种媒介
因为实际上每一笔
都是由人画出来的
所以它实际上每一笔后面的思考
尤其是在很厉害的
这些动漫的大师上面
都会有非常深奥的思考
就是它可能会有铺垫在里面
对
你本来是一个AI
做的一个不完美的作品
它只是因为它不完美而已
但是观众会把它作为
一种剧情的铺垫去解读
这个绝对是其中一个很大的原因
尤其是当我们比方说把一段
很激烈的动漫当中的打斗
非常慢的放之后
就会发现其实每一帧的动作
相当的夸张
夸张到你如果真的把这一帧拿出来
纯粹作为一个物理世界的这种考量
它就不是一个正常物理世界当中
应该存在的事情
它就是一个导演也好
动画制作师也好
在这种夸张的动作之下诞生的
一种美学上的思考
而这种在AI当中
为什么会特别容易产生问题
其实就是如果有那百分之五到十
它的细节不好的话
这个东西不一定好改
不一定好改
就是在衣服上加几笔
这个褶皱是很难的
这个其实比我们想象的要困难
这个也是为什么说很多时候
我们觉得AI好像
能够做关键帧生成很不错
但其实足够用这个够
这个字里面的标准相当的高
假设我们用AI拿起咖啡杯喝一口
生成了十张关键帧
这十张关键帧每一张都不错
但是每一张都在不同的地方
出现了5%的误差
这十张拿出来之后
我们还是要交给作画监督
原画师还是要交给他们审查
那么真的节省他们时间了吗
不一定
还不如就直接自己画了
可能有些时候
还真不如自己画来的更快
95%的10次方这个正确率
最后就可以算出来吗
对 这个正确率会发现
好像也没有那么大的帮助
这个更牵扯到尤其是现在
生成模型的一个问题
如果比方说我中间
是以十个实习生在帮我画
我至少可以非常详细的
告诉他你们错在哪了
我们可以把他们加起来一起开个会
但是AI很难可控的生成
你想让它把这个褶皱去掉
对
它可能改的不是这个地方
它或者它还是会出现这个错误
对 这个就是细节当中的魔鬼
真的就显现出来了
如果是十个实习生的话
我至少能够很稳定的知道
每次我交过来的稿件都会变得更好
AI就不一定了
包括我们现在也有
这些masking的这些技术
但实际上最终还是存在一个
我让AI从90%到95%
再从95%到100%
这个过程真的不一定比人快
而这个往往在影视行业也是这样
比方说在好莱坞的特效也是
真人也好 CGI也好 对吧
我们现在就说一个车
嘣一下爆炸了
其实这个事情
如果在好莱坞来做的话
这个是我真去炸一辆车
还是说我用CGI做
如果我用CGI做的话
那这个爆炸它有多大
它是否产生烟雾
它是什么颜色的
产生出来的碎片应该往哪些方向飞
这些在很多导演当中
都是相当重要的细节
而AI至少在目前阶段还很难
对于特效也好
像动漫我刚才讲的细节也是
做到如此精细程度的控制
这个我觉得也是将来AI如果
真的在影视行业全面落地的话
可能会比较需要长期投资
和发展的一种关键技术
就是对于非常详细的
创意细节的把控能力
而且你这个其实难度挺大的
因为你要细节到每一帧
对
对 我记得之前我们聊天
你说正好听到
一个詹姆斯卡梅隆的演讲
说他每一次爆炸都会爆破几百次
对吧
是模拟几百次 如果没记错 对吧
对对对
卡梅隆其实一直以来也是一个
非常对技术友好的一个导演了
他自己本身
也有工程师的背景在里面
很朋克很厉害的一个人
他们拍电影的过程当中
对于技术性的要求
对于美学的追求很高
他对于自己手上的工具的可控性
其实上有着相当相当高的要求
还是在那个不够好
这个够这个字到底有多详细
我们也可以刚好借这个话题
聊第二类公司
第二类是什么
完全放弃已有动漫行业的工业流程
想要以AI为核心
做一种以AI为主的
新的动画制作流程的公司
这类公司往往更偏向于创业公司了
很多这些公司可能也不一定
有非常丰富的动画制作的经验
他们实际上并不是说我拿AI过来
我去优化已有的一个流程
不是 他们就是说我的流程
就应该从零开始围绕AI来去做
看AI有什么能力
然后我们来做什么样的动画
对 就是AI有什么能力
我们就干什么的事情
能出什么样的作品
比方说中间帧AI制作很难
无所谓
我们就不做中间帧了
或者说我们对于中间帧的
制作的方法就跟之前不一样了
我们之前聊了一个公司
叫Kaka creations
他们在今年做了一个
大概30分钟左右
声称是95%用AI生成的一个小动画
Kaka creations
对 这个公司当时在网上
也是引起了轩然大波
刚好又是Open AI大家把照片
吉卜力化的风口浪尖上
这家公司其实人特别少
可能也就十人左右
也非常早期
他们因为看到了这些
视频生成模型很有趣 想做
那他就说那我就从零开始做一个呗
他们的关键帧
还有他们的中间帧
很多是动捕的
是有一个人实际在演
然后又把人演的这个部分
利用AI换成动漫的风格
有点像风格转换
它其实是把人眼的
这个视频捕捉下来
还是说图像捕捉下来
再把它导入到大模型里面
把它做成一个动漫风格
有点像吉卜力风格的这样的一个
我们还是用刚才那个例子
他们的想法是这样的
既然现在AI画画存在很大的缺陷
我们就不考虑这个方法了
我们就实际录一个人拿了一个咖啡
喝了一口水
然后把录出来的
这个素材丢到AI里面
把它转换成动漫的风格
你觉得做得好吗
我觉得做的还行
多少分
七分
十分是满分
十分给个七分
然后六分及格
六分及格
七分
就是我觉得属于
确实还行的一个状态
成本应该是会比
动漫视觉化节省一些
肯定低
现在的话存在很大的
科研成本的问题
这个技术的做出来东西有多好
其实也不知道
但是七分其实如果真的
从一个动漫纯制作角度来说
不算一个特别高的得分
但是如果说它能不能及格
我觉得能及格
但是非常明显的
看出这个是AI制作的
它跟传统的这些动画相比
它的表现力
美学上的这种设计
坦率的说还是差不少
举一个例子说
美学上的设计有什么不一样
比如说本来做3D模型
2D模型
我得把它一帧一帧画出来
得把一个3D人的这些动作
都给摆出来
我用动捕的话
就直接人打打就结束了
那这个效率多高
从一定程度上是的
但问题是如果真的做在动画里面
其实上大家会对于更夸张的表现
往往会有一种美学上的追求
动捕如果真的做成动漫
其实经常会产生的一个问题
就是它显得特别僵硬
我懂了
就是它不够夸张
它不够夸张
它不够有艺术性
对 它不够夸张 它不够有趣
对吧
就是因为我们实际上一天到晚的
看周围的世界就是一个
很真实的一个世界
如果我真的是喜欢这种风格的
我干嘛不去看真人电影
对的对的对的
就举一个例子
比如说人笑
他的嘴巴的弧度是有限的
但我们通常在动漫中
那个眼睛非常大
然后你那个笑
嘴巴可以一直延伸到很大很大
对对对
它就是一个夸张的效果
但我们会觉得很可爱
会觉得很有意思 对吧
哆啦A梦
就是嘴笑的那么大
然后眼睛都眯成一条线了
这个就很好玩 对吧
是
这个东西如果拿动捕来做
它就会有另外一些技术上的难度
所以动捕有好也有坏
最终呈现出来的效果实际上
是一种美学上的取舍
Kaka creations这个就是
它的其中的这个案例之一
但我觉得也是一种思路
也是一种思路
一种挺好的思路的
比如说背景的话
一般不是也是画的吗
那我们就不画了
我们就拍张照
然后拿这张照片上AI说
你把照片给我转个风格行不行
其实背景反而是最容易成立的
尤其是静态背景
它就不太那么容易穿帮
这不是已经构成了
可以在传统的动画产业链中
有一个环节
至少你的背景空镜头
可以用AI来做
说的很对
其实奈飞之前改编手冢制成的
这个Pluto有个剧集很好看
奈飞也就公开声称
自己在Pluto的背景制作当中
已经引入了AI生成的背景
确确实实是一个很实在的落地场景
对于实际效用的提升来说不好说
因为背景在动画生成当中
本来就是一个比较平行的线
一般来说
画人 画动作
比画背景要更复杂不少
而且背景估计也不占成本的多少
有些时候还会占不少的
是的
但是在很多时候
新海诚就是一个典型的例子
新海诚作为环境狂人
他的背景的制作他就不会便宜
那这种背景也不可能用AI生成了
因为他对背景的要求高
那人家对于背景的要求可能
确实是超过目前AI的可能性的
是是
我觉得
但是绝大部分情况下
背景不占动画制作过程的主要部分
所以说有没有帮助 有
背景确实是一个很具体的一个案例
这个案例我觉得也是将来可能
会看到更多的动画工作室
来做的一个方向
但是它并不是动画制作瓶颈的大头
对 所以我们刚刚
其实聊了两类公司
一类是传统公司对于AI的探索
简单来说
他们现在还是一头雾水
还有一类就是完全按照
一个新的方式去做动漫
你觉得有中间派吗
有一些非常奇特的用法
这个也是超出我的想象力
我们聊过的一个动画工作室
他们实际上是
一个传统的动画工作室
然后他们再看关键帧行不行
不太行
看背景行不行
有可能行
但是背景又不太能够真正意义上
产生那么大幅度的时间
和成本上的缩减
那怎么办呢
说我们给导演做
一个ChatGPT助手怎么样
他们是跟他们公司的
一个导演合作
他就说导演你就把你之前
所画的这些故事板
发表回复