华尔街是如何看待谷歌现在在美股七巨头中的位置
我是泓君
请大家持续关注我们
作者: admin
-
聊聊2025 Google I_O与Gemini背后的灵魂人物(5)
-
聊聊2025 Google I_O与Gemini背后的灵魂人物(4)
它的延迟越低
还有取决于你的并发量
就是你当下有多少个同时在处理的请求
这也会是影响你当前的延迟
但如果说是只是正常的这种云服务提供商
如果是闭源模型的话
Gemini 2.5 Flash它现在还不是特别低的延迟
但是2.0的Flash是非常快的
然后现在的OpenAI的话
因为它要解决这个延迟的问题
它除了4.1 mini
4.1 mini和4.1 nano其实也都很快
但是智能就不是很强
所以它会有一个平衡
就是你单论现在的任务来说
它哪个延迟是合适的
理解
所以看起来也是在一个你追我赶的情况中
你们会根据模型的发布随时去切换底层的模型
还是说其实你们是一个鸡尾酒架构
大家都在会在
会的 因为对于做Agent的公司来说
给我一个体验就是
你其实没有对于任何的一个模型有任何的忠诚度
谁的模型又快又好又便宜
我们就用谁的模型
好 Kimi
我补充两点
第一点就是我完全同意Shaun的
我觉得这取决于你做什么事情
我加一点你需要的是一个怎么来帮你选择最好的模型的
不是人为
而是一个非常可以被量化的一个选择的方式
比如说我们做代理化工作流的时候
我们就会把我们现在所有的模型都跑一遍
看哪一个模型在我们想做的任务上完成的效果最好
我们就选那个模型
第二点就是说正因为有这样的一个百家齐放的状态
这才有初创公司的机会
第一点
这个排行榜的排名我们看一看就可以了
它在这些综合上面的排名好
确实是有他的原因的
但是也有可能是有些水分的
没人知道
我不是说Google的水分
就是之前LLaMA 4在lmsys排行榜上排名非常好
lmsys是个人类投票的排行榜
就是人想要的排行榜
LLaMA 4干这件事情
它提交的一个特别的模型
就是让这个模型干的事情就是人类喜欢的事情
而不是说把它基座模型
或者把它的普通的LLaMA模型上传上去
所以说这个排行榜你看一下就可以了
会有一定水分
但不是说我说Google这个模型2.5 Pro有水分在里面
那正因为这个排行榜更多时候只是一个替代指标
你相当于自己一个评测来做这件事情
正因为你评测之后
你知道不同模型可以擅长干不同的事情
所以说这才有了初创企业
可以把不同的模型整合在一起
做一个非常高度复杂的任务系统
来切入一个垂直但极具深度的市场
对 所以你们也是根据你们的需求
对 我们有我们内部的非常完善的一套评测的机制
就跟我当年在DeepMind的时候一样
我当年是相当于是评测DeepMind这一个模型
我们现在是评测的都可能不是一个模型
是一个系统
这个系统里面有可能有很多个模型
了解
这次其实谷歌发布有一个让我印象非常深刻的点
就是它可以去做实时的语言翻译
比如说Google Meet
它会上线英语
实时翻译成西班牙语
Flash 2.5可以根据你的文本去生成二十多种语言的声音
因为我自己做播客
我其实是这些产品的一个非常深度的使用者
我在考虑的问题是
比如说我的中文播客
它如果能实时生成成英文了
只要我们内容做的好
是不是也可以在英文市场里面大家也可以来听
但是我在用这些模型的时候
我就发现它核心还不是说只是生成声音
因为生成声音很简单
但是你要让那个语音非常的自然流畅
而让用户听不出来AI感
这个还是有门槛的
就比如说ElevenLabs
他们的英文模型做的很好
但是他们的中文模型
生成两个字还行
但是生成一句话
他那个语音就非常外国人的腔调了
所以大家觉得这一类的产品
它考验的核心到底是模型能力还是工程能力
我觉得我们现在用的更多的产品
尤其是这种直接ToC的产品
其实更多时候还是个纯的模型的能力
未来Sam Altman说GPT5不是一个模型
是一个系统
我觉得未来大家会引入更多的系统的概念
但是现在
我们更多时候作为C端的终端用户
相当于是最直接地接触的模型的能力这个事情
那为什么有可能Gemini在这些上面的体验不会像ElevenLabs这么好
那就像我之前说的
你有很多个团队
这个模型要做很多事情
有可能有20个团队
就是说这个团队说我要增强它的编程能力
这个团队说我要增强它的创意性写作能力
然后另一个团队说我要增强它的比如说实时API能力
然后另一个团队说我要在实时里面增加不但是这个能力
中文能力 还有英文能力 还有西班牙语的能力
作为一个大公司
你不可避免的就得去做一个整合
在这个整合的情况下
自然会有一些取舍
导致了有可能比如说它的延迟非常低的同时
就会不可避免在一些表现上有一些落后
作为ElevenLabs
它要干好的就是一件事儿
它不用想任何数据配比的事情
它就要配进去最好的音频的数据
把这件事情做成
你想做的是一个更横向更浅层的任务
还是一个更垂直更深入的问题
本身这就相当于是区分了
是一个初创公司的机会
还是个大公司的机会
所以核心其实是看团队内部重视什么
我觉得是看优先级
我觉得都很重要 没有什么是不重要的
在Google内部 更多是优先级
那有可能对于初创企业而言
我优先级第一的事情有可能是Google的第30个重要的事情
当然这不在Google的路线图上
我把这件事做成了
我也可以获取一个非常大的市场
这不是我说的话
这是Sarah Guo在他的某一些播客里面说的一件事
你觉得考验的核心是工程能力还是模型能力呢
我觉得都有
我觉得没有直接的模型
没有直接的工程
如果是只给人一个模型的话
其实他的体验还是会非常差的
我只能说模型决定下限
工程决定上限
Shaun你是做语音产品的
你正好可以聊一下
语音产品其实很有意思
比如说文字输出
你到最后看的好坏
其实到最后只是每个人的偏好 喜好
但是语音类的这些东西的话
所有人都能听出这个东西到底是好还是坏的
就像你说的
如果你这个模型生成一个中文不好的时候
不用听两句话
听两三个词儿
我其实就知道说你这个生成的效果不好
这个是所有人都会有同样的感觉
我最早接触过比如说OpenAI的
也是叫做实时API
就是它能够实时做语音到语音的端到端处理
然后我看了Google Meet的Demo里边
我觉得几个东西给我印象非常的深刻
第一个是因为它是个实时的翻译
那你要保证它的信息是准确的
就是因为同声传译
而且跟它的语速语调也要保持一致的
而不是说所有听上来就是机器音
第二个的话就是它要保证它的速度是足够快的
可能最糟糕的体验就是这个人说完了一句话之后
你5秒之后你才翻译完
这个体验其实非常差
为了要解决可能两三百毫秒的延迟的问题的话
那它在工程角度来说也要解决很多问题
最后的话就是它很多翻译的东西是跟上下文是有关系的
那你这个上下文在同一个里面
它是怎么做的
它是不是应该把整个内容全都放到这个模型里
然后同时保证速度很快
这个其实我也不是很清楚
但是这几个都是它要解决实时同声传译的非常难点的东西
对 它后来也在AI眼镜上展示了这个功能
然后我当时的想法是
这个得多耗电呢
其实还好
因为从技术的角度来说的话
无非你是怎么到最后去实现这个东西
你传统的做法就是我可以开一个简单的
我无论是WebSocket或者说一个服务器端流式传输
你可以认为就是高阶版的不停地发请求而已
它只是发的频率稍微高一点
但它其实并不会特别耗电
而且他如果说控制那个硬件的设备的时候
你的这个音频的码率也不用特别高
所以它的这个数据量其实也没有你想象中的那么大
OK了解
我记得谷歌它还展示了一个demo就是Project Astra
它会帮一个用户去修自行车
包括中间我记得是有零件有什么问题的时候
还可以让大模型打电话
你会觉得比如说以后越来越多的Agent加入
模型或者像大公司
它可以直接给用户去打电话提供一些服务的话
会对你们的商业模式是有冲击吗
我们自己是主要作为医疗方面的B2B的这个模式更多了
现在并不会直接ToC
你说的是这个场景的话
其实对于很多ToC的公司确实是影响会非常的大
因为模型随着大公司这种模型能力很大
然后大部分大公司的第一要做的就是我能不能面向C端
我的用户能够扩大这个能力
所以针对这个C端的公司确实会有很强的冲击
然后你刚才说的打电话这个场景里边的话
其实这种很多打电话AI Agent可能就调一个工具就能做的这些事情的话
它的本身的门槛是越来越低的
你如果解决的这个垂直领域里边它的工具的量特别的少
或者它对于整个商业
整个流程的这个逻辑特别的少的话
那你确实是有可能会被大公司直接被取代掉的
对 所以有一种说法是谷歌I/O的发布会一开
感觉创业公司又要倒一批
你还记得去年的时候还是OpenAI一开发布会就创业公司倒一批
确实是啊
你看从你刚才说的试衣服
你应该知道像有很多公司
其实去年这一年可能就是根据虚拟试衣服的这些事情
有很多公司在做这个事情
那Google一出来之后
可能这个公司就没有了
Google做了
那Amazon肯定也会做
那你其实最大的几个购物网页上面都做了
那小公司就没什么机会了
所以ToC是一个非常难的事情
对 很有意思
就是关于试衣服的这个场景
其实正好昨天我在谷歌的现场有跟阿里的人聊到
他们其实一直在尝试这个场景
他们对这个功能的评价是
其实让用户试衣服这个点不重要
就是谷歌如果能把尺码搞对就很不错了
可能尺码是一个比你虚拟看一下自己穿着好不好看更痛点的问题
对 所以我觉得他的现在展示是直接发一张照片
我不知道你有没有看过用像苹果手机
或者说会有有光学雷达传感器的
它可以对你身体稍微扫描一下
其实你就拿这个手机离着自己转一圈
它其实可以把你自己的3D模型
大概你的高胖矮瘦之类的
就一次性就输入进去了
它现在只给你一个照片
但我觉得Google要去做这个事情也是非常容易
我们来说综合来看
就是你会怎么看谷歌在大模型这一轮竞争中的优劣势和它的生态位
我觉得Google的优势就是
第一个是它有自己的硬件的生态
它其实就不会依赖Nvidia提供这些硬件给它
那它在这个底层的时候就已经比大部分公司有这个优势了
基本上其实没有什么公司能做这个事情
第二个的话就是它有非常大的服务器的集群
因为它有整个的Google Cloud
它其实有无穷的算力
它因为它有自己的这个数据中心
那你能够做独立数据中心的公司也是非常少的
再往下面的话就是它有它的模型层的
有大量的数据去训练他的模型
我觉得大家离这个AGI越来越近的时候
其实训练的方法差距就已经不大了
那你谁能够获得最高质量的这些数据的公司
其实它的优势就非常大
那Google其实是有非常大的数据
这个是在模型层
最后的话就是在算法层
Google拥有他非常强的算法的团队
所以Google通过这一年的努力变到现在整个的模型的第一
我觉得一点都不奇怪
你刚刚提到的硬件生态 服务器集群模型层 跟算法层
总结来说就是Google它还是一家技术公司
它的技术是非常厉害的
这一点我认同 非常认同
但我觉得同时大家对Google的质疑是
Google它是一个产品基因不够强的公司
我们来看Google的明星产品
就感觉很多产品其实也做的很好了
但是它其实没有维持运转下去
你会怎么去看
如果要把这些技术变成一个非常强的有穿透力的产品
Google在产品上的布局是怎么样的
我觉得Google的产品一直是它的弱项
就是它自己也很难做出特别好的产品
所以我觉得Google这一波要做的其实就是
围绕着Gemini这个非常强的模型在打造自己的生态
你看它从自己的尝试
从Gemini的手机的应用到它的XR的眼镜
其实它不是发布了一个产品
它是一次性发布了可能10到20个产品
因为我觉得站在Google的角度来说
其实它也不确定哪个产品能跑出来
你如果关注过Google NotebookLM
那个其实大家都很知道对吧
其实它也是一个非常小的项目
突然火了之后Google就开始倾注资源
所以我觉得Google现在的趋势就是它不确定哪个产品会赢
但是它先把所有的产品都摆好自己的身位
一旦发现哪个产品真正的可能起飞了之后
它就开始往里面不停地砸资源
这个是我觉得Google现在在做的事情
你现在还会用NotebookLM
因为NotebookLM它最开始是一个你把所有的研究资料输入进去
它会给你特别好的整个输出的总结
按照几种模板来总结
同时你还可以根据这个总结去看它是引用的哪一块
但是它天才的产品经理在上面加了一个一键生成音频的功能
相当于它一下在整个播客圈就火了
就是我们可以把一个几十页的长文本
甚至是一本书
快速的通过一个十分钟的播客的语音的产品来有一个总结
我觉得这个产品在它刚刚发布的时候还是非常火的
但是现在我觉得它的声量小了很多
我不知道你还有没有持续的在用跟在关注
我觉得很多的信息
之后获取的途径大部分都是播客
这也是我先你们在做的主要原因
所以我觉得播客会变成一个非常常见的信息获取的渠道
所以我觉得他的这个非常聪明的一点就是
我把一个只要是任何的信息放到这个里边之后
它就会变成一个我能够接受的一个模式
变成我的个人的这样一个播客
我用过几次之后
我之后听的话会选择
比如说因为现在确实是长播客非常的多
我会稍微挑几个自己听
你会直接听长播客
还是把长播客总结一下
然后让它变成一个短播客来听
其实我也试过把自己的节目放进去
让它总结成一个短播客
我觉得它总结的效果还不错
但只能是英文版
对我自己会听一些比如说两三个小时那种长播客
因为我觉得那些播客的话能让我不会漏河任何的细节
任何只要我想知道的知识点的话
我可以再听一个播客就可以从头到尾都能够覆盖到了
而不会丢失中间的细节
以上就是我们对Google I/O本次发布的技术层面的解析
我们已经经历了OpenAI领先
DeepSeek冲击美股股价
到Gemini全面领先的好几轮AI竞争
我们可以看到
模型层面上的竞争
其实现在已经是在一个你追我赶
各领风骚100天的阶段
如果说谁都可以在大模型的这种竞争中保持暂时性领先
那我们应该如何去综合性地评估当今这些AI巨头的竞争力
下一集我们会聊一聊 -
聊聊2025 Google I_O与Gemini背后的灵魂人物(3)
这只是比例问题
我认为Anthropic在这方面下了更多功夫
主要是也是看团队把哪一块儿放成是重点
你觉得DeepMind之前的重点在哪里呢
好问题 我觉得其实是非常综合的一个能力
之前我们就说我们想要编程 数学 推理 写作
我们会设定一个通用的评估指标体系
用于覆盖多个不同的评估维度
但是我知道我们之前有一些非常不擅长的东西
比如说写代码
其实因为这个不擅长
所以大家花了更多的努力进这个事情本身
所以这一波相当于说可以追上Anthropic的编程的能力
推理能力呢
也是重视程度吗
还是说它其实是你在整个后训练的过程中
你需要有一些特别的技巧
我觉得我还在Google的时候
其实Google还没有开始启动它的推理模型
就是我离开Google的时候
其实是o1刚开始出来的时候
当时的话有可能推理还是没有在它们这个优先级上的
我觉得他们更多是都是尝试赶上OpenAI的写作能力
比如说是解决问题的一些能力
目前的话
我觉得更多时候就是数据配比的问题
他们会配入了更多的对齐
不只是说对齐这个人为偏好
因为OpenAI刚开始出的时候是人偏好这个结果
所以Google干的第一件事
我想追上OpenAI做出来的人偏好的结果
但是很多时人候是非常有限的
如果人偏好这件事情非常难做 什么好做
编程有可能好做
Anthropic做成这个事情
Google说我现在不单只想追上人类偏好这件事情本身
我也想写出非常牛的代码出来
那当有非常牛的代码出来之后
OpenAI又做了推理这个事情
我想做的模型不只是做出人想要的东西
不只是写出牛的代码
而且它应该有个非常缜密的逻辑
让大家知道怎么来解决这个问题
当他把这件事情做成之后
我觉得目前Google开始引领这个潮流了
我现在有最牛的东西之后
我怎么再去引领潮流
让别人成为我的追赶者
数学问题是Grok做的比较好
就是马斯克成立的一家模型公司
因为我看它们创始团队的成员是有非常顶尖的数学家的
它们也一直在解决世界上很难的数学问题
我觉得我的数学能力可能没有办法达到顶尖数学家的水平
这是一个先有鸡还是先有蛋的问题
非常有意思
你需要有人这个能力才能评测这个模型好或者不好
那如果作为一个软件工程师出身
我觉得我可以对于这个模型在代码能力也有非常直观的评价
但是有两方面是这个模型只是能写出
可以进生产的代码
还是说这个模型只是擅长编程
我觉得是两个不一样的事情
我觉得Dario原来有个非常有趣的说法是说
我希望我的编程模型不是说只是解决LeetCode的难题
因为LeetCode的题目其实是没有直接的商业价值的
他希望的是我的编程模型可以写出高质量代码
作为Shaun或者我们的初创企业
可以直接把这代码进入生产
我觉得这是Anthropic非常专注的一个事情
说回这个数学编程的问题本身
我觉得也是分为两方面
是有多少人需要深入解决这种高深的奥数的问题
那我可能这个是可以用来展示的模型的肌肉的一个能力
除了解决这种高深的奥数的问题的时候
怎么样可以把数学问题接入初创企业
或者接入不同的这种公司里面
让他们可以产生直接的一个商业价值
我觉得这是有可能更多的商业公司去思考的一个问题
理解
你觉得你在的时候谁是DeepMind的灵魂人物呢
比如说是Demis还是 我看Brin最近也回来了
他应该准确来说是2023年就回来了
只是最近才开始高调亮相
你觉得谷歌的模型是谁的价值观更多一点
谷歌是谁
我觉得Gemini之前是Jeff Dean和Oriol Vinyals他们俩在共同领导的这个模型
我觉得之前是这两位Google的灵魂人物
因为Jeff Dean有可能真的是一个计算机科学的活化石了
大家经常开玩笑说
Jeff Dean如果你写它的简历上不干什么事
有可能会比他在简历上写干什么事会短很多
所以因为Jeff Dean干的事情太多
所以我们只写Jeff Dean没有干什么事情
这样可以在一页上写完Jeff Dean的整个的人生的成就
Jeff Dean就可能是非常擅长
完全是预训练
因为预训练就是一个对于数据
对于集群大量的调调度
Oriol原来是做AlphaGo AlphaStar AlphaZero和MuZero的灵魂人物
就原来DeepMind的一群人物
他们其实对强化学习有更深的深入
所以基于原来Google最擅长的预训练的部分
加上DeepMind最擅长的强化对齐的事情
所以让Google可以快速地追赶上竞争对手的步伐
同时在对于Character.AI的收购
又重新赢回了Noam Shazeer
我觉得这有可能对我而言是我最尊敬的一个人
因为他对于自然语言处理的深耕是非常久的
从Attention is All You Need
到最后面的Grouped Query Attention
再加上Noam Shazeer的回归
我觉得他们三足鼎立把这个事情不是一个预训练和一个对齐的
而是说把它整合成一个有机的一个迭代流程来做模型
能力不断的提升
我觉得这样子的话
让Google的整体处境改善了很多
我觉得这三个人有可能都是我非常尊敬的
觉得是让Google可以这一波非常快速赶上它的竞争对手的能力
就是Jeff Dean对于整个Google的基建能力
Oriol Vinyals对于对齐的能力
还有Noam Shazeer对于整个自然语言处理非常深入的认知
听下来非常有意思
但你觉得Demis在中间的作用是怎么样的
就是DeepMind跟Google本身训练模型的团队之间的关系是什么呢
我觉得当原来Google Brain和DeepMind还没有合并的时候
我觉得他们是完全走的更多是两种不一样的思路
我觉得DeepMind的强化学习非常强大
这是为什么Google收购它的原因
Google本身是对于它瞬间调度大量的资源来规模化它的训练
预训练或者监督微调的能力
预训练能力我觉得Google还是非常强
我觉得最后其实是一个强强连手的过程
而Google擅长的事情和DeepMind擅长事情做了一个非常强强的整合
再后来我觉得Demis扮演的能力更多是一个领导和管理的能力
有可能原来我作为一个IC(个人贡献者)的时候
我有可能只要写代码就可以把我的每天的工作完成了
但是当你自己运营一家公司的时候
我逐渐意识到
工作不仅仅是把任务完成而已
更主要的是怎么去可以去激励这些最极顶聪明的一群人
有一个共同的方向把一件事情完成
我觉得这是非常难的一件事情
因为极顶聪明的人
每个人都自己有自己极度的想法
大家相当于是非常不愿意去听从他人的
我觉得Demis相当于扮演了一个这样非常好的角色
把相当于两个刚整合起来的公司整合成了一个有机的整体
有一个共同的目标
我们想实现AGI这个目标
然后大家所有人都朝着这个目标
把你最擅长的能力都拿出来
把这件事情做成
有意思
所以Jeff Dean跟Demis他们的关系是怎么样的
Jeff Dean现在应该是首席科学家
Demis应该是CEO
相当于他向Demis汇报
好像Jeff Dean是不向Demis汇报的
至少我走的时候是
我不知道现在内部是什么样
至少我走的时候Demis和Jeff Dean都直接向Sundar汇报
那你觉得Sergey Brin
Google的创始人之一回来
你们会有什么样的变化吗
首先我已经不在里面了
就是应该说他们不是我们
对 你在的时候应该是他刚好着手抓的时间点
我觉得Sergey Brin给Google的应该是更多的是一个Founder Mode
创始人的一个状态
就跟AI Mode一样
他说他带回来了一个Founder Mode
让大家知道应该是以什么样的一个投入
和什么样的一个方式来完成这项工作
如果这个创始人都回来做这件事了
创始人都在那儿一周待60个小时
你作为一个Google的员工
你难道好意思干40小时就回家吗
所以真的是一周60个小时
有些团队是这样子的
我知道我一些朋友原来是在比如说图像生成的团队
他们就是说Sergey Brin回来说这个Meta又出了一个新的模型
我们的模型什么时候可以出来
大家知道
得了吧 周末加班去吧
我觉得更多时候是个Founder Mode
对于大家非常鼓舞士气的一件事情本身
我觉得我说的有点多了
我觉得我们可以让Shaun来阐明一下这件事情
对 Shaun你怎么看Gemini 2.5 Pro
我觉得Kimi已经讲的很好了
这已经把该讲的都给你讲了
不能讲的我觉得也讲的差不多
所以我就从一个外面的角度来说
因为我也在Google干过
其实大家都知道整个Google的人才密度是非常高的
其实大部分人之前都处在一个非常躺平的状态
因为广告太赚钱了
大部分团队都不用特别的拼命去做些事情
但是这一波AI其实起来了之后
尤其是从去年OpenAI抢了Google很多的风头之后
再加上Sergey回来了
整个Founder Mode之后
我知道整个的Gemini团队的士气都非常得高涨
大家其实是拼了一口气
就觉得说AGI如果说要有人做出来的话
那是不是就应该是Google能做得出来
Google有最大的计算机
有最优秀的人才在里边
基本上还有无限的资源
再加上Sergey也冲回来了
所以其实站在从外面的角度来说
看到这一波整个Gemini的崛起
其实也就可能花了一年的时间
大家从去年的I/O被抢了风头
到今年的Gemini2.5就直接霸榜了
所有的都在第一名了
你看连OpenAI可能今年也没有办法去抢这个风头了
那接下来还有一个问题
其实大家现在看到的是Gemini它的模型做的很好
但是我知道在很久之前OpenAI跟Anthropic
它们接入API价格很高的时候
其实Gemini它的整个大模型它已经是把它的token价格降到了
当时对比了一下
可能就是OpenAI价格的1/5到1/10
当然最新的数据它有没有反向去促使其他两家又在降价
我没有去看啊
但整体来说基本上在开发者的社区里面
大家都知道Gemini它的API接入成本跟token成本是很低的
我很好奇它这个价格是怎么样降下来的
我自己看的话可能是主要是三方面
第一个是Google应该是从十年前就开始大量地投入GPU了
当然它是叫TPU
我觉得它们当时就想的很清楚
如果说整个的Google Cloud如果发展起来的话
它没有办法不停地去向Nvidia
或者是像AMD去买这些GPU
所以它自己从十年前就开始慢慢的深耕整个的TPU的生态
它本身的TPU的迭代速度
尤其是这两年明显也变快了
因为它的需求非常大
所以它自己拥有这个TPU
它就避免了很多这种Nvidia的税
你不用单独去等这个Nvidia的这些新的GPU出来
你要跟别人去抢
第二个的话就是Google它本身有很强的Infra
大家其实都知道这Google的Infra非常的强
所以它已经有基本上无限的资源了
所以它其实就是要想清楚怎么去动态地调度这些
它的动态的调度这些机器的能力是远强于像OpenAI像Anthropic
因为OpenAI和Anthropic它自己还是没有自己的数据中心
Grok现在很强
做了一个世界上最大的GPU的集群
但是大部分的这些公司其实是没有能力去调度这么大的一个集群的
它其实依赖的是第三方
比如说像Amazon或者像Microsoft它们的云服务来做这个事情
所以它其实还是用别人的这套Infra来做这个事情
然后第三个的话就是因为它能够去定制自己的硬件
能够去调用更大的集群
它自己在优化自己的模型的时候
也会相当于你的软件和硬件就一体化了
所以它能在你的硬件上面发挥的能力也会更强一点
然后它自己还有整个的这个开发者生态
Kimi有补充的吗
首先我非常同意Shaun说的
Google整个内部的Infra能力其实真正非常强的
很久以前SemiAnalysis出了一个非常有意思的报告
来对不同的GPU云服务打分排名
比如说它们排名最上面是这种CoWeave
因为我知道OpenAI用的其实是CoWeave来做整个GPU的调度的
然后我就是当时给我联合创始人开了一个玩笑
我觉得其实我说再往上还有一个
最牛的应该是有Google内部
就是它的内部的Infra能力真的是非常的强的
我觉得我再多说一点
其实我们虽然觉得已经API非常的便宜了
但是我们没有任何人知道API的成本价到底是多少
唯一我们能看到的一个线索是当年DeepSeek在发它的
那个论文叫啥我都有点不记得了
就DeepSeek那篇文章里面说了
其实DeepSeek大概是有80%的溢价空间的
就它的成本价
只有它现在收费价格的20%左右
你看DeepSeek的模型是那个体量
它用的是GPU
你可以返回来估OpenAI的
有可能它的利润是非常高的
对于Google而言
它不需要通过API赚钱了
它相当于说它的搜索已经足够养活它了
它可以相当于说只是收你一个白菜价
保证它收支平衡
它就可以做这个事儿
但是别反驳我
我不是说它一定就是一个收支平衡的白菜价
就是它的这个成本
就它有足够的资本可以
把它来价格降到有可能就是成本价的一个状态来做这个事情
理解 这个信息量超级大了
大家现在其实也都在做AI Agent相关的创业
你们在自己做创业的时候
因为你们底层肯定要选一个模型来在上面去搭建
你们会怎么样去选模型呢
就站在我的角度来说
没有最好的模型
只有最适合你的模型
很多做Agent到最后
你会拆分的是它的很多是不同的任务类型
无论你是分析文字 分析文件 分析图片
那你当下你觉得哪个模型最适合你当前的这个任务
那个模型是最适合你的
当然我们自己在观测
当然因为我们现在自己做很多打电话相关的东西
那其实对于我们最敏感的就是它的延迟和稳定
因为你基本上有一定的延迟的跳跃
对面一听这个电话可能就有个1到2秒的延时
这个体验就非常糟糕了
所以我们自己在选择模型的时候也会去平衡这个
比如说有一些特别敏感的东西
或者说特别需要实时的东西
我是不是应该自己搭建
就是连外面的这些闭源模型都不用
如果说有一些对于时间不是特别计较的
但是对于成本比较在意的
因为它可能有将近要512K的上下文窗口的时候
这个时候我可能就选一个
比如说Gemini这种Flash或者Pro
我如果它智能要求高的话
那我就会用它
因为它比较便宜
那我如果说是需要一些更强大的模型
或者说使用习惯
OpenAI整体的对你的提示词理解
对于指令理解执行能力
我觉得可能跟我之前的调配的方式还是比较有用
还有我的很多的这些数据设置也都是基于这个的
那我可能还是会有一些OpenAI的东西
然后再加上现在Claude这些模型
它对于agentic(代理化)的能力非常的强
你如果是一些纯的代理化工作流程的时候就会选择这些
所以站在我的角度来说的话
其实并没有最好的一个模型
而是说你当下你的这个场景里面选择哪个模型比较合适
哪个模型延迟低
因为延时这个东西是根据你的模型大小有关系
其实你的模型越小 -
聊聊2025 Google I_O与Gemini背后的灵魂人物(2)
所以对于新的这种模式说
我要去买个东西
那它上面的展示型广告可能还是有的
点击广告可能也还是有的
那它再往里边转化的时候
Google怎么去从里面收这个钱
我觉得这个会很有意思
我相信它在运行这些AI Mode和搜索的时候
它是非常耗钱的
因为它的搜索是免费的
可能大家没有意识到
就是你每次搜索的时候
谷歌都是要付钱的
因为它有机器的支出
但你现在AI Mode要跑起来
给所有人都开放起来的话
那也就是说它的成本会非常的高
因为它的计算逻辑就不是你搜索一个问题就结束了
它是要过GPU的
它要过上下文理解的
这个成本我觉得对于顾客来说非常的高
那它会不会羊毛出在羊身上
到最后以一定的方式把这个钱从你身上出
我不知道
第二个就是你在搜索这些问题的时候
它的模式也就改变了
传统来说基本上都是文字描述加些图片搜索差不多了
但它这个的话其实还会带一些更个人化的图片搜索
你的偏好搜索也会在这里边
我觉得搜索质量也会往上提升
再往下面第三个的话
就是你的所谓的结果丰富度
以前的这些结果是给你显示一个完整的网页
那么多的链接
你慢慢一个点
或者说有可能我给上面一个面板
但现在你的整个的结果丰富度
我就告诉你一个结果
你就在我这里同一个页面里面
你不会离开到其他页面了
对于你这个SEO(搜索引擎优化)怎么做
这也是会产生非常大的影响
因为SEO也是非常大一个业务
比如说卖衣服的
我怎么能保证我在Google的这个搜索结果里边
这是个非常大的问题
最后的话就是你刚才说的
我一旦感兴趣一个东西的话
我怎么去持续跟踪
我怎么保证它的价格是不是稳定的
到我一个理想价值能够做的价格
我觉得这一点
Google其实当时一直做购物做的不是很成功
一直落后于Amazon
我相信这个是它的一个更新的方案
我如何把购物的闭环就直接在Google搜索里面做完
Kimi怎么想
我了解了
我觉得Google来实现它一个最大的野心是想做成一个AI助手
对于这个AI助手而言
购物其实是一个非常有挑战性的一件事情本身
我觉得很久以前Anthropic有一个非常意思的采访
就是说如果这个事情对于人而言就非常有挑战的话
那对于模型而言其实也是会非常有挑战的这件事情
把这个模型当作一个人来看待
对我而言有什么非常高价值
但又非常有挑战性的事情本身
比如说我想订一趟旅行
我不仅要订酒店 还得订机票
对于购物来说
我要浏览很多网站来对比价格
但有可能就是说我去不同的网站比价的时候
可能我不是说我登录我自己的密码
有可能更多的时候是我能用哪些网站
我可以去Amazon
也可以去H&M
或者其他网站
怎么能通过不同的渠道搜集信息
对比价格之后给你一个结果
它对于这种长逻辑链
就是需要一个多步骤的一个过程
我觉得已经可以完成的非常好了
我觉得在不久的将来
Google其实可以在除了购物以外
非常长逻辑链条的一些任务上
也可以做到同样的效果
所以我觉得我们有可能只看到了冰山一角
它只是完成了一个长逻辑链的事情
比如购物就是长逻辑链
有可能会有更多长逻辑的这种事情
非常快的将来AI Mode都可以帮你做的
我整体上理解
其实谷歌做这件事情就是买衣服到下单到完成
它其实是一个Agent对吧
是的
刚刚大家其实都有说到一些核心的点
就比如说以前一个搜索耗的服务器成本
它可能相比于现在整个你要完成这样一个购物的闭环
它消耗的token跟服务器成本是小很多的
现在这个成本就突然一下高了很多
然后我们知道谷歌的商业模式其实是依赖于
你搜索一个东西它有竞价排名
然后商家要去做SEO
它是通过这个赚钱的
那它改成这样一个模式以后
它的商业模式会怎么样改变呢
它靠什么赚钱
我觉得商业模式的话
Google已经给了一个方案了
你如果看到它的Google I/O的时候
你会发现各种订阅服务
有便宜的版本
有ultra服务
它有各个级别
都会从你所使用AI的方式
比如更多的智能 更定制化
那我都需要你去订阅和付费
就像我说的羊毛出在羊身上
另外一个的方法的话就是
我相信它的广告也会跟着新一代的这些AI进行改变
如果你用过OpenAI搜索的时候
或者说你如果做过一些开源项目的时候
就会发现其实OpenAI本身它是会给你导很多流量进去的
就有专门从大语言模型导出去的流量
所以我相信Google内部也在思考
因为我现在更定制化到你个人回复了
那我从这个中间推出去的这些流量的话
我是不是也要收更多的服务费用
是对商家收费吗
对 对商家收费
依然可以收费
对 用户是订阅服务
对商家也是一样会收费的
你不做广告
但是你如果在我的AI里边你要排名的话
那我还是会要求你有一定的收费
但我觉得AI很难
因为以前搜索可以提供给大家10页 100页 1000页的结果
你只要保证在第一页或者你在第一页的前三个都可以
AI它其实是要推给用户一个固定的结果
它的优势就是不让用户选择
对 如果说你知道一些传统广告的话
就比如说保险类的广告
旅游类的广告
它的每一个点击或者转化的收费是非常高的
有可能每一单都是大概几十美元的这种价格
我相信如果是到最后只会推1到2个的话
那它会收商家可能收的费用也会更高
因为你完成这个购买服务的可能性就非常高了
理解
而且以后它的排名可能直接是在大模型里
对 是的
Kimi认同吗
我完全认同
我觉得这个成本永远就是开源节流
那相当于说开源节流两个不同的方式
先从开源的方式来说
Google有怎么更加增加它的收入的方式
有可能我们不太像传统意义
只是相当于一种竞价
给你做一个排名
一个列表的方式来给你展示广告不同的价格
因为它现在是个多模态
而且它知道你所有的记录的上下文
它可以给你做的定向广告的质量可以比原来变得更好
它有可能原来不用给你推十个
它还是会给你推
比如说三个
因为作为人的乐趣是你相当于是做一个选择
现在AI产品给人的情绪价值
在于让你做一个HILT(人工干预机制)的过程
如果真的把人完全抹去了
其实你也不希望完全自动运行去做一件事情
有可能它原来是给你100个的广告
现在就给你三个
然后在语言模型里面说这有三个选项
你来做选择
它可以每个单价做的更高
我觉得这是相当于说一部分从广告商品的角度来说这个问题
其实Google现在本身搜索而言
也是运行了一个巨大的一个搜索集群
但是其实有可能是个CPU的搜索集群
那有可能在Google刚开始的时候
这也是特别大的一个成本
但是传统意义上的搜索
比如说CPU的成本在过去的20年里面有可能已经降了1000倍 1万倍 1亿倍
我也不清楚具体的数字
就算ChatGPT产生了两年
到现在整个的GPU的推理成本已经降掉了95%了
那我觉得在不远的将来
一定会再按一个指数级别往下降下去
我觉得未来的话
如果你可以提供每一个广告的成本
不但只是广告商来付钱
这个用户也要付自己的订阅费
同时你也可以把GPU的成本或者TPU的成本
尽量再继续往下降下去
我觉得有可能Google如果做的好的话
可以发展出一套更好的商业模式
我们可以接着看看
所以你们觉得如果假设OpenAI或者Anthropic它们也来做这件事情
因为最终我觉得这件事情对搜索的冲击还是很大的
搜索的入口也是大家都想抢占的一个点
你觉得谷歌的优势是什么呢
我觉得谷歌的最大优势还是它是有海量的数据
它其实无论你是在索引的这些网页到它的YouTube视频
它的触达能力一定是它的有足够的内容资源
而且它大部分人都会有什么邮箱
其他的信息在Google里
所以它对你个人定制化它是非常的强大的
尤其是我自己在用OpenAI的时候
它现在的主要的提供的粘性是因为它有很多工作上面的信息
其实Google有你个人信息的 这是其他的生态不具有的
这个很好
我想到我现在用Chrome的浏览器很多
很多我的数据也存在这个浏览器上
在这个浏览器上完成一个入口
可能在一些购买行为上也是会更便捷的
我觉得几点
一方面是搜索这个产品本身
就Google 2026年这家公司它的使命是整合全球信息
它基本对于这个世界的信息
有可能世界上最好的一个知识图谱
我们每一个人浏览Google的时候留下来
我们自己在浏览它
比如说5到10年使用Google的浏览的介入
那它相当于说它把它的世界信息和我们的个人信息整合在一起的话
它有了世界上最好的模型
它也有世界上最好搜索引擎
我觉得它的起点其实就已经非常高了
它一定是有这个能力来做出一个最棒的产品
只是说看它这个产品怎么样一个形式来部署给用户而已
我觉得还可以补充一点
就是Google还有很大的分发
它还有它的分发
它有它的安卓
它有它的Chrome
它拥有的这个分发系统估计也就只有苹果跟它抗衡
所以它占的分发是比所有人都强大的
我最近也是跟很多人聊
大家觉得这一轮其实还是巨头的机会
就是在大模型竞争的这一轮
创业公司可能还真是小而美的机会
我们刚刚聊了很久的搜索
接下来我觉得我们可以来聊一下Gemini 2.5模型的更新
在谷歌这次的公布中就是Gemini 2.5 Pro
它现在在整个数据评分中是所有大模型中最好的
Kimi可不可以跟大家分析一下它是如何做到的
OK 我已经离开DeepMind快一年的时间了
我已经不知道我的同事们在这一年里面又做了什么新的创新
但是就是几点
我觉得大语言模型训练的基础有三个步骤
Pre-training就是预训练
SFT (Supervised Fine-tuning,监督微调)
和到最后的alignment(对齐)
RLHF(基于人类反馈的强化学习)
大概已经是去年的NeurIPS的时候
我们都说网络数据已经被我们抓取完了
就像化石燃料都被耗尽了
我觉得大家其实在这一年的时候
花了更多的精力在对齐上面
就是在强化学习
尤其在人类反馈和AI反馈上
就比如说数学和代码任务上
因为这些的任务是有一个指定的目标
你是可以完全知道这件事是做成还是没有做成的
Google基于它在前面的Gemini 1到1.5到2的一些积淀
对于尤其是这种基座模型的训练
再加上它开始更多的强调这种强化学习
不只是说人类反馈的强化学习
而是启动一个路径让AI自己来批判AI
把这件事情做成
比如说像当年做AlphaGo的时候
为什么AlphaGo可以做成
关键其实就在于它能下出像“第37手”
那样超越人类常规理解的决策
就是说超过了我们所有人的认知
这一步棋能这样下
我觉得未来的AI尤其当你强化学习的时候
你让模型自己去判断“什么是对的”的时候
在这个2.5的时候
我觉得它们应该是引入了更多这种强化学习的概念
和强化学习的使用
导致Gemini 2.5可以让我们到今天在所有的可以非常确定性任务
比如说编程和数学中出现了这种惊艳的结果
我记得之前就是去年有一个大模型训练比较集中的趋势
就是最开始大家都是预训练
后来在预训练中加入后训练
比如说OpenAI o1系列
它们都加入了推理模型
包括像DeepSeek的R1都是推理模型做的比较好
Anthropic它其实是有很长一段时间它没有去出自己的推理模型的
但是比如说Sonet 3.5跟3.7
它在代码能力上会有一个质的提升
这也是带动了一批像编程类的Agent
比如说像Cursor Windsurf它们迅速崛起
我好奇的是为什么Anthropic它生成的代码质量
能比其他家生成的代码质量更好
我看这一次Google其实也在强调自己生成的代码质量是比较好的
代码质量能力的提升主要靠的是什么
我可以快速给出我的几个观点
Shaun可以随时打断我
我觉得模型训练永远就是那么几个步骤
预训练
后面的监督微调和对齐
尤其是基于人类反馈的强化学习
我们先从预训练而言
就是预训练的时候你永远都是有个数据配比的
就是你要配多少的代码进去
你要配多少自然语言进去
你要配多少中文进去
配多少的英文进去
现在就是一团乱
没有人知道什么是最优的配比
我觉得有可能对于Anthropic这家公司而言
代码是它们的最高优先级
它们在预训练的时候
就配入了更多的高质量的代码信息进去
这个模型相当于是它的基座能力首先就变得很强
但是基座能力强之后
它的别的能力肯定会有一定相对应的下降
我到后面也可以和大家分享一下有趣的小故事
在它做了基座模型之后
它要做很多的对齐
那对齐的时候更多在大公司里面
大家做的也就是一个我们开玩笑叫YOLO run
就比如说今天Shaun在Google的一个团队
我在Google另一个团队
比如说您在Google的另一个团队
大家每个人都会有自己这个礼拜很多的创新
我们会把大家所有人做的东西都聚在一起
然后我发起一个YOLO run
然后两周之后
我们把大家的东西都整合在一起
看看我们做出了什么
那这个相当于是做在对齐的时候
每个团队其实有不同的优先级
有可能这个团队非常注重代码
那个团队非常看重写作能力
就像是一个种族问题
我觉得对于Anthropic而言
也许对它们来说
编程是最高优先级的
就大家觉得也许编程才是解决推理模型的钥匙
它们在做预训练和到最后的后训练的过程中
尤其是基于人类反馈的强化学习中都加入了更多的编程的训练进去
编程本身也是非常容易被量化的一件事情
一件事情做成了没做成
导致了Anthropic它在编程能力表现得非常好
但是就因为它的编程能力强
其实它会在别的能力方面也有可能有些缺陷
我可以说一个我最近学到的非常有趣的故事
作为初创公司的创始人
我现在不单单每天会去写代码
会做很多的市场营销
很多的销售工作
我要写类似很多这种的文案
我一般就会把比如说Gemini, ChatGPT, Anthropic, Perplexity都打开
我让所有人把同一个提示词都输进去
然后让它做一个这个事情本身
也有可能OpenAI的创意性写作做的非常好
让他写出来东西让我觉得非常有调性
我觉得我非常愿意去发这样一个市场营销文案出去
那我让Claude写出来的时候
就有可能有一种跟一个无聊的码农在聊怎么做市场
这个事情本身就会非常的枯燥
我觉得这是策略
大语言模型的训练就是
输入垃圾 输出垃圾
如果你输入大量高质量的代码
输出的代码质量也会高 -
聊聊2025 Google I_O与Gemini背后的灵魂人物(1)
Hello 大家好
欢迎收听硅谷101
我是泓君
大家早上好
欢迎来到Google I/O
每年5月份
谷歌都会在山景城总部举办Google I/O
这是一个面向开发者的活动
每年谷歌都会在这个活动上集中发布一批的新产品
疫情之后
基本上每年我都会去Google I/O
我们来回顾一下前两年的情况
2023年谷歌正式向ChatGPT发起挑战
当时谷歌它也是发布了一款聊天机器人叫做Bard
它问詹姆斯韦伯太空望远镜的新发现
结果AI在回答中出现错误
导致谷歌的市值一夜蒸发超过千亿美元
2024年就在谷歌开会的前一天
OpenAI上线的4o模型效果震惊世界
甚至很多外媒犀利点评说
这是OpenAI故意在狙击谷歌
度过了失意的两年
回到今年
谷歌可以说破釜沉舟
打了一场漂亮的翻身之战
在这次开会的时候
模型端 Gemini 2.5模型全面霸榜
这一集我们就来深度揭秘一下
谷歌大模型Gemini背后的灵魂人物
以及谷歌推出的AI Mode到底能否应对大模型对搜索的冲击
华尔街又会如何看待谷歌在美股七巨头中的位置
最后这期节目不可避免的出现了一些中英混杂
因为嘉宾都是长期在英文的语境中工作
如果大家有听不懂的部分
我们会在B站和YouTube的视频平台上配上字幕
来尽可能的帮助大家理解
下面就请收听今天的节目
今天跟我在一起的嘉宾是CambioML的联合创始人Kimi Kong
Hello Kimi你好
Hello 你好
你之前也是在DeepMind
要不要跟听众简单介绍一下你自己
OK首先非常感谢今天的邀请
让我可以来到硅谷101播客
我也是硅谷101的忠实的听众
我现在是CambioML的联合创始人兼CTO
CambioML是一家YC S23的创业公司
主要的产品是AI Agent Energent.ai
我们的AI Agent可以帮你思考和行动
在创立CambioML之前
我是在Google DeepMind待了将近两年的时间
主要负责几个不同的模块
一方面是通过强化学习
帮Google来增加它的广告收入
我主要立了两个项目
一个是整个大语言模型的评测
我们帮Google做了刚开始的第一个用AI Agent
来帮Google优化广告投放和搜索结果的一个项目
在我完成这两个项目之后
我就离开了Google来做这家公司
去到Google之前
我在Amazon Web Services待了四年
主要主导了几个不同的Amazon的Microservice(微服务架构)
在去到Amazon之前
我是Stanford双硕士
我有机械和计算机两个学位
好
跟我们在一起的嘉宾还有一位是Shaun Wei
他是HeyRevia的创始人
之前在谷歌语音助手
Hello Shaun
Hello大家好
我是Shaun Wei
我们主要是一家AI contact center(人工智能呼叫中心)的公司
主要深耕在美国的医疗行业的call center(呼叫中心)
主要是针对比如说我的患者和医生之间的这些沟通
可以完全的用语音自动化
今年你有没有看Google I/O的直播
在这样的一场发布中
让你印象最深刻的一点是什么
我觉得Google l/O对我印象最深刻的是
Google对于整个模型和它整个产品的横向广度和纵向深度的整合
对于广度而言
它包含了现在多模态模型所需要的所有的不同的modality(模态)
从它的Gemini2.5 Pro多模态的模型
到它的Imagen图片生成模型
到它的Veo的视频生成模型
这个相当于说它给你提供了一个模型全家桶
可以让你完成各种不同的任务
对于纵向而言
它不是只是一个云端的一个搜索服务
它同时也可以相当于在可穿戴的安卓的XR上面
给我们展示了未来Google在不同纵向的深度里面的它的野心
所以对我而言
这是让我觉得Google对于它未来的一个全面布局的一个状态
是 Shaun呢
对我印象最深刻的是它的Text-to-video(文生视频)这个事情
因为大家在这个方向上面尝试了很多
无论你之前的OpenAI的Sora
还是之前文生图 文生音频
各种各样的尝试
其实大家都想达到的目标就是
我能不能用一个把我大脑里面想象的东西
变成一个电影的画面出来
我觉得终于是在Google这个发布会上面
我看到了真正意义上的可以从一个想法变成视频的发布
然后另一个的话
因为我之前做了很久的Google Assistant(助理)
大家一直都很想有一个真正意义上的AI陪伴着你
你有任何的问题
无论你是视频的 文字的 多模态的各种方式
这个AI都能够帮助你
以前没有实现
Google Assistant的时候没有实现
但是现在Gemini终于实现了它十年前的这个愿景
这个是让我印象非常深刻
对 你正好提到了Text-to-video
你是指的它的Veo 3的模型的发布
对不对
是的 它的Veo 3
对我看它这次发布
它不仅仅有视频的画面
它还有声音
从整个多模态的角度来讲
加入声音它会是一个门槛比较高的事情吗
你觉得它的发布跟当时Sora那几次文生视频的模型的发布
有什么区别呢
我能感觉到它是从文字变成了电影
它真正意义上变成了电影
Sora当时它们发布的其实也只是一个视频的画面
你看它当时Sora变成一个视频的时候
还有跟比如说ElevenLabs或者一些合作
去在后期加入这些声音
但是它在这个多模态理解的时候
比如说看到它很多视频里面
它的语音 背景 音效还有嘴型都能对得上
我觉得这个难度其实就非常难了
它对于你的整个模型
对于上下文的理解
对于可能整个物理世界的模式
大家还记得当时是威尔斯密斯吃面条
这才其实两年的时间
就已经从威尔史密斯吃面条
变成一个可以做出动作电影的状态了
对 所以其实加入音效还是挺关键的一个点
没错 是的
对 我自己也对今年的谷歌I/O印象很深
因为我觉得今年它们有一个特别大的优势
它们今年特别骄傲的就是Gemini 2.5的这个模型
2.5 Pro在它们发布的这个时间点你追我赶中
这一轮终于是Google最领先了
去年这个点的时候
其实是Google在发布以前被OpenAI给狙击了
它们把应该是4o的模型给推出来了
所以当时可以说去年发布会就被OpenAI抢了风头
今年模型最强
应用推广又很开
多模态也有新的进展
包括今年我觉得还有一个特别大的让我印象深刻的
就是Google把整个的搜索
就是它们整个商业模式的基石
搜索的入口给改了
改成了AI Mode
大家有关注Google新推出的AI Mode吗
简单理解我觉得它可能是把搜索的入口跟大模型相结合
相当于在传统的搜索框里面
你进去以后
它左边的有一个标签栏
它是加入了一个AI Mode的标签
然后你在问它一个问题的时候
大模型可以给你很精准的回答
甚至你还可以追问
它们后面还有一个demo可能也是跟Agent相关的
你想买一个衣服
它可以给你完成闭环到一键下单
当然这个demo我们可以之后详细地讨论
首先我们来聊一聊整个Google搜索上的一个变化
大家会如何看谷歌在搜索框加入AI Mode
你们觉得它会怎么样去影响谷歌的生态跟商业模式
我先说一下这个AI Mode
我之前特别巧合的是
它在发布会之前
其实我就尝试了一下AI Mode
我当时还拿这个AI Mode和Perplexity
还有OpenAI的搜索都稍微对比了一下
我觉得从效果来讲的话
AI Mode和之前那种搜索
就已经很大幅度的提升了上下文理解的能力
基本上能对于你的上下文的理解和搜索相关的信息
它已经可以搜索非常强大了
但是我觉得站在Google的这个搜索效果的角度来说
其实那一次我的测试的里边是OpenAI的测试
其实是比Google AI Mode当时的效果是要好的
我不知道这一次发布的时候是有没有更好一点
当然你刚刚说到的是Google的这个AI Mode
其实它是在革自己的命
我觉得这个是真的
因为Google 搜索的话
它的广告收入是一个最稳定的收入
从AI Mode的角度来说
就把传统的广告模式
它的营收模式完全就改变了
当然Pichai也说了
它是这十年里边对于搜索最大规模的一个变化
我相信他从UI的前端
就是用户进入搜索的界面上面
到最后提供结果的这个方案
他都应该是在Google内部里面做了非常大的提升
你提到你之前灰度测试了一下它的AI Mode
你可以讲一下你当时测试了什么样的场景
为什么你会觉得OpenAI的搜索功能会比谷歌更好吗
我当时想搜索一架正在天空中飞的飞机
它当时的具体的落地信息
因为它晚点了
那它就不是一个传统的
就是我会查一个正常的飞行时间表
因为我不太确定那个航班的航班号
我只知道它大概的方向
从A点到B点
我只是搜了这么一个信息
我让OpenAI, Google AI Mode和Perplexity同时搜索的信息
它的提示词当时就是我大概知道有架飞机从A点飞到B点
然后它大概是几点钟出发的
你能告诉我一下这个航班的详尽的信息
它大概在哪
在空中的哪个地方
有没有准点出发
它会不会晚点这样的一个信息
到最后其实AI Mode和Perplexity都输给了OpenAI
我非常好奇
我追问一下
是因为搜不出来这个结果
还是搜的结果不准
它都没有搜索出来这个结果
有意思 了解了
其实它就是要告诉我
当下在天空中飞的航班号能不能给我
结果只有OpenAI给了我正确的结果
有意思 Kimi怎么看AI搜索
我觉得首先搜索有可能真的是全世界最赚钱的生意
而且是所有人都垂涎欲滴的生意
我觉得很久以前
Satya Nadella说他最后悔的是当年Microsoft没有办法搜索这件事情做成
因为搜索太赚钱了
说回谁有能力做成这个事情本身
我觉得有可能Google是所有这些科技公司里面
最可以把AI搜索做得最好的
但是就像Shaun刚刚说的
它有多愿意去革自己的命
我觉得对于一个创新困境
我只能说Google半革了自己的命
因为现在Google的AI还是有两个产品
我永远不相信Google(没有)创新的能力
我也不担心Google没有人才
我觉得Google有可能真的是所有公司里面
人才密度最大的一家公司
为什么说半革命的这个状态
根本上还是有两个产品
一个叫AI Mode in Google.com
还有一个是它的Gemini.Google.com
但是根本上来说
Gemini和DeepMind
AI Lab和搜索
在Google内是两个完全不同的业务单位
但是怎么能把这个公司的流量入口给你整合到
让用户(觉得是)更加原生的AI搜索
而不是说一家公司推出的两个产品
我觉得这不是一个能力的问题
这是Google的意愿的问题
是它有多愿意深度革自己的命
那革了之后
怎么用AI搜索来产生新的营业收入
就原来有可能定向广告只是给你在搜索上
显示最前三个的推荐位的这种模式
怎么可以更加有效地嵌入这种AI模型的结果里面
我觉得这是Google得去思考的一个问题
但我觉得Google从根本上是有能力做这个事儿
更多是个意愿的问题
我们说到第二点
它为什么有能力做这个事儿
如果一个大模型想把一个任务做好
模型是一方面它的能力
然后除了模型以外
用户的指令是另一方面能力
我完全不担心谷歌模型对于用户的指令理解的能力
除了这个以外
更重要的一个东西是工具的调用
毫无疑问
Google它每年有超过90%的搜索入口的流量
导致它的搜索一定是在定向搜索里面做的是最好的一个
基于这个模型和它有世界上最好的工具 搜索引擎这件事情本身
我觉得我完全不担心Google可以把AI搜索做到一个天花板的能力
但有可能像Shaun说的
因为这个AI搜索还很新
Google内部也在进行大量自用测试
它们自己其实也有好几个版本的搜索系统
甚至都还在评估到底哪个搜索方式最适配AI模型
我觉得这是一个Google整合的能力
那就是说看Google一方面它有多少意愿来整合
第二 它整合的时候不要像之前那样出现翻车的情况就可以
你提到的这个工具的调用是指哪些工具
你应该浏览哪些网站
然后你应该搜索怎么样特定的网站
根本上来说 原来的搜索直接把结果给你了
现在相当于说大语言模型得通过Google 搜索这个工具
把东西整合成了一个更好的你想要的结果给你
那我觉得我短期可以非常理解
为什么OpenAI可以把这件事情做的好更好
有可能OpenAI相当于做AI 搜索会比Google领先了一段时间
包括产品层面
之前GPT的模型对于工具的调用有可能在2.5之前
也有可能领先于谷歌
现在Google拥有最好的模型
也拥有最强的搜索引擎工具
我觉得是一个Google可以开始打它的翻盘局了
对于它而言应该是个顺风局了
只是看Google愿不愿意把它的产品做一个更深度的整合
我希望看到是一个统一的产品
就是ChatGPT不止是聊天
还是一个整合的入口
是它们的入口的流量
Google现在流量是分散
对于一个用户而言
其实还是让人非常困惑的一个事情本身
我觉得这是Google在产品层面必须做出的一个战略决策
我觉得接下来我们可以把Google的AI Mode
跟它搜索的具体的展开放在一个场景里面
就比如说我现在脑子里面第一个出现的场景
就是当时Google在I/O上的一段演示
比如说一个女性要买一件衣服
她对这个衣服有一个大概的描述
描述完之后
谷歌就开始搜索
搜到了一堆这样的衣服的网站
接下来它可以去比价
看哪个网站在打折
然后给你一个最低价格
中间还有一个环节
她会把自己的照片也传上去
说我虚拟试一下这个衣服
看一下这个衣服是一个什么样的效果
我当时印象很深刻的是她是一个微胖的女生
而模特是一个非常瘦的模特
最后现场出来的效果
那个衣服穿在她身上依然是一个微胖的女生穿起来的效果
所以当时现场是有一阵欢呼的
之后她决定ok这个衣服我看到了
我穿的效果还不错 下单
Google是一键闭环
直接把这个单子给下了
我看它的支付系统用的是一个Google Pay的页面
也是一个Google钱包
整体上来说看起来以前我要搜索一件衣服
要去各个网站上比价
最终每一个网站注册
输入用户名 密码
然后再选尺码 再下单
是一个非常漫长的流程
而现在我通过Google搜索的AI Mode
我一键就可以下单了
你们觉得这样一个场景对谷歌来说可行吗
我知道很多人
就比如说做Agent的人
大家考虑的第一个问题是
我是不是要把我所有这些电商网站的密码都输入给谷歌
它都得有
我才能完成这样一个下单
我当时觉得那个也是很惊喜的一个场景
我相信大家都会去搜索很多衣服或者购物
其实对于男生的话
衣服可能倒还好
但有可能会比如说买一些硬件
GPU或者说买个显卡
就是买一些其他东西
也是会去跟踪一个东西的价格
我觉得它这一次的改变
有几个东西可能会让我印象很深刻
第一个是因为你传统的广告
比如说有可能你看到有一个展示型广告
你看到一次 我收一次的费
也有可能一种是点击广告
就是你进去了之后才会收你的费 -
E197_一位动漫制作人的日本之旅_七大模型多模态之争(5)
技术理解的要求会越来越高
如果说我们都认为
技术和创意的相互奔赴
在接下还会加速的话
可能双方互相的直觉和品味上
需求都会提高
那你现在的工作中会具体用到
涉及到技术判断的时候吗
15%左右
百分之十五到二十
15%是一些什么样的场景
主要还是用在我刚才讲到的
实验性的场景上
比方说我们做出来一个东西
从技术角度上来说
这个事情花了我多少时间
它难不难做
它是否可以复刻
它如果大规模复刻的话
它需要多少钱
这些都是很技术上的东西
甚至还有更纯代码和技术上的东西
比如
那比如说
我现在如果去做一套
我们自己的管线
我们训练自己的模型
你会做自己的模型吗
我们其实做过
但是我们做出来坦率的时候
效果真的不好
而且由于是万马奔腾的状态
那就让马在前面跑
所以你们其实还想过
做一个生成二次元的模型
对 纯粹作为尝试
对于比如说视频生成
关键帧生成或者声音的生成
对于这些行业非常感兴趣的
技术上的创业者来说
可能现在的时代会对他们
提出更高的美学上的需求
比如说我生出来的音乐
到底好不好听
有什么标准去评判它好不好听
这个我觉得可能反而会成为
技术指标之外训练模型
以及指导模型进行迭代方面
一个很重要的标准
对
你的品味可能决定了模型的品味
我最近看到一些文章挺有意思的
其实比如说像Deepseek出来以后
我是非常喜欢Deepseek
它回答问题的那种方式的
然后我是偶然在一篇采访中
发现梁文峰他对你的文字的
美感是有追求的
包括最近我也是问DeepMind的人
我说为什么anthropic
他们做出来的代码质量就很好
那可能也是创始人关注
包括我们看ChatGPT
整个文本的风格
跟Sam Altman它那一套
非常看重表达 看重营销
看重把一个事情包装的
特别美好的那个风格
我觉得还是跟创始人的品味
关系很大
特别相关
而且甚至可以说在大模型也好
视频生成模型上
这种品味就能转换成非常直接的
商业价值和产品优势
我用文字生成出来20秒的小视频
一个特效或者是中间帧
这个中间帧它能不能用
它中间出现的这些5%的错误
错在哪了
这个错的地方我能不能接受
如果一个技术的团队
理解这些事情的话
并且针对这些事情进行优化的话
那么他们在产品上应该
就可以跟其他的产品
形成非常非常有利的竞争优势
是
可能是一个混合型人才的时代是吧
对的 我觉得每个行业
都在追求混合型人才
是是是 很有意思
对对
我自己很喜欢艺术史
然后我自己也是一个工程师
我现在很直观的一个感觉就是
从两三年前大模型这一波开始
我的左脑就在每天跟右脑打架
说实话就是
左脑跟右脑每天起来都在打架
然后工程师的这一边说
你看AI的东西多么的酷炫对吧
艺术史的这边就是说
但是你得注意这些东西
产生的社会的影响
而我更愿意相信
人类对于创意的追求是无限的
对于表达创意
还有对于他人的作品的
这种原始性的追求
是刻在人类DNA里面的东西
它并不会随着技术产生改变
而技术的迭代
技术是不停的在变的
美术的商业环境也是不停的在变的
但是艺术和美术自己是永恒的
所以我也是希望
正在走向的一个未来
并不是说因为有了AI
所以我们走向了一个
更贫瘠的更无趣的一个世界
不是
而是说因为我们有了一个AI
我们走向了一个更百家争鸣
百花齐放的一个世界
如果是这样的话
那我觉得AI 人类
包括人类对自己的理解
人类对自己的艺术的理解
可能都会以这个为契机
走向一个全新的高度
对 因为我在做一档技术播客
播客是一个创业行业
技术也是一个相对枯燥的事情
是
所以我每天其实也是在一个
左脑右脑打架的这样的一个状态
但是整体来说
我对AI跟人类的未来的悲观很多
很难说很难说
但是好处是在于
无论怎么说
我们这一代人就是在创造这个未来
是的
对吧
所以我们这一代人的选择
确实有可能影响在接下来
很长一段时间之内
人类技术和艺术之间的相互关系
对 还有很多的社会问题
还有很多很多的社会问题
这个没有任何好的答案
但是至少可以知道的一点
就是答案是要由我们来写的
这个心态特别好
对吧
对
这个心态特别好
创业者的心态
知道了这一点之后
我觉得每天左脑右脑
打完架之后就又能睡觉了
明天起来又可以打架了对吧
OK
所以也是希望通过
今天的分享一些事情的思考
作为一个抛砖引玉
作为长长的技术
和艺术之间的博弈当中
提供一些个人的一些小的想法
好的 好
谢谢天宇
好 非常感谢
非常精彩
拜拜
好了
这就是我们今天的节目
欢迎在小宇宙 苹果播客
Spotify还有喜马拉雅
蜻蜓fm 荔枝fm
网易云音乐
QQ音乐上订阅收听我们
如果你是习惯
通过视频平台来收听播客
也可以在YouTube和B站上
搜索硅谷101播客来关注到我们
另外我们音频的部分文字稿
会发表在我们的公众号硅谷101上
如果大家感兴趣
欢迎大家持续的关注我们
我是泓君
感谢大家的收听 -
E197_一位动漫制作人的日本之旅_七大模型多模态之争(4)
一方面是我们刚才说的
稳定性的问题
另外一方面来说
可能它就不再具有有意义的产品
和市场需求之间的匹配了
为什么
因为如果要生成更长的话
没有一个人会愿意
看一个人举咖啡喝一分钟我觉得
生成更长可能就需要故事线了
所以他们现在还只是生成
一些场景的特定镜头
然后它这个特定镜头其实是
没有太多的动感的
对
就是如果真的要达到一分钟的话
其实我们平时现在
你看任何的影视作品也好
你是很难看一个人
做单个事情一分钟
而且尤其是是在没有上下文情况下
这个还是挺难的
我上次在谷歌的发布会上
就是我用了一下他们的Veo3
就是我测试了一下
我当时的prompt词是生成了
一个还蛮复杂的场景的
大概就是一只小松鼠一只猫
他们在一个山坡上奔跑
然后穿过了树林
接下来是穿过了一座桥
最后到了山顶上
桥的两边是有彩虹的
然后有风
就是很具体了
很具体很具体
很有画面感了
对 我其实是想看它在
这一连串的关键的奔跑中
它整个场景的变化
它的连续性
效果如何
我说到的这些点非常好
但是跳帧很严重
是吧
跳帧
逻辑很奇怪
对对对
感觉在做梦一样对吧
就是这种感觉
这个描述太准了 对
感觉就是做梦一样
对 它比如说是桥到山顶
你感觉这个中间
它是没有任何的这个
他不是奔跑过去的
他是画面切换过去
是是是
然后里面各种各样的元素
就开始进行不可思议的形变对吧
这个其实跟我们
刚才说的稳定性有很大的关系
如果真的要用在
一个创意的产品上来说
我们看起来至少得相对合理
除非你是真的想要做出
这种梦境一般的效果
目前我看可能20秒 30秒
算是比较长的
还相对比较稳定的
如果真要说生成一分钟以上的东西
一方面来说我们人可能
也需要给它更详细的情节
另外一方面来说
它真的是否能从逻辑上很好的
再现我们脑中想象的这种情节
这确实还是一个挺大的问题
对 所以你觉得现在如果我们
来看整个AI做视频生成的问题
最大的问题其实就是一个是可控性
一个是不够好
不够好
其实最大的问题
还是不够好
最大问题就是这三个字不够好
所有的玄妙之处都在够这个当中
其实我之前也在网上看到
一些很感人的一种个人的应用场景
比如说一些人会把他们
去世家人的照片给AI
然后让它去做一个十秒钟左右的
已经去世的亲人的动态的这种
这种在声音模型生成的特别多
就是因为现在其实因为我做播客
现在各个厂家他们的声音模型
竞争也非常激烈
我就经常看见有评论说
我把妈妈生前给我发的这个语音
喂给模型
然后我就能听到我妈妈的声音了
对 很感人
很具有人性色彩的一种使用的场景
而在这种场景当中
所谓的够不够好
它这个够这个字就不重要了
因为它有一种很真实的
有大于无
对 有大于无
而且以前就是不可能
它的点不在于我真的生成出来
一个多好的视觉的产品
而是我真的通过这种方式
仿佛跟我以前的亲人朋友
又重现了一个记忆
这个就很有意义
比如说如果真的AI要上工业的话
它的成本就会成为
一个特别大的问题
AI现在的成本是多少
挺高的
我大概在很多这些视频平台上
都会去买他们的这种视频
生成的credit
每个平台也有按月订阅的计划
基本上我会买中间那一档
主要是想尽可能的多试试看
基本上所有的平台
在每一个月的第一周我都会用完
就是严重的token不够用
你每天用多久
非常非常的缺token
我在Luna或者可灵
我有两三个创意的想法
我基本上每一个平台上
会希望它生成5到10次
那么这个就相当于是20到30次
而我一天比如说
生成20到30次的话
真的一周也就全用完了
可能一周都不到
现在他们在生成人物的时候
眼睛还会有恐怖谷的效应吗
因为我们其实在这些视频模型
刚刚出来的时候
因为我们自己也做视频
所以我们也是都用过这些视频模型
但我们试过
就觉得它生成的这个人物状态
还是很恐怖的
就是跟迪士尼最开始
是是是
最开始那些动漫一样
他的眼神是空洞的
我觉得现在基本没有了
基本没有了
这也是一个很大的进步
非常大的
而且比方说还有手的稳定性
手的稳定性
突然一下多出一根手指
少一根手指
这个其实也是一个巨大的突破
我觉得很厉害
就所有模型手的稳定性都解决了
几乎到了一个不会穿帮的程度了
手跟眼神这两个问题都解决了
对 时不时还会有这样那样的
一些小bug出现
但是大概率的话
我现在不会担心说
我现在去生成一个东西
我首先得查一下他的手对不对
我觉得现在已经基本没有这样了
你们会用confine UI这样的工具吗
我们自己没有直接在用
因为这个工具的迭代特别快
迭代速度快
客观对我们来说一直做实验的
导致一个很麻烦的问题
就是必须一直用
不一直用的话很容易
出现工具跟工具之间
我过一个月它就变样了
所以在这个方面我们也是一个
有一点烦恼的一个地方了
工具跟工具之间迭代了
这个对你们的影响是什么
目前没有
因为你们还是没有用到这些工具
真正的在商业行为中的
对了
这又回到我们刚才说的这一点
这个够字当中的另外一个魔鬼
就是工具的稳定性了
如果真的要工业化生产之后
我首先对于它的token
会有大量的需求
我们就说一个关键帧
生成中间帧的这一件事情
那可就不是一天生成20次量级了
可能一天生成500次
都是有可能的
一旦进入工业化之后
这个成本 效率
甚至产品上的问题
会一下变得特别严重
Ok了解
其实对模型端来说
就是一旦他们开始
给工业化的机构去做制作
它也会有token的大量消耗
然后你的算力够不够的问题
我觉得这个非常非常的真实
还有一个问题
就是你觉得用AI配音怎么样
因为我觉得现在语音模型的发展
反而是我看到的最快
然后效果最好
可控程度也比较高的
就比如说动漫
其实我们刚刚讲的
全部是画面的环节
但其实还有配音
还有配乐的环节
这件事情牵涉到了一个
我个人也非常忐忑的一个话题了
语音确实比视频
要好做的很多很多
而且如果真从语音的生成质量
角度上来说
其实现在大部分尖端的模型
已经跟真人无异了
但是这里面语音生成这个
也牵扯到一个很难聊的一个话题
也就是AI跟人类创作者之间
到底是什么样一个经济关系
让你忐忑的是什么呢
非常忐忑的一点是
这次我们在日本也聊了
一些导演 配音演员 声优
日本的声优实际上
他也有自己的协会
包括日本这几个月的时候
也有很多日本非常知名的声优
公开出来反对AI
他们不会把自己的声音
用于语音训练
也不会允许AI来模仿他们的声音
他们给出来一个论点
其实我很同意
他们自己对于自己声音的训练
还有他们的表演
实际上是他们的生计
而且这个东西一旦被替代
他们自己的价值也好了
创意也好了
还有自己他们的生计也好
会被迎面冲击
你看日本还有工会
但是还有很多人不在工会里
很多国家是没有工会的
很复杂
如果真的讲到
经济模型的问题的话
确实是一个相当相当深刻
且困难的话题
从一个画画的角度上来说
我还可以说
AI对我来说是一个工具
但是同样的这种工具的论点
如果放到声优上面
可能就会比较困难
因为它生成出来的东西
跟声优表演出来的东西太像
所以其实在声音这个环节
技术已经可以做到它可以替代人了
只是说在这个过程中
你要去怎么解决
这一部分人他的生计问题
它反而是一个经济关系的问题
它不再是一个技术的问题
我个人认为是这样的这里面
存在一定深层次的
工作伦理的问题
对 我觉得在播客行业
已经出现了这样的问题
完全可信 完全可信
这个确实是
比如说泓君
如果有一天我现在告诉你
有一个AI可以模仿你的声音
然后说泓君
以后你就不用再出来录播客了
你就写稿就行了
我们把稿件就转换成声音
这个事情我觉得从主观程度上来说
还是一个挺有冲击力的一件事情
另外一方面我个人也偏向于
认可的一个论点就是
声优他本身
并不仅仅是在提供一个声音
他是在对角色进行演绎
甚至他们自己也是一个流量的点
他们提供了很多在商业上
产品上和创意上
比一个物理上的声音
要多得多的一些价值
还是应该正视和尊重他们
对于作品和商业上的贡献
如果真的从技术上角度来说
声音我觉得技术程度上我觉得到了
但音乐还没有ok就是声音ok了
音乐我觉得也ok了
音乐也ok了吗
音乐我觉得也ok
你觉得AI生成的音乐
它跟人的这个音乐它的表现力
这个问题可太有意思了
这个问题甚至可以上升到哲学高度
我之前在学校学习美术
或者音乐史的时候
就发现一个很有意思的现象
我们就说西方音乐史
它里面的大家
时代和风格的变化
其实没有那么多
其实我觉得客观上来说
反映了一个很有意思的现象
就是我们认为好听的音乐
可能就那么几种
我们认为难听的音乐比比皆是
我今天就可以写一个给你
就是人类认为的好听的音乐
现在已有的这些大调
小调 节奏
实际上已经被前人
还有乐理总结的相当完备
因为我们认为好听的东西
没有那么多
所以从AI的角度上去理解
什么东西是人认为好听的
就没有那么的困难
所以最终导致的一个结果
就是它生成出来的东西
其实表现力怎么样
我觉得这个问题
一半是观众心里要回答的
我举一个例子
比如说像Suno这样的音乐生成平台
我们之前有测试过它的歌
但是我们测试的时候确实
可能是它刚刚出来的时候
值得再试一遍
Ok 对
我们当时就觉得
这个也太口水歌了
但是我们其实跟
做这个音乐模型生成的人聊过
他说是因为这样的平台
它不敢去复制
现在最顶级的这个流行歌曲
对 讲到我们刚才的问题
对对对
不敢拿他们的数据去训练
如果你训练出
最后一个风格一模一样的歌
或者风格很相近的歌
那这个版权问题就会产生纠纷了
非常严重纠纷其实
对 但是理论上只要把它喂进去
高质量的作品跟数据
它是可以训练出来的
对 我给你一个建议
你可以试试看
就是下次你再跟Suno玩的时候
你去生成古典乐
我们上次就试了古典乐
对吧
就试了巴赫
古典乐这个效果
我觉得目前相当不错说实话
是因为古典乐的版权
已经开放了50年
对 它很多已经过了这个版权期限
对
所以这个数据实际上就是更开放
但Suno的观点其实非常的正确
因为你现在如果真的模仿一个歌手
那我们真的得解决
一个商业伦理上的一个问题
这我觉得甚至从一定程度上来说
超越了商业利益
如果我真的现在技术上
能复制出周杰伦的声音
我应该拿他的声音去写歌吗
但我觉得这个事情细想也很可怕
你模型能做这个事情了
这件事情就变得无利可图了
尤其是刚刚起来的新艺人
就变得无利可图了
所有的艺人他都是不停的创作重复
创作重复来做出更好的作品的
那以后可能就没有好的新歌
或者说没有人类创作出来的
好的新歌了
所以这个就是讲到商业结构
和商业伦理的问题
包括我们刚才讲的中间帧生成
这一个简简单单的事情上
已经包含了这种深层次的矛盾
我现在比如说提出一个中间帧
生成的一个模型
制作一个产品
基本上不会有日本的动画工作室
会对这件事情提出伦理上的意见
因为这个确实是大家一个需求
从表面上来看
确实也保留了人类的创作性
因为关键帧还是要人来画的
这看上去确实
是一件一本万利的好事
但是它客观上来说就会对产业
产生一种非常长远
且非常令人忐忑的一个后果
就是新人没有办法去爬了
对 而且新人没有办法
去做大量的重复的练习了
对了
而这个练习是你通往大师的必经路
其实这一点非常非常的可怕
假设从一个小白到一个大师的过程
是一个长长的一个梯子
那小白需要从一开始
有能落脚的地方
我们如果这个梯子只有上面的
一半有杠杠可以抓的话
这个梯子是没有办法爬的
而关键帧这件事情虽然看上去很好
它从长远的角度上来说
可能会带来一个现象
就是大量的新一代的
我们目前还不认识的
还在读书的
还没有在读书的
这些新一代的这些动画的制作师
他实际上在这个行业当中
没有可以向上爬的落脚点
如果产生了这个现象的话
那可能动漫这个行业
说不定还会后退
在几十年之后
我们现在已经看到这种
大规模的人才短缺的现象
我觉得可能是全人类社会
都需要一起来考虑的一件事情
想一想也挺可怕的
是啊
确实是一个相当复杂
而且短期之内可能
还挺无解的一个问题
反过来说一个理想状态
还是刚才说的
就是我们作画也好了
在动画上也好
我们真的能够把AI
作为一个工具来看
这种工具又去鼓励另外一些
之前不会考虑做动画的人
他们参与进来
那就像是我们以前在艺术史上
颜料都是很贵重
自然原料来做出来的
那在化学工业做成之后
油画的颜料就变便宜了很多
它从客观上来说就鼓励了
很多新的一代的年轻人
新的一代的画师进入这个行业
如果AI能够对动画
达到这样的效果的话
我觉得它还是一个值得期待的未来
当然这个过程当中存在
非常深奥非常复杂的商业伦理
和商业结构的一个问题
我觉得也是整个行业
需要一起去面对去探索的
你为什么会从技术走向动漫
我觉得
你是学什么的
我在大学的时候学的是计算机
对 OK
我一直以来就非常非常喜欢的动漫
我看刚刚
你还学过西方美学史
是
跟音乐史这些
是 我一直以来
都非常喜欢创意的产品
我对创意行业本身
也是有非常大的激情
当然一开始是作为一个观众
能够通过机缘巧合的机会
做到现在这个位置上来说
也是非常非常的幸运
现在你的工作中
涉及到的技术的部分多吗
你的这个岗位
如果是一个传统的内容负责人
或者一个动漫制片人
他们的岗位是需要懂技术的吗
传统的可能对于技术的理解
要求并不是特别多
他可能对特效能达到一个
什么样的技术
会要求更高一点
很多时候是对于流程的理解
和对于创意方面的
直觉是更核心的一个
比如说每天都会用到的一个事情
是的
技术上来说反正相对少一点
现在呢
现在我觉得可能对于 -
E197_一位动漫制作人的日本之旅_七大模型多模态之争(3)
包括你给之前的话
提出过的这些建议
包括你写的这些脚本
我们把它丢给ChatGPT
然后我们就告诉ChatGPT
你现在假装自己是这个动画导演
对一个新的项目进行评估
所以他们最终
有用吗
怎么样
我非常需要
这个还真有用
而且觉得有用的
并不完全是他们自己
而是导演本身
尤其是大项目的动画导演
他面临的工作量实际上
是非常非常不是个人
能够完成的一个量级
而且其实他是所有的项目
都会汇总到他这里
对
他要去做决定
他要去看整个项目的审美
对
每一个环节行不行的人
对
所以说很多时候
比方说看到有些地方
画的不好的时候
我们叫作什么作画崩坏
很多人会觉得那个导演不行
这个不正确
因为导演尤其是在
动漫的这种产品当中
他永远不可能去亲自的
把每一帧的画都拿出来去修正
那不可能
这完全不是一个正常人
能够完成的一个工作量
所以他为了保持一个优秀的质量
那个导演下面他会去组建
他信任的这些原画师也好
这些修正的专职人员也好了
他会需要一个团队
而这些团队当中
如果有人掉链子了之后
其实反而比导演本身更容易
产生作画上的质量问题
而导演本身因为
他需要反馈的东西太多了
故事板怎么样
脚本怎么样
我画的这个风格怎么样
颜色对不对
我画的这些动作时间上的安排
合不合理
情节好不好
他作为一个总的策划人来说
实际上他的精力也是非常有限的
对吧
所以这个公司他们的产品卖的好吗
其实蛮好
就是相当于是一个导演助理的角色
对 这个是一个动画工作室在做
这个动画工作室
他是做给自己用
还是他的产品
做给自己用
他们完全是在自用
挺好的 这个想法非常棒
对 他们完全是在自用 对吧
所以他的意思就是说ok
导演我现在给你做了一个
ChatGPT的一个虚拟助理
如果接下来有下面任何
一个环节需要你提供反馈了
要不你先把它
给ChatGPT过一遍对吧
然后ChatGPT要说这不行
你看看它说的有没有道理对吧
然后他们也是这样试验了一下
最后这个导演觉得还不错
其实在动漫行业这些导演
和制片人的这一类人当中
很多人对AI有着更开放式的
这种研究探讨的态度
我个人认为很多一方面
也是从他们的角度上来说
确实经常出现
心有余而力不足的情况
所以AI会帮他真的抠到每一帧
那你觉得AI给的意见靠谱吗
我觉得实际上甚至AI
也不一定能帮他抠到每一帧
但是在一些比较关键的一些节点上
其实AI即使能够帮到他
百分之四十五十
也是很有用的
至少作为一个观点
了解
比方说一个导演一天8到
12个小时
比如说其实真的生产起来
可能比这个多
是十八个小时吗
可能比这还多
但我们就假设说是10个小时
他在这10个小时当中
可能真的能够非常聚精会神的
修改的关键部分
可能每天我觉得不一定
会超过十个关键点
那有这个AI他即使每天能够
修的关键点能从10个变成15个
那这也是一个巨大的成功
那看起来质量提升了30%
那感觉是有这个希望 对吧
对对对
然后你从日本回来之后
你觉得对你们如何做动漫
然后要不要使用AI工具
对你整体上的观点会有改变吗
我觉得改变还是相当大的说实话
大家对于AI
一方面来说就是更欢迎
然后另外一方面来说也是
更偏向于相信它未来的可能性
但是他如果真的作为一个工具
嵌入到平时的这种生产过程当中
那确实还要面对这样那样的
细节当中的魔鬼
所以你对AI就是日本之行之后
你反而对它的态度是更谨慎了
这个是我听出来的
这个是一方面
另外一方面也是因为我们看到
有很多现在以AI为核心的小团队
实验的出现
我们也觉得很激动人心
我一直觉得人类对于艺术
人类对于创作的追求
是一件永恒的事情
人类我觉得从上千年上万年前
就开始在洞窟上戳画画 对吧
而这次从日本回来之后
我也更思考的一件事情就是
如果我们真的把AI
作为创作工具的本身
那么围绕AI
会不会有新的可能性产生
有没有可能说我们现在能够看到
以前完全做不出来的东西
比如说特别特别复杂的衣服
动漫的设计当中不太适合
出现特别复杂和华丽的服饰
因为这些服饰的制作
还有把它动起来
那就需要有大量的人力物力
我理解 就是一个服饰
如果它特别复杂
上面还有花纹
那这个动画师在画它的时候
就要吐血了 对吧
就每天28个小时的工作时间
就出现了
但是如果有AI的话
这可能就会成为
一种可行的视觉语言
但服饰也不重要
就是在整个动漫中
不好说
不好说吗
这个我一直以来
抱有一个很开放的态度
因为我们目前看到的
尤其是2D手绘的动画
它的服饰都相对简单
并不一定代表说
复杂的服饰它就不好看
而是因为制作上的原因
我们只能这么选
我能想象一些场景
比如说一些打斗
它还是需要一些复杂的服饰
或者在你体现一个
王这种概念的时候
对对对
或者是甚至说一个打斗的案例
一个中世纪的一个骑士
其实他的盔甲的结构是相当复杂的
而如果把这些全部复杂精密的
这种盔甲的结构
完全的用手绘的方法画出来
那可真的是不知道做到什么时候
也确实有可能得不偿失
比方说身上会挂很多挂饰
或者铃铛的这种角色
相对来说这种角色的服饰
在现代动画当中可能相对罕见一些
但如果有AI的话
这些变得更好做了
它会不会产生
新的一种创意上的可能性
对于这件事情
我其实抱有相当的开放式的态度
我觉得也是一个很值得期待的领域
与此相对应的
比如说动漫的这种上色的方式
现在是怎么上色的
AI是怎么上色的
基本上就是填充
没有了
这个就是开玩笑
这个有点半开玩笑的意思
听众朋友们可能在小时候
也玩过windows上面的涂鸦工具
然后里面有一个大家
可能都玩过的工具
叫做油漆桶 是吧
就是你画一个圈
油漆桶一点
这里面突然一下都变成一个颜色了
其实现在大部分上色
就是这么上 就是油漆桶
但你不觉得其实这就是人类
重复密集劳动的部分吗
这个就是技术与创意产品之间的
一种非常微妙的关系
对
这就是我们最想交给AI去做的
对 就是技术的限制
它会产生一种形式的创意的结果
像希腊雕塑的这些大理石
大理石它本身就是一种限制
大理石上的上色
当时的颜料的技术实际上
非常的不成熟
所有的颜料都很难在历史的
化学反应当中被保存下来
那就导致了很多我们现在看到
希腊时期的这些大理石都是白色
但是就因为有这样的
技术上的这种限制
反而在后来
比方说我们新古典主义时期的时候
大家又来看
觉得白色反而是一种特色
但是后来当我们的这种印染的
或者对材料控制的技术
又上一层楼的时候
我们之前买的
这种变形金刚的玩具也好
哆啦A梦的这些小玩具也好
动漫的这些手办也好
由于我们人类对于塑料的
这种化学工业已经
到达了一种非常非常先进的程度
它又诞生了一种完全不一样的
美学的可能性和生产的体系
我希望AI它最应该做的事情
并不是说把已有的创意
给用AI自动化
但是AI它最美妙的
最有趣的地方应该是说
我因为产生的这个工具
有没有什么我以前因为
各种各样的原因做不到的事情
现在可以做得到了
如果我们有这样的愿景的话
那我觉得人类与AI
在文化艺术方面创意上的
这个未来应该是一个
非常另人期待 百家争鸣
百花齐放的一种理想状态
如果我们说在此过程当中
艺术也好 文化作品也好
它的创作上忽视了
这当中一个具体的艺术家
那这我觉得也是
一个很不应该的事情
是 你能不能简单介绍一下
你现在每天的工作
然后你的工作中是怎么样
跟大模型发生这种
就是每天会使用它的
我们现在每天的工作
主要围绕动漫制作产生
比方说未来的项目
它写故事 设计角色
然后跟进已有的项目
我们就去跟进它的产能的状况
有没有什么问题
还有一些是更偏向于商业上的
那就更典型的一些制片的职责
比方说项目的融资发
宣发 制作资源的整合
对于我们来说可能比较特别的一些
因为我们本来这个 IP的起源
也比较奇特
它并不是一个漫画
也并不是一个小说
它是一套NFT的头像
所以我们也会尽可能的
会想着有没有什么AI
能够跟头像直接产生一些
有趣的化学反应的方法
AI是不是也可以直接
帮你们生成Azuki头像的作品
肯定是可以的
对 因为我觉得其实你们是一个
非常典型的AI的应用场景
因为NFT它就是需要
有各种不一样的
符合你们风格调性的头像
但是每一张都要不一样
对也不对
一方面来说我们肯定跟AI生成
这方面是结合的非常的紧的
那另外一方面NFT它本身
有着比较强的收藏属性
我们人手工的制作以及它的稀缺性
可能会成为比它是由AI做出来的
这件事情要更重要
所以不能用AI做
在Azuki头像生成过程当中
我们肯定没有用过AI
为了保持它本身的
这种收藏属性的价值
我们也会控制它的供给量也好
也会有尽可能的
用我们的艺术家也好
设计也好
把它打磨到最好
所以就是AI如果足够发达的情况下
它会解决了一种生产上的问题
但是AI它不解决宣发的问题
比如说我现在拿AI
做出一个五分钟的短片
但这个短片怎么样宣发
它是否拥有商业价值
它是否能让一部分
看到它的人觉得感动
这些都不是AI
现在技术上正在做的事情
这些除了技术上的考量之外
又需要很多非技术的
对于动漫也好了
文化作品也好了
有着非常深层理解的
这些导演 创作者
他们来去把这件事情给挖清楚
那你现在每天用到AI做生成
大概是一些什么样的环节
我们大部分的时候在实验
比方说你现在
有一个Azuki的头像
我们能不能把你
用AI把这个头像动起来
来作为一种技术上的尝试
有意思
这种情况下我们就不打破它
原则性的收藏性的基础上
提升了一些它趣味性
对 然后你之前有提到
七个大模型每周都在进步
你追我赶
可能不止七个
现在已经不止七个了
对对
你觉得是哪些方向的进步呢
是从什么时候开始进入到
这种你追我赶的时间点的
我感觉这种万马奔腾的状态
真的很接近
可能是从七八个月前开始的我觉得
是有什么关键的模型发布吗
Sora
我觉得还不是Sora
实际上可灵
Pika还有Runway
在几个重大节点上的发布
可能比Sora还要更具有代表性
Sora当时一开始发布的时候
如果我没记错的话
好像还有一定的争议
因为大家对于它的漆面普遍偏高
但是最后生成出来的效果
还不一定有想象中的那么好
但是我记得
确实就从那个时间点开始
基本上这几家大模型
就进入了一个你追我赶的状态
你追我赶表现在什么方面呢
版本更新的频率
还有AI模型稳定性 速度
对于关键词的理解上面
都在以一种非常惊人的速度进步
能不能举几个例子
这个变化实在是太快了
那我们就用ChatGPT来举例好吧
OK
它之前发布了吉卜力
大家去改的时候
这个是今年的事情
还是挺近的事情
两个月前 四五月份
我记得当时在ChatGPT发布之前
谷歌的Gemini放了一个
实验性的feature
当中它就已经做到了
用文字来编辑单张图片
这个能力已经做到了
一种非常惊人的程度了
在Gemini和ChatGPT这一波之前
实际上如果我们单从图片考虑的话
可能大家用Mejourney
和Stable Diffusion还更多一点
但Mejourney和Stable Diffusion
对于文字逻辑的理解
坦率的说不是特别的强
比如说我给一张照片
然后我说把这个照片
变成一个吉卜力的风格
就这么简单的一句话
在谷歌的Gemini和ChatGPT上
一句话就能解决的事
而且效果还真不错
很厉害
迎头赶上是吧
几周之后ChatGPT
就出来类似的东西了
然后
就大家互相
我觉得还有一个因素
是当一个功能大家确定了
某一个方向可以这样做的时候
其实抄起来是很快的
确实现在明显有这个感觉
Luma我觉得也是一个很好的例子
Luma我觉得我之前印象非常深刻的
是它的给一个起点
给一个终点
你是说关键帧是吧
对
拿茶杯跟喝到水的关键帧
对对对
我们就比方说给一个起点
给一个终点
然后让它把中间给补全 对吧
我记得去年年底的时候
他们有一版
这个效果整体就做的非常不错
很快 我觉得甚至可能是同时
中国的可灵这个模型的关键帧
尤其是在动漫这个风格上面
它的那个补全的质量就更高
为什么现在很多大模型
它在动漫方向的进展
好像比它在真实的物理世界的
进展看起来是要快的
我感觉这个还存在
模型与模型之间的区别
就可能是训练员素材的问题
对 而且有可能是跟这些团队
不同的侧重点有关
可能尤其是对于中国的团队上来说
因为大家都比较习惯
也比较喜欢动漫二次元的这种画风
那对他们来说去往这个方向做
是一个相对来说
比较自然而然的反应
而在美国方面
实际上现在很多
比如Pika Runway
像Luma他们我觉得
在特效上可能就做得非常的不错
也很难说技术上来说到底哪家
跟哪家之间是否存在
真正意义上的代差
所以你觉得
在视频模型上是没有代差的
包括中国的这些大模型
中国还有哪些做的比较好的
你刚刚提到了混元 可灵
混元 可灵在动漫方面确实不错
Vidu我记得是
Vidu对
也是动漫生成相当不错的一个
开源的模型
我记得是One wan I think
中国的这些模型
我觉得从生成质量上
完全不输于美国的模型
而且从迭代速度
甚至产品的终端用户体验上来说
甚至比美国的公司还要再好一些
所以我觉得
因为会做产品
我觉得真的是
我觉得真的是
而且生成更快而且更便宜一些
美国的这些按月付费的
这个其实真挺贵的
很快就能用完
我觉得最新一次视频模型的发布
其实是在Google IO期间
Google 发布的Veo3
它其实是在常规的
这种视频生成的基础上加入了声音
它有音画同步
包括有口型 这个难吗
这个有点像我们刚才讲的
ChatGPT和Gemini
他说的单个语言文字
来去做图片的这种编辑
这件事情本身从技术上来说
当然是挺不错的一个成就
但如果真从模型本质上来说
我反而觉得应该没有那么的复杂
可能很快我们就会看到其他家
也会有类似的产品出现
音效生成
对
现在视频模型能生成的
最长的视频是几秒
目前很多的都在
10秒15秒 20秒这种区间
如果再往下生成的话
就确实会出现 -
E197_一位动漫制作人的日本之旅_七大模型多模态之争(2)
基本上处于一个全球排期的状态
这个就导致了做动漫的工作室
心有余力不足
其实我们这一圈聊了下来之后
基本上所有的动漫工作室都在看AI
当然大家不一定会说
你说主流的 顶级的
对 我们能叫上名字的动画工作室
当然AI对于艺术家来说
是一个特别敏感的话题
所以对于这些工作室来说
往往他们在外面宣发的很少
但是技术大家都看得到
他们能看到这些可能的应用场景
也是很激动的
他们真的有行动吗
有的有的
比如说像动漫
其实动漫的生产环节相对来说
是比较流程化
比如说先从故事的脚本
角色设计开始入手
然后把它做成故事板
再做到原画里面还有一元二元
然后再做中间帧的动画
背景同时做
然后再加上音乐
最后把这些东西全部合起来
最后加上配音
然后再有后期调整
他们最希望能看的事情就是
这些流程当中
有没有这样那样的环节
可以用AI去提升效率的
他们找到了吗
没有
其实
我们待会儿可以说一下
为什么没有
没有 对吧
就是举一个非常具体例子
AI其实在动漫当中有一个
特别特别明显的潜在应用场景
就是中间帧
比如说我们刚才讲一个人喝咖啡
他用手拿起咖啡杯
然后放到自己嘴里面然后喝一口
这里面可能就会有三个关键帧
关键帧大概是手拿到杯子
可能形成一个
这个我们要画一张画
然后杯子拿到嘴边可能形成一个
这个我们要画一张画
然后喝一口
喝完之后什么状态
杯子是什么角度
这个我们要画一张
可能有三张
而动画只有这三张
它肯定是很撕裂的一种体验
所以为了让
大家会觉得跳帧
对
感觉中间漏了一点什么
所以为了让整个动作变得很流畅
我们需要在这三个关键帧当中
进行补帧
如果说我们是一个特别细节的
是一个很靠近这个人的镜头的话
中间可能要补不少帧
中间帧这个过程
和关键帧这个过程的绘制
在动漫行业当中一般是两个步骤
而关键帧的绘制大家都会觉得
是一种非常富有创造性的活动
中间帧的绘制相对来说就枯燥一些
因为
实习生做的活动
所以中间帧的绘制也往往是
动漫行业新人第一个会上手的工作
而中间帧的绘制往往是很多人
想到AI能不能用于帮助我们
提升产能时候的第一个应用场景
它这个需求相当于是
我给你两张原画
然后你根据这两张原画
来生成中间的这一系列动作
还不仅仅说是文生图
它其实是图生图
还是图生视频
图生视频
因为视频也是一系列图
对对对
所以基本上就可以理解为
是一个图生图的一个过程
而这个过程从技术的角度上来说
听上去好像不是特别困难
无论是美国这边的大学也好
创业公司也好
甚至包括硅谷的一些院校
国内的院校还有公司也是一样
往往是关键帧生成上
时不时的就会发布一些
很厉害的一些论文
每一两个月可能就会看到一个
我们在关键帧生成上
又有了什么什么突破
哪些公司在关键帧上比较有突破
非常非常多
B站前几周
就发了一个挺不错的论文
就B站的研发团队
他们自己也在研发这方面的技术
对对对
甚至说美国的一些比较独立的
一些科研团队
都有做出来很不错的结果
我们看到这些当然是很激动的
但是理想总是非常的丰满
现实其实相当的骨感
我们这次去参观的工作室
都有尝试在用AI辅助中间帧的生成
但问题就在于效果不够稳定
不够稳定
其实这四个字当中最关键的
一个词是够
要多少才能够用
这个是一个特别特别
玄妙的一个问题
对 能不能还是用我们
刚刚喝咖啡的这个例子
来解释一下什么叫够
可以 没问题
比如说这个人他穿的是一个夹克衫
这个夹克衫在运动的过程当中
可能会产生皱褶
或者说我们这个人的手
可能会产生一些
我想要去表现的一些光影的变化
或者说他带了一个手套
这个手套上有一定的纹理
或者说这个咖啡杯上
画了一个什么东西
那么这个时候关键帧
就开始出现一些很玄妙的
一些问题了
比如说我们在拿起咖啡杯之后
生成了一个关键帧
这个关键帧由AI做出来
可能90%
大家已经看不出什么问题了
但是很有可能这里面
就会出现百分之五到十的差错
而这个差错就会对动画制作流程
产生特别大的影响
它就不是一个连续性的过程
你人用物理跟常识去看
就会觉得别扭
对 而且这有些时候还不是物理的问题
这有些时候是一个创意性的问题
因为动漫的制作
它也并没有追求每一帧
都完全符合物理世界的规律
往往更多的是我希望
它在这种创意的允许范围之内
它可信且好看
而这两个问题都会产生
比较严重的问题
在可信这方面
如果我的这一个皱褶
一下出现突然一下消失
又一下出现又突然一下消失
那它如果真的播放的时候
是不是会产生一种很奇怪的观感
这个袖子上到底有没有东西
大家可能会联想到
是不是跟剧情的关系
对对对
尤其是像动漫这种媒介
因为实际上每一笔
都是由人画出来的
所以它实际上每一笔后面的思考
尤其是在很厉害的
这些动漫的大师上面
都会有非常深奥的思考
就是它可能会有铺垫在里面
对
你本来是一个AI
做的一个不完美的作品
它只是因为它不完美而已
但是观众会把它作为
一种剧情的铺垫去解读
这个绝对是其中一个很大的原因
尤其是当我们比方说把一段
很激烈的动漫当中的打斗
非常慢的放之后
就会发现其实每一帧的动作
相当的夸张
夸张到你如果真的把这一帧拿出来
纯粹作为一个物理世界的这种考量
它就不是一个正常物理世界当中
应该存在的事情
它就是一个导演也好
动画制作师也好
在这种夸张的动作之下诞生的
一种美学上的思考
而这种在AI当中
为什么会特别容易产生问题
其实就是如果有那百分之五到十
它的细节不好的话
这个东西不一定好改
不一定好改
就是在衣服上加几笔
这个褶皱是很难的
这个其实比我们想象的要困难
这个也是为什么说很多时候
我们觉得AI好像
能够做关键帧生成很不错
但其实足够用这个够
这个字里面的标准相当的高
假设我们用AI拿起咖啡杯喝一口
生成了十张关键帧
这十张关键帧每一张都不错
但是每一张都在不同的地方
出现了5%的误差
这十张拿出来之后
我们还是要交给作画监督
原画师还是要交给他们审查
那么真的节省他们时间了吗
不一定
还不如就直接自己画了
可能有些时候
还真不如自己画来的更快
95%的10次方这个正确率
最后就可以算出来吗
对 这个正确率会发现
好像也没有那么大的帮助
这个更牵扯到尤其是现在
生成模型的一个问题
如果比方说我中间
是以十个实习生在帮我画
我至少可以非常详细的
告诉他你们错在哪了
我们可以把他们加起来一起开个会
但是AI很难可控的生成
你想让它把这个褶皱去掉
对
它可能改的不是这个地方
它或者它还是会出现这个错误
对 这个就是细节当中的魔鬼
真的就显现出来了
如果是十个实习生的话
我至少能够很稳定的知道
每次我交过来的稿件都会变得更好
AI就不一定了
包括我们现在也有
这些masking的这些技术
但实际上最终还是存在一个
我让AI从90%到95%
再从95%到100%
这个过程真的不一定比人快
而这个往往在影视行业也是这样
比方说在好莱坞的特效也是
真人也好 CGI也好 对吧
我们现在就说一个车
嘣一下爆炸了
其实这个事情
如果在好莱坞来做的话
这个是我真去炸一辆车
还是说我用CGI做
如果我用CGI做的话
那这个爆炸它有多大
它是否产生烟雾
它是什么颜色的
产生出来的碎片应该往哪些方向飞
这些在很多导演当中
都是相当重要的细节
而AI至少在目前阶段还很难
对于特效也好
像动漫我刚才讲的细节也是
做到如此精细程度的控制
这个我觉得也是将来AI如果
真的在影视行业全面落地的话
可能会比较需要长期投资
和发展的一种关键技术
就是对于非常详细的
创意细节的把控能力
而且你这个其实难度挺大的
因为你要细节到每一帧
对
对 我记得之前我们聊天
你说正好听到
一个詹姆斯卡梅隆的演讲
说他每一次爆炸都会爆破几百次
对吧
是模拟几百次 如果没记错 对吧
对对对
卡梅隆其实一直以来也是一个
非常对技术友好的一个导演了
他自己本身
也有工程师的背景在里面
很朋克很厉害的一个人
他们拍电影的过程当中
对于技术性的要求
对于美学的追求很高
他对于自己手上的工具的可控性
其实上有着相当相当高的要求
还是在那个不够好
这个够这个字到底有多详细
我们也可以刚好借这个话题
聊第二类公司
第二类是什么
完全放弃已有动漫行业的工业流程
想要以AI为核心
做一种以AI为主的
新的动画制作流程的公司
这类公司往往更偏向于创业公司了
很多这些公司可能也不一定
有非常丰富的动画制作的经验
他们实际上并不是说我拿AI过来
我去优化已有的一个流程
不是 他们就是说我的流程
就应该从零开始围绕AI来去做
看AI有什么能力
然后我们来做什么样的动画
对 就是AI有什么能力
我们就干什么的事情
能出什么样的作品
比方说中间帧AI制作很难
无所谓
我们就不做中间帧了
或者说我们对于中间帧的
制作的方法就跟之前不一样了
我们之前聊了一个公司
叫Kaka creations
他们在今年做了一个
大概30分钟左右
声称是95%用AI生成的一个小动画
Kaka creations
对 这个公司当时在网上
也是引起了轩然大波
刚好又是Open AI大家把照片
吉卜力化的风口浪尖上
这家公司其实人特别少
可能也就十人左右
也非常早期
他们因为看到了这些
视频生成模型很有趣 想做
那他就说那我就从零开始做一个呗
他们的关键帧
还有他们的中间帧
很多是动捕的
是有一个人实际在演
然后又把人演的这个部分
利用AI换成动漫的风格
有点像风格转换
它其实是把人眼的
这个视频捕捉下来
还是说图像捕捉下来
再把它导入到大模型里面
把它做成一个动漫风格
有点像吉卜力风格的这样的一个
我们还是用刚才那个例子
他们的想法是这样的
既然现在AI画画存在很大的缺陷
我们就不考虑这个方法了
我们就实际录一个人拿了一个咖啡
喝了一口水
然后把录出来的
这个素材丢到AI里面
把它转换成动漫的风格
你觉得做得好吗
我觉得做的还行
多少分
七分
十分是满分
十分给个七分
然后六分及格
六分及格
七分
就是我觉得属于
确实还行的一个状态
成本应该是会比
动漫视觉化节省一些
肯定低
现在的话存在很大的
科研成本的问题
这个技术的做出来东西有多好
其实也不知道
但是七分其实如果真的
从一个动漫纯制作角度来说
不算一个特别高的得分
但是如果说它能不能及格
我觉得能及格
但是非常明显的
看出这个是AI制作的
它跟传统的这些动画相比
它的表现力
美学上的这种设计
坦率的说还是差不少
举一个例子说
美学上的设计有什么不一样
比如说本来做3D模型
2D模型
我得把它一帧一帧画出来
得把一个3D人的这些动作
都给摆出来
我用动捕的话
就直接人打打就结束了
那这个效率多高
从一定程度上是的
但问题是如果真的做在动画里面
其实上大家会对于更夸张的表现
往往会有一种美学上的追求
动捕如果真的做成动漫
其实经常会产生的一个问题
就是它显得特别僵硬
我懂了
就是它不够夸张
它不够夸张
它不够有艺术性
对 它不够夸张 它不够有趣
对吧
就是因为我们实际上一天到晚的
看周围的世界就是一个
很真实的一个世界
如果我真的是喜欢这种风格的
我干嘛不去看真人电影
对的对的对的
就举一个例子
比如说人笑
他的嘴巴的弧度是有限的
但我们通常在动漫中
那个眼睛非常大
然后你那个笑
嘴巴可以一直延伸到很大很大
对对对
它就是一个夸张的效果
但我们会觉得很可爱
会觉得很有意思 对吧
哆啦A梦
就是嘴笑的那么大
然后眼睛都眯成一条线了
这个就很好玩 对吧
是
这个东西如果拿动捕来做
它就会有另外一些技术上的难度
所以动捕有好也有坏
最终呈现出来的效果实际上
是一种美学上的取舍
Kaka creations这个就是
它的其中的这个案例之一
但我觉得也是一种思路
也是一种思路
一种挺好的思路的
比如说背景的话
一般不是也是画的吗
那我们就不画了
我们就拍张照
然后拿这张照片上AI说
你把照片给我转个风格行不行
其实背景反而是最容易成立的
尤其是静态背景
它就不太那么容易穿帮
这不是已经构成了
可以在传统的动画产业链中
有一个环节
至少你的背景空镜头
可以用AI来做
说的很对
其实奈飞之前改编手冢制成的
这个Pluto有个剧集很好看
奈飞也就公开声称
自己在Pluto的背景制作当中
已经引入了AI生成的背景
确确实实是一个很实在的落地场景
对于实际效用的提升来说不好说
因为背景在动画生成当中
本来就是一个比较平行的线
一般来说
画人 画动作
比画背景要更复杂不少
而且背景估计也不占成本的多少
有些时候还会占不少的
是的
但是在很多时候
新海诚就是一个典型的例子
新海诚作为环境狂人
他的背景的制作他就不会便宜
那这种背景也不可能用AI生成了
因为他对背景的要求高
那人家对于背景的要求可能
确实是超过目前AI的可能性的
是是
我觉得
但是绝大部分情况下
背景不占动画制作过程的主要部分
所以说有没有帮助 有
背景确实是一个很具体的一个案例
这个案例我觉得也是将来可能
会看到更多的动画工作室
来做的一个方向
但是它并不是动画制作瓶颈的大头
对 所以我们刚刚
其实聊了两类公司
一类是传统公司对于AI的探索
简单来说
他们现在还是一头雾水
还有一类就是完全按照
一个新的方式去做动漫
你觉得有中间派吗
有一些非常奇特的用法
这个也是超出我的想象力
我们聊过的一个动画工作室
他们实际上是
一个传统的动画工作室
然后他们再看关键帧行不行
不太行
看背景行不行
有可能行
但是背景又不太能够真正意义上
产生那么大幅度的时间
和成本上的缩减
那怎么办呢
说我们给导演做
一个ChatGPT助手怎么样
他们是跟他们公司的
一个导演合作
他就说导演你就把你之前
所画的这些故事板 -
E197_一位动漫制作人的日本之旅_七大模型多模态之争(1)
欢迎收听硅谷101
我是泓君
今天跟我在一起的
是Azuki的内容负责人二月茶
Hello
泓君 你好
二月 你好
我其实叫这个名字还挺不习惯的
可以理解 可以理解
对对对
跟听众简单解释一下
天宇的动漫的
应该是在网上
通用的笔名是二月茶
对 是的是的
一般在Azuki做内容的时候
就用这个名字
主要是我们在生产的时候
英文 中文和日语都会有使用
所以就挑了一个
相对来说三个语言
都相对比较好发音的名字
然后天宇在去Azuki之前
也是Google brain的工程师
因为其实我们很早就一直想
聊一聊视频模型生成的这个话题了
之前我们有一次在聊天的时候
你说因为每天
都在使用这些模型去生成
然后你观察到其实这些模型
可以说是七个视频模型
他们每周都有新的变化
这个话题也拖了很久
是因为正好在今年的五月份
你去了日本一趟
考察了一下日本整个动漫产业
所以我觉得今天我们大概可以
先聊一下你自己的日本之行
然后之后我们来聊一下
通过文字生成视频来看一下
整个视频大模型的进展
我觉得在此之前
就可能很多听众
他还不太知道Azuki是做什么的
你要不要简单
跟大家介绍一下Azuki是什么
然后为什么你的每天的工作
会跟大模型生成
还有日本的动漫产业会结合在一起
好 没问题
Azuki实际上是我们在
22年和23年 web3
Web3 这一波叙事特别火的时候
创建的一个NFT
和动漫相结合的一个品牌
整体的美术风格都是
走一个二次元的动漫的一个风格
所以Azuki从那个时候开始
就跟动漫结下了不结之缘
一直以来我自己对动漫
就很强的兴趣
当时也是通过各种机缘巧合
参与到Azuki当中
一直到现在
我在Azuki负责整个内容上的开发
尤其是动漫方向的这些制作
所以你们到底是要做成一个
类似于动漫连续剧一样的
还是一个动漫电影
我理解这两种叙事逻辑还是
挺不一样的
我们目前认为最好的方法
还是从动漫的剧集出发
作为一个动漫迷
漫画和动漫剧集
还是任何一个动漫迷
接触新 IP最直接的方式
动漫电影对我们来说
为什么感兴趣的原因
也是因为它的生产周期
相对短一些
动漫剧集现在基本上
处于一个全球大火的状态
尤其是日本 美国
甚至包括中国的产能
都处于一个严重供不应求的状态
所以现在制作动漫剧集
仅仅是等到
一个好的工作室的排期
可能就到两到三年
在此基础上它的制作本身
又是一个相当手工的过程
所以如果真的要去从零开始
做一个动漫剧集很容易
就是四五年的时间线
另外一方面
如果从动漫的短片和电影来看的话
它的制作的周期
相对来说就会短很多
所以电影比做剧集
还要稍微简单一些
其实在动漫当中反而是这样
是不是动漫剧集它是一个比较长的
有连续故事线的一个片子
它有好几季
假设做一季
它大概是多长的时间
一个12到24集的一季吧
目前来看纯制作大概要三年左右
但是问题在于现在特别好的工作室
都没有空闲时间来接单
所以特别好的全球方面的生产线
基本上都要排队到两年之后
这样就造成了
一个新的动漫项目的投资
很可能会到五年之后
才会见成果的状态
Ok 这个还蛮有意思的
我能问一下为什么全球排期吗
是因为动漫又火起来了
年轻人喜欢动漫
这个问题特别好
我觉得一方面是供
一方面是需
需求方面其实很简单
因为动漫其实是一个
相对来说比较年轻的媒介
而九几年 八几年这一代人
就是看着动漫长大的
这些人已经适时的
成为了消费的主流
与此同时新一代的消费者
比如Gen Z 对吧
比如说Gen Z 对吧,我们说Gen Alpha
也都是看动漫长大的
所以动漫一直以来可能
在内容 娱乐界相对来说
一开始处于一个相对边缘化的地位
但是因为它有一种独特的
审美体系在里面
跟着它一起长大的这些人
很多还会一直看动漫下去
美国 中国 日本都有这个现象
全球的动漫市场周边也好
播放也好
流媒体也好
所有的这些加起来
动漫的市场也基本上
保持每年10%以上的增长率
所以
这个增长很快的
无论从什么角度上来看
都属于一种相当快速的增长了
尤其是一些手游
或者是一些偏向潮玩
对 还有游戏
对
潮玩
潮玩这些在全部加进来之后
可能这个市场成长的速度
比我们想象的还要大
供给这方面实际上
也是一个大难题
因为动漫实际上
是一个特别手动的过程
所以它比我们很多人想象的
要更劳动密集的多
下次大家去看动漫的时候
可以注意一下
动漫后期的职员表
每一集的职员表都蛮长
而且里面还有很多是专门负责
某一个具体环节的外包公司
而这些外包公司下面
真的把它展开之后
每一个公司又是一个几百人的规模
也是很常见的事情
即使在这种情况下
可能现在
有30%到40%的动漫制作
甚至还是在纸张上进行
30%到40%
所以手绘它不是全部是这样的
可能电脑绘也占了百分之六七十
不不
手绘指的是人用手在画
这当中的百分之三十四十
可能还是在纸张上画
我了解了
电脑上画的
电脑上也画也属于手绘
也属于手绘
但是动漫这个行业工业化程度
集约化程度和数字化程度
比我们想象的要低很多很多
它更像小作坊
它更像是日本的一种非常具有
匠人精神 职人精神的
几个人在一起
我们做一个好的拉面店
因为这个原因
所以日本的很多动画公司
自己的营收也好
团队大小也好
也都有这样那样的问题
所以在动漫行业的绝对供给上
实际上是被人才和被管理体制
甚至从一定程度上来说
被技术 被约束住了
就因为存在这样供需方面的
一个很大的错位
所以导致了现在很多资本方
包括我们也是
我们更多像是一个 IP方
我们会看到全球动漫兴起的趋势
但问题是它的产能
又集中在少数几个国家
而且它扩张的速度并不快
所以这就导致了很强的
一个排期现象
一般做一集动漫或者
一集动漫电影大概多少钱
动漫的经费实际上比很多人
想象的要稳定很多
我们现在看一集电视剧的话
大概每一集在40万左右美元
40万美元
如果是纯日本生产的 IP
和已经有了漫画改编
制作方面再稍微精简一下的话
也还可以更低
即使我们最贵的动漫
一集一百多万的情况也会出现
但是一集比方说1000万美元
比如说欧洲我们拍的双城之战
双城之战属于预算非常非常高的
高到这种级别的预算
在日本动漫当中其实是相当罕见的
好莱坞也好
欧洲也好
在生产内容的预算上
比日本生产动漫要高了
不止一个数量级往往
你说好莱坞更贵
更贵
因为他们其实是缺人才
或者劳动力成本高
因为它是劳动密集型的
就是好莱坞其实现在
甚至没有好的动漫产能
3D的动画片
比如皮克斯或者梦工厂
他们的单集或者单作品的成本
真的是比动漫要高非常多
实际上动漫的生产纯从金钱的角度
来考虑还是比较便宜的
所以这又反方向
导致了好莱坞对于动漫的投资
现在有很大的兴趣
投日本动漫产业
对
中国动漫好吗
中国动漫其实现在
以非常快的速度在发展
B站和腾讯应该是两个最大的投资
OK
其实我们目前看到有
很多中国特别特别好的动画工作室
基本处于一个遍地开花的状态
当然中国动画有它的难处
它存在一定的人才密度的问题
那为什么日本现在
还是动漫首屈一指的国家
不仅仅是因为日本动漫
它的生产或者做的人多
另外一方面也是日本政府长期扶持
包括这一整个动漫工业
长期以来互相影响互相作用
而导致它产生了一堆
非常非常有才华的人
而做成的一种产业性的一个现象
中国愿意做动漫
愿意投资动漫的人可多了
但是从一个产业的成熟程度
跟日本相比来说还是差一些
话虽然这么说
中国尤其是在今年
非常多的非常非常好的国漫
可能今年之后要出的记忆管理局
现在已经在播的突变英雄
还有超能立方
包括今年年初的哪吒2
我觉得对于中国来说很可能
是一个破圈的时刻
我认为是有很大的可能性
能在制作的质量 效率方面
可以开始向日本追赶
对 我觉得你们如果做动漫的话
其实可能也是奔着
比较顶级的制作去的
放眼全世界
像你提到的这一类非常好的
动漫制作供应商
比如说像飞碟社这种
你觉得有多少家可以潜在的合作方
如果真掰掰手指数过来的话
可能不过十家
为什么
还是刚才讲的问题
确实存在一个根本性的
人才上的高度的需求
和现在生产模式上之间的一个差异
市场兴趣在这儿
但我们需要很多的人才
我们在人才之上
还需要很多很好的运营管理模式
全球的行业分布大概是日本最大
中国 韩国
甚至包括东南亚
其实有很多国家做的都不差
欧洲很好
但是很独特
欧洲可能他们做出来的动画的风格
跟我们所理解的二次元
中国和日本观众
都喜欢的动画不太一样
更偏艺术一些
对对
其实你刚刚在提到
像中国的这些动漫电影
包括哪吒的时候
我就在想可能风格上还是不太一样
除了说制作水平之外
它还有一个调性跟风格的问题
尤其是文化创意产品
其实比如说你在找合作方的时候
你可能看一眼他们的插画
你大概就能感觉到
是不是你们要的是不是
内容调性是一致的
完全是这样 完全是这样
尤其是在内容生产行业
我们说可能得有50%以上
都是关于团队对于一个作品的品味
所以国家跟国家之间确实存在
一种客观品味上的区别
并没有好坏之分
而是说美国之前
以漫威 DC 皮克斯也好
迪士尼也好
以这些审美价值观为核心
所诞生出来的这种美漫风格
或者是迪士尼的橡皮管的风格
皮克斯的3D风格
他们实际上跟观众之间
视觉语言形成的共鸣
跟日本和中国的这种
偏二次元的风格
其实还是有比较根本性的差距的
这实际上也客观导致了
因为我们作为一个
虽然是美国诞生的IP
但是因为我们视觉语言的DNA
实际上还是日本动漫DNA
Azuki最早是谁画的
Azuki的画家非常非常有来头
我们的艺术总监叫Steam Boy
是之前暴雪的角色设计总监
一手设计了之前很火的守望先锋
所有的这些第一批的角色
确实是一个业内的大佬
他自己也是在美国生活
对美国的这套工业也很理解
但反而因为他自己
实际上是个动漫迷
所以在一开始制作Azuki的时候
反而像日本和中国的
这个二次元的方向靠的更多一点
这实际上对我们来说造成了
一个很奇特的一种现象
因为我们作为一个美国的公司
反而在美国国内很难找到产能
因为美国国内的这种审美的偏好
跟我们所主打的这个偏好
还是有相当大的区别
是的是的
那好莱坞的拍片一般是怎么样的
像皮克斯或者是美国这边的
梦工厂illumination
或者甚至marvel这种
偏CG动画的制作模式
其实比较相近
它跟真人电影最不一样的地方
就是它不是通过摄像机拍出来的
而是通过人一张一张画出来的
比如说我们动漫
在几秒当中的一个动作
我们给它画15张到30张左右的
这样很容易光一整集
它就会有上千张手工
画出来的关键帧
它的这个制作成本和制作时间
实际上是很难以
瞬间工业化的一件事情
现在国内也好
美国也好
大家都很喜欢看短剧
其实短剧动漫能不能做
其实有很多人在考虑
我们也之前尝试过
最终发现一个很有意思的现象
就是动漫短剧的单秒成本
可能会高于真人
相机只要在这儿拍
它其实可以在很短的
单位时间之内
产生出非常多时长的一个成果
而动漫不一样
即使把它压缩到30秒
那这30秒当中的每一帧
也都需要有人来画
30秒大概要画多少张图
我们就按照每秒
大概十张左右来计算的话
30秒的话就有300张
300张图需要一个成熟的
熟练的动画师画多久
这个问题非常非常的好
这个问题其实也是动漫跟真人相比
有更大复杂度的一个地方
因为动漫每一张画的难度不一样
电影当中有的时候会出现特效
有的时候会出现演员的一些表演
我们当需要捕捉这些细节的时候
它摄影的难度就会增加
动漫也是
动漫实际上我现在
画一张静态的场景
跟我去画两个人在打斗的动作
这个就会产生
非常大的难度上的区别
我们现在就画一个人
他坐在一个公园里面喝咖啡
他大概率不会需要300张
他可能会需要十张
二十张左右
他就可以延伸到一分钟左右
因为他比较静态
他比较静态
如果说这个人他并不是在喝咖啡
他是在公园里面跑步或者遛狗
或者说他有很多的动作
他在公园里面跳舞
那这个就难多了
舞蹈的制作也好
表现也好
每一帧和每一章的难度
都会大幅提升
我想听到这里做AI的人
就会跳出来说了
300张相似的图片可不可以AI生成
这次也是你去日本考察
应该也是你考察的一个方向之一
对不对
是是是
结论是什么
不好说
总体来说是难的
其实我们希望达到的一种理想状态
和现在技术上能够做到的状态
中间还是有着相当大的差距
但是这个技术
确实发展的速度相当的快
比方说我们一开始可能有七个公司
包括像Google的VIO
OpenAI的Sora
硅谷的Pika Runway
在包括中国的比如混元
还有可灵这些所有的加起来
可能现在已经不止七个了
像B站
我记得前几天好像也发布了
一些自己他们做的研究
总之视频生成的这个领域
确实是相当的热
我们反而并不是一个技术方
反而是一个内容制作方
也是很希望更快的
有可以落地的场景出现
这次日本之行当中
我们也是跟现在
日本已有的动画公司也好了
或者是更AI驱动的
一些创业公司也好
有了非常多的交谈
你们是考察了两类公司
一类就是你说的排期
要到两三年以后的
专业的还在用手去绘制动画的
这样的一些工作室
我想这个应该是
在整个日本动漫产业中
占主流的这样的一批公司
或者说最顶尖的工作室
应该都是这样的一批
然后还有一批应该
你也是跟一些做AI
加动漫相关的公司也聊了一聊
能不能简单介绍一下
你聊的几类AI加动漫的公司
然后再从你制片人的角度
来去看一下它行不行
我们这次聊的公司
大概有三种不同的类型
第一种就是泓君
刚才你说的首先先做动漫
然后再考虑怎么把AI加进来的公司
这些就是我们
所知道的动漫的工作室
像飞碟社
Mappa Mad house
他们现在最希望的就是通过
使用AI给自己的生产线提高效率
动漫的工作生产资源现在