聊聊2025 Google I_O与Gemini背后的灵魂人物(3)

这只是比例问题
我认为Anthropic在这方面下了更多功夫
主要是也是看团队把哪一块儿放成是重点
你觉得DeepMind之前的重点在哪里呢
好问题 我觉得其实是非常综合的一个能力
之前我们就说我们想要编程 数学 推理 写作
我们会设定一个通用的评估指标体系
用于覆盖多个不同的评估维度
但是我知道我们之前有一些非常不擅长的东西
比如说写代码
其实因为这个不擅长
所以大家花了更多的努力进这个事情本身
所以这一波相当于说可以追上Anthropic的编程的能力
推理能力呢
也是重视程度吗
还是说它其实是你在整个后训练的过程中
你需要有一些特别的技巧
我觉得我还在Google的时候
其实Google还没有开始启动它的推理模型
就是我离开Google的时候
其实是o1刚开始出来的时候
当时的话有可能推理还是没有在它们这个优先级上的
我觉得他们更多是都是尝试赶上OpenAI的写作能力
比如说是解决问题的一些能力
目前的话
我觉得更多时候就是数据配比的问题
他们会配入了更多的对齐
不只是说对齐这个人为偏好
因为OpenAI刚开始出的时候是人偏好这个结果
所以Google干的第一件事
我想追上OpenAI做出来的人偏好的结果
但是很多时人候是非常有限的
如果人偏好这件事情非常难做 什么好做
编程有可能好做
Anthropic做成这个事情
Google说我现在不单只想追上人类偏好这件事情本身
我也想写出非常牛的代码出来
那当有非常牛的代码出来之后
OpenAI又做了推理这个事情
我想做的模型不只是做出人想要的东西
不只是写出牛的代码
而且它应该有个非常缜密的逻辑
让大家知道怎么来解决这个问题
当他把这件事情做成之后
我觉得目前Google开始引领这个潮流了
我现在有最牛的东西之后
我怎么再去引领潮流
让别人成为我的追赶者
数学问题是Grok做的比较好
就是马斯克成立的一家模型公司
因为我看它们创始团队的成员是有非常顶尖的数学家的
它们也一直在解决世界上很难的数学问题
我觉得我的数学能力可能没有办法达到顶尖数学家的水平
这是一个先有鸡还是先有蛋的问题
非常有意思
你需要有人这个能力才能评测这个模型好或者不好
那如果作为一个软件工程师出身
我觉得我可以对于这个模型在代码能力也有非常直观的评价
但是有两方面是这个模型只是能写出
可以进生产的代码
还是说这个模型只是擅长编程
我觉得是两个不一样的事情
我觉得Dario原来有个非常有趣的说法是说
我希望我的编程模型不是说只是解决LeetCode的难题
因为LeetCode的题目其实是没有直接的商业价值的
他希望的是我的编程模型可以写出高质量代码
作为Shaun或者我们的初创企业
可以直接把这代码进入生产
我觉得这是Anthropic非常专注的一个事情
说回这个数学编程的问题本身
我觉得也是分为两方面
是有多少人需要深入解决这种高深的奥数的问题
那我可能这个是可以用来展示的模型的肌肉的一个能力
除了解决这种高深的奥数的问题的时候
怎么样可以把数学问题接入初创企业
或者接入不同的这种公司里面
让他们可以产生直接的一个商业价值
我觉得这是有可能更多的商业公司去思考的一个问题
理解
你觉得你在的时候谁是DeepMind的灵魂人物呢
比如说是Demis还是 我看Brin最近也回来了
他应该准确来说是2023年就回来了
只是最近才开始高调亮相
你觉得谷歌的模型是谁的价值观更多一点
谷歌是谁
我觉得Gemini之前是Jeff Dean和Oriol Vinyals他们俩在共同领导的这个模型
我觉得之前是这两位Google的灵魂人物
因为Jeff Dean有可能真的是一个计算机科学的活化石了
大家经常开玩笑说
Jeff Dean如果你写它的简历上不干什么事
有可能会比他在简历上写干什么事会短很多
所以因为Jeff Dean干的事情太多
所以我们只写Jeff Dean没有干什么事情
这样可以在一页上写完Jeff Dean的整个的人生的成就
Jeff Dean就可能是非常擅长
完全是预训练
因为预训练就是一个对于数据
对于集群大量的调调度
Oriol原来是做AlphaGo AlphaStar AlphaZero和MuZero的灵魂人物
就原来DeepMind的一群人物
他们其实对强化学习有更深的深入
所以基于原来Google最擅长的预训练的部分
加上DeepMind最擅长的强化对齐的事情
所以让Google可以快速地追赶上竞争对手的步伐
同时在对于Character.AI的收购
又重新赢回了Noam Shazeer
我觉得这有可能对我而言是我最尊敬的一个人
因为他对于自然语言处理的深耕是非常久的
从Attention is All You Need
到最后面的Grouped Query Attention
再加上Noam Shazeer的回归
我觉得他们三足鼎立把这个事情不是一个预训练和一个对齐的
而是说把它整合成一个有机的一个迭代流程来做模型
能力不断的提升
我觉得这样子的话
让Google的整体处境改善了很多
我觉得这三个人有可能都是我非常尊敬的
觉得是让Google可以这一波非常快速赶上它的竞争对手的能力
就是Jeff Dean对于整个Google的基建能力
Oriol Vinyals对于对齐的能力
还有Noam Shazeer对于整个自然语言处理非常深入的认知
听下来非常有意思
但你觉得Demis在中间的作用是怎么样的
就是DeepMind跟Google本身训练模型的团队之间的关系是什么呢
我觉得当原来Google Brain和DeepMind还没有合并的时候
我觉得他们是完全走的更多是两种不一样的思路
我觉得DeepMind的强化学习非常强大
这是为什么Google收购它的原因
Google本身是对于它瞬间调度大量的资源来规模化它的训练
预训练或者监督微调的能力
预训练能力我觉得Google还是非常强
我觉得最后其实是一个强强连手的过程
而Google擅长的事情和DeepMind擅长事情做了一个非常强强的整合
再后来我觉得Demis扮演的能力更多是一个领导和管理的能力
有可能原来我作为一个IC(个人贡献者)的时候
我有可能只要写代码就可以把我的每天的工作完成了
但是当你自己运营一家公司的时候
我逐渐意识到
工作不仅仅是把任务完成而已
更主要的是怎么去可以去激励这些最极顶聪明的一群人
有一个共同的方向把一件事情完成
我觉得这是非常难的一件事情
因为极顶聪明的人
每个人都自己有自己极度的想法
大家相当于是非常不愿意去听从他人的
我觉得Demis相当于扮演了一个这样非常好的角色
把相当于两个刚整合起来的公司整合成了一个有机的整体
有一个共同的目标
我们想实现AGI这个目标
然后大家所有人都朝着这个目标
把你最擅长的能力都拿出来
把这件事情做成
有意思
所以Jeff Dean跟Demis他们的关系是怎么样的
Jeff Dean现在应该是首席科学家
Demis应该是CEO
相当于他向Demis汇报
好像Jeff Dean是不向Demis汇报的
至少我走的时候是
我不知道现在内部是什么样
至少我走的时候Demis和Jeff Dean都直接向Sundar汇报
那你觉得Sergey Brin
Google的创始人之一回来
你们会有什么样的变化吗
首先我已经不在里面了
就是应该说他们不是我们
对 你在的时候应该是他刚好着手抓的时间点
我觉得Sergey Brin给Google的应该是更多的是一个Founder Mode
创始人的一个状态
就跟AI Mode一样
他说他带回来了一个Founder Mode
让大家知道应该是以什么样的一个投入
和什么样的一个方式来完成这项工作
如果这个创始人都回来做这件事了
创始人都在那儿一周待60个小时
你作为一个Google的员工
你难道好意思干40小时就回家吗
所以真的是一周60个小时
有些团队是这样子的
我知道我一些朋友原来是在比如说图像生成的团队
他们就是说Sergey Brin回来说这个Meta又出了一个新的模型
我们的模型什么时候可以出来
大家知道
得了吧 周末加班去吧
我觉得更多时候是个Founder Mode
对于大家非常鼓舞士气的一件事情本身
我觉得我说的有点多了
我觉得我们可以让Shaun来阐明一下这件事情
对 Shaun你怎么看Gemini 2.5 Pro
我觉得Kimi已经讲的很好了
这已经把该讲的都给你讲了
不能讲的我觉得也讲的差不多
所以我就从一个外面的角度来说
因为我也在Google干过
其实大家都知道整个Google的人才密度是非常高的
其实大部分人之前都处在一个非常躺平的状态
因为广告太赚钱了
大部分团队都不用特别的拼命去做些事情
但是这一波AI其实起来了之后
尤其是从去年OpenAI抢了Google很多的风头之后
再加上Sergey回来了
整个Founder Mode之后
我知道整个的Gemini团队的士气都非常得高涨
大家其实是拼了一口气
就觉得说AGI如果说要有人做出来的话
那是不是就应该是Google能做得出来
Google有最大的计算机
有最优秀的人才在里边
基本上还有无限的资源
再加上Sergey也冲回来了
所以其实站在从外面的角度来说
看到这一波整个Gemini的崛起
其实也就可能花了一年的时间
大家从去年的I/O被抢了风头
到今年的Gemini2.5就直接霸榜了
所有的都在第一名了
你看连OpenAI可能今年也没有办法去抢这个风头了
那接下来还有一个问题
其实大家现在看到的是Gemini它的模型做的很好
但是我知道在很久之前OpenAI跟Anthropic
它们接入API价格很高的时候
其实Gemini它的整个大模型它已经是把它的token价格降到了
当时对比了一下
可能就是OpenAI价格的1/5到1/10
当然最新的数据它有没有反向去促使其他两家又在降价
我没有去看啊
但整体来说基本上在开发者的社区里面
大家都知道Gemini它的API接入成本跟token成本是很低的
我很好奇它这个价格是怎么样降下来的
我自己看的话可能是主要是三方面
第一个是Google应该是从十年前就开始大量地投入GPU了
当然它是叫TPU
我觉得它们当时就想的很清楚
如果说整个的Google Cloud如果发展起来的话
它没有办法不停地去向Nvidia
或者是像AMD去买这些GPU
所以它自己从十年前就开始慢慢的深耕整个的TPU的生态
它本身的TPU的迭代速度
尤其是这两年明显也变快了
因为它的需求非常大
所以它自己拥有这个TPU
它就避免了很多这种Nvidia的税
你不用单独去等这个Nvidia的这些新的GPU出来
你要跟别人去抢
第二个的话就是Google它本身有很强的Infra
大家其实都知道这Google的Infra非常的强
所以它已经有基本上无限的资源了
所以它其实就是要想清楚怎么去动态地调度这些
它的动态的调度这些机器的能力是远强于像OpenAI像Anthropic
因为OpenAI和Anthropic它自己还是没有自己的数据中心
Grok现在很强
做了一个世界上最大的GPU的集群
但是大部分的这些公司其实是没有能力去调度这么大的一个集群的
它其实依赖的是第三方
比如说像Amazon或者像Microsoft它们的云服务来做这个事情
所以它其实还是用别人的这套Infra来做这个事情
然后第三个的话就是因为它能够去定制自己的硬件
能够去调用更大的集群
它自己在优化自己的模型的时候
也会相当于你的软件和硬件就一体化了
所以它能在你的硬件上面发挥的能力也会更强一点
然后它自己还有整个的这个开发者生态
Kimi有补充的吗
首先我非常同意Shaun说的
Google整个内部的Infra能力其实真正非常强的
很久以前SemiAnalysis出了一个非常有意思的报告
来对不同的GPU云服务打分排名
比如说它们排名最上面是这种CoWeave
因为我知道OpenAI用的其实是CoWeave来做整个GPU的调度的
然后我就是当时给我联合创始人开了一个玩笑
我觉得其实我说再往上还有一个
最牛的应该是有Google内部
就是它的内部的Infra能力真的是非常的强的
我觉得我再多说一点
其实我们虽然觉得已经API非常的便宜了
但是我们没有任何人知道API的成本价到底是多少
唯一我们能看到的一个线索是当年DeepSeek在发它的
那个论文叫啥我都有点不记得了
就DeepSeek那篇文章里面说了
其实DeepSeek大概是有80%的溢价空间的
就它的成本价
只有它现在收费价格的20%左右
你看DeepSeek的模型是那个体量
它用的是GPU
你可以返回来估OpenAI的
有可能它的利润是非常高的
对于Google而言
它不需要通过API赚钱了
它相当于说它的搜索已经足够养活它了
它可以相当于说只是收你一个白菜价
保证它收支平衡
它就可以做这个事儿
但是别反驳我
我不是说它一定就是一个收支平衡的白菜价
就是它的这个成本
就它有足够的资本可以
把它来价格降到有可能就是成本价的一个状态来做这个事情
理解 这个信息量超级大了
大家现在其实也都在做AI Agent相关的创业
你们在自己做创业的时候
因为你们底层肯定要选一个模型来在上面去搭建
你们会怎么样去选模型呢
就站在我的角度来说
没有最好的模型
只有最适合你的模型
很多做Agent到最后
你会拆分的是它的很多是不同的任务类型
无论你是分析文字 分析文件 分析图片
那你当下你觉得哪个模型最适合你当前的这个任务
那个模型是最适合你的
当然我们自己在观测
当然因为我们现在自己做很多打电话相关的东西
那其实对于我们最敏感的就是它的延迟和稳定
因为你基本上有一定的延迟的跳跃
对面一听这个电话可能就有个1到2秒的延时
这个体验就非常糟糕了
所以我们自己在选择模型的时候也会去平衡这个
比如说有一些特别敏感的东西
或者说特别需要实时的东西
我是不是应该自己搭建
就是连外面的这些闭源模型都不用
如果说有一些对于时间不是特别计较的
但是对于成本比较在意的
因为它可能有将近要512K的上下文窗口的时候
这个时候我可能就选一个
比如说Gemini这种Flash或者Pro
我如果它智能要求高的话
那我就会用它
因为它比较便宜
那我如果说是需要一些更强大的模型
或者说使用习惯
OpenAI整体的对你的提示词理解
对于指令理解执行能力
我觉得可能跟我之前的调配的方式还是比较有用
还有我的很多的这些数据设置也都是基于这个的
那我可能还是会有一些OpenAI的东西
然后再加上现在Claude这些模型
它对于agentic(代理化)的能力非常的强
你如果是一些纯的代理化工作流程的时候就会选择这些
所以站在我的角度来说的话
其实并没有最好的一个模型
而是说你当下你的这个场景里面选择哪个模型比较合适
哪个模型延迟低
因为延时这个东西是根据你的模型大小有关系
其实你的模型越小

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注