聊聊2025 Google I_O与Gemini背后的灵魂人物(1)

Hello 大家好
欢迎收听硅谷101
我是泓君
大家早上好
欢迎来到Google I/O
每年5月份
谷歌都会在山景城总部举办Google I/O
这是一个面向开发者的活动
每年谷歌都会在这个活动上集中发布一批的新产品
疫情之后
基本上每年我都会去Google I/O
我们来回顾一下前两年的情况
2023年谷歌正式向ChatGPT发起挑战
当时谷歌它也是发布了一款聊天机器人叫做Bard
它问詹姆斯韦伯太空望远镜的新发现
结果AI在回答中出现错误
导致谷歌的市值一夜蒸发超过千亿美元
2024年就在谷歌开会的前一天
OpenAI上线的4o模型效果震惊世界
甚至很多外媒犀利点评说
这是OpenAI故意在狙击谷歌
度过了失意的两年
回到今年
谷歌可以说破釜沉舟
打了一场漂亮的翻身之战
在这次开会的时候
模型端 Gemini 2.5模型全面霸榜
这一集我们就来深度揭秘一下
谷歌大模型Gemini背后的灵魂人物
以及谷歌推出的AI Mode到底能否应对大模型对搜索的冲击
华尔街又会如何看待谷歌在美股七巨头中的位置
最后这期节目不可避免的出现了一些中英混杂
因为嘉宾都是长期在英文的语境中工作
如果大家有听不懂的部分
我们会在B站和YouTube的视频平台上配上字幕
来尽可能的帮助大家理解
下面就请收听今天的节目
今天跟我在一起的嘉宾是CambioML的联合创始人Kimi Kong
Hello Kimi你好
Hello 你好
你之前也是在DeepMind
要不要跟听众简单介绍一下你自己
OK首先非常感谢今天的邀请
让我可以来到硅谷101播客
我也是硅谷101的忠实的听众
我现在是CambioML的联合创始人兼CTO
CambioML是一家YC S23的创业公司
主要的产品是AI Agent Energent.ai
我们的AI Agent可以帮你思考和行动
在创立CambioML之前
我是在Google DeepMind待了将近两年的时间
主要负责几个不同的模块
一方面是通过强化学习
帮Google来增加它的广告收入
我主要立了两个项目
一个是整个大语言模型的评测
我们帮Google做了刚开始的第一个用AI Agent
来帮Google优化广告投放和搜索结果的一个项目
在我完成这两个项目之后
我就离开了Google来做这家公司
去到Google之前
我在Amazon Web Services待了四年
主要主导了几个不同的Amazon的Microservice(微服务架构)
在去到Amazon之前
我是Stanford双硕士
我有机械和计算机两个学位

跟我们在一起的嘉宾还有一位是Shaun Wei
他是HeyRevia的创始人
之前在谷歌语音助手
Hello Shaun
Hello大家好
我是Shaun Wei
我们主要是一家AI contact center(人工智能呼叫中心)的公司
主要深耕在美国的医疗行业的call center(呼叫中心)
主要是针对比如说我的患者和医生之间的这些沟通
可以完全的用语音自动化
今年你有没有看Google I/O的直播
在这样的一场发布中
让你印象最深刻的一点是什么
我觉得Google l/O对我印象最深刻的是
Google对于整个模型和它整个产品的横向广度和纵向深度的整合
对于广度而言
它包含了现在多模态模型所需要的所有的不同的modality(模态)
从它的Gemini2.5 Pro多模态的模型
到它的Imagen图片生成模型
到它的Veo的视频生成模型
这个相当于说它给你提供了一个模型全家桶
可以让你完成各种不同的任务
对于纵向而言
它不是只是一个云端的一个搜索服务
它同时也可以相当于在可穿戴的安卓的XR上面
给我们展示了未来Google在不同纵向的深度里面的它的野心
所以对我而言
这是让我觉得Google对于它未来的一个全面布局的一个状态
是 Shaun呢
对我印象最深刻的是它的Text-to-video(文生视频)这个事情
因为大家在这个方向上面尝试了很多
无论你之前的OpenAI的Sora
还是之前文生图 文生音频
各种各样的尝试
其实大家都想达到的目标就是
我能不能用一个把我大脑里面想象的东西
变成一个电影的画面出来
我觉得终于是在Google这个发布会上面
我看到了真正意义上的可以从一个想法变成视频的发布
然后另一个的话
因为我之前做了很久的Google Assistant(助理)
大家一直都很想有一个真正意义上的AI陪伴着你
你有任何的问题
无论你是视频的 文字的 多模态的各种方式
这个AI都能够帮助你
以前没有实现
Google Assistant的时候没有实现
但是现在Gemini终于实现了它十年前的这个愿景
这个是让我印象非常深刻
对 你正好提到了Text-to-video
你是指的它的Veo 3的模型的发布
对不对
是的 它的Veo 3
对我看它这次发布
它不仅仅有视频的画面
它还有声音
从整个多模态的角度来讲
加入声音它会是一个门槛比较高的事情吗
你觉得它的发布跟当时Sora那几次文生视频的模型的发布
有什么区别呢
我能感觉到它是从文字变成了电影
它真正意义上变成了电影
Sora当时它们发布的其实也只是一个视频的画面
你看它当时Sora变成一个视频的时候
还有跟比如说ElevenLabs或者一些合作
去在后期加入这些声音
但是它在这个多模态理解的时候
比如说看到它很多视频里面
它的语音 背景 音效还有嘴型都能对得上
我觉得这个难度其实就非常难了
它对于你的整个模型
对于上下文的理解
对于可能整个物理世界的模式
大家还记得当时是威尔斯密斯吃面条
这才其实两年的时间
就已经从威尔史密斯吃面条
变成一个可以做出动作电影的状态了
对 所以其实加入音效还是挺关键的一个点
没错 是的
对 我自己也对今年的谷歌I/O印象很深
因为我觉得今年它们有一个特别大的优势
它们今年特别骄傲的就是Gemini 2.5的这个模型
2.5 Pro在它们发布的这个时间点你追我赶中
这一轮终于是Google最领先了
去年这个点的时候
其实是Google在发布以前被OpenAI给狙击了
它们把应该是4o的模型给推出来了
所以当时可以说去年发布会就被OpenAI抢了风头
今年模型最强
应用推广又很开
多模态也有新的进展
包括今年我觉得还有一个特别大的让我印象深刻的
就是Google把整个的搜索
就是它们整个商业模式的基石
搜索的入口给改了
改成了AI Mode
大家有关注Google新推出的AI Mode吗
简单理解我觉得它可能是把搜索的入口跟大模型相结合
相当于在传统的搜索框里面
你进去以后
它左边的有一个标签栏
它是加入了一个AI Mode的标签
然后你在问它一个问题的时候
大模型可以给你很精准的回答
甚至你还可以追问
它们后面还有一个demo可能也是跟Agent相关的
你想买一个衣服
它可以给你完成闭环到一键下单
当然这个demo我们可以之后详细地讨论
首先我们来聊一聊整个Google搜索上的一个变化
大家会如何看谷歌在搜索框加入AI Mode
你们觉得它会怎么样去影响谷歌的生态跟商业模式
我先说一下这个AI Mode
我之前特别巧合的是
它在发布会之前
其实我就尝试了一下AI Mode
我当时还拿这个AI Mode和Perplexity
还有OpenAI的搜索都稍微对比了一下
我觉得从效果来讲的话
AI Mode和之前那种搜索
就已经很大幅度的提升了上下文理解的能力
基本上能对于你的上下文的理解和搜索相关的信息
它已经可以搜索非常强大了
但是我觉得站在Google的这个搜索效果的角度来说
其实那一次我的测试的里边是OpenAI的测试
其实是比Google AI Mode当时的效果是要好的
我不知道这一次发布的时候是有没有更好一点
当然你刚刚说到的是Google的这个AI Mode
其实它是在革自己的命
我觉得这个是真的
因为Google 搜索的话
它的广告收入是一个最稳定的收入
从AI Mode的角度来说
就把传统的广告模式
它的营收模式完全就改变了
当然Pichai也说了
它是这十年里边对于搜索最大规模的一个变化
我相信他从UI的前端
就是用户进入搜索的界面上面
到最后提供结果的这个方案
他都应该是在Google内部里面做了非常大的提升
你提到你之前灰度测试了一下它的AI Mode
你可以讲一下你当时测试了什么样的场景
为什么你会觉得OpenAI的搜索功能会比谷歌更好吗
我当时想搜索一架正在天空中飞的飞机
它当时的具体的落地信息
因为它晚点了
那它就不是一个传统的
就是我会查一个正常的飞行时间表
因为我不太确定那个航班的航班号
我只知道它大概的方向
从A点到B点
我只是搜了这么一个信息
我让OpenAI, Google AI Mode和Perplexity同时搜索的信息
它的提示词当时就是我大概知道有架飞机从A点飞到B点
然后它大概是几点钟出发的
你能告诉我一下这个航班的详尽的信息
它大概在哪
在空中的哪个地方
有没有准点出发
它会不会晚点这样的一个信息
到最后其实AI Mode和Perplexity都输给了OpenAI
我非常好奇
我追问一下
是因为搜不出来这个结果
还是搜的结果不准
它都没有搜索出来这个结果
有意思 了解了
其实它就是要告诉我
当下在天空中飞的航班号能不能给我
结果只有OpenAI给了我正确的结果
有意思 Kimi怎么看AI搜索
我觉得首先搜索有可能真的是全世界最赚钱的生意
而且是所有人都垂涎欲滴的生意
我觉得很久以前
Satya Nadella说他最后悔的是当年Microsoft没有办法搜索这件事情做成
因为搜索太赚钱了
说回谁有能力做成这个事情本身
我觉得有可能Google是所有这些科技公司里面
最可以把AI搜索做得最好的
但是就像Shaun刚刚说的
它有多愿意去革自己的命
我觉得对于一个创新困境
我只能说Google半革了自己的命
因为现在Google的AI还是有两个产品
我永远不相信Google(没有)创新的能力
我也不担心Google没有人才
我觉得Google有可能真的是所有公司里面
人才密度最大的一家公司
为什么说半革命的这个状态
根本上还是有两个产品
一个叫AI Mode in Google.com
还有一个是它的Gemini.Google.com
但是根本上来说
Gemini和DeepMind
AI Lab和搜索
在Google内是两个完全不同的业务单位
但是怎么能把这个公司的流量入口给你整合到
让用户(觉得是)更加原生的AI搜索
而不是说一家公司推出的两个产品
我觉得这不是一个能力的问题
这是Google的意愿的问题
是它有多愿意深度革自己的命
那革了之后
怎么用AI搜索来产生新的营业收入
就原来有可能定向广告只是给你在搜索上
显示最前三个的推荐位的这种模式
怎么可以更加有效地嵌入这种AI模型的结果里面
我觉得这是Google得去思考的一个问题
但我觉得Google从根本上是有能力做这个事儿
更多是个意愿的问题
我们说到第二点
它为什么有能力做这个事儿
如果一个大模型想把一个任务做好
模型是一方面它的能力
然后除了模型以外
用户的指令是另一方面能力
我完全不担心谷歌模型对于用户的指令理解的能力
除了这个以外
更重要的一个东西是工具的调用
毫无疑问
Google它每年有超过90%的搜索入口的流量
导致它的搜索一定是在定向搜索里面做的是最好的一个
基于这个模型和它有世界上最好的工具 搜索引擎这件事情本身
我觉得我完全不担心Google可以把AI搜索做到一个天花板的能力
但有可能像Shaun说的
因为这个AI搜索还很新
Google内部也在进行大量自用测试
它们自己其实也有好几个版本的搜索系统
甚至都还在评估到底哪个搜索方式最适配AI模型
我觉得这是一个Google整合的能力
那就是说看Google一方面它有多少意愿来整合
第二 它整合的时候不要像之前那样出现翻车的情况就可以
你提到的这个工具的调用是指哪些工具
你应该浏览哪些网站
然后你应该搜索怎么样特定的网站
根本上来说 原来的搜索直接把结果给你了
现在相当于说大语言模型得通过Google 搜索这个工具
把东西整合成了一个更好的你想要的结果给你
那我觉得我短期可以非常理解
为什么OpenAI可以把这件事情做的好更好
有可能OpenAI相当于做AI 搜索会比Google领先了一段时间
包括产品层面
之前GPT的模型对于工具的调用有可能在2.5之前
也有可能领先于谷歌
现在Google拥有最好的模型
也拥有最强的搜索引擎工具
我觉得是一个Google可以开始打它的翻盘局了
对于它而言应该是个顺风局了
只是看Google愿不愿意把它的产品做一个更深度的整合
我希望看到是一个统一的产品
就是ChatGPT不止是聊天
还是一个整合的入口
是它们的入口的流量
Google现在流量是分散
对于一个用户而言
其实还是让人非常困惑的一个事情本身
我觉得这是Google在产品层面必须做出的一个战略决策
我觉得接下来我们可以把Google的AI Mode
跟它搜索的具体的展开放在一个场景里面
就比如说我现在脑子里面第一个出现的场景
就是当时Google在I/O上的一段演示
比如说一个女性要买一件衣服
她对这个衣服有一个大概的描述
描述完之后
谷歌就开始搜索
搜到了一堆这样的衣服的网站
接下来它可以去比价
看哪个网站在打折
然后给你一个最低价格
中间还有一个环节
她会把自己的照片也传上去
说我虚拟试一下这个衣服
看一下这个衣服是一个什么样的效果
我当时印象很深刻的是她是一个微胖的女生
而模特是一个非常瘦的模特
最后现场出来的效果
那个衣服穿在她身上依然是一个微胖的女生穿起来的效果
所以当时现场是有一阵欢呼的
之后她决定ok这个衣服我看到了
我穿的效果还不错 下单
Google是一键闭环
直接把这个单子给下了
我看它的支付系统用的是一个Google Pay的页面
也是一个Google钱包
整体上来说看起来以前我要搜索一件衣服
要去各个网站上比价
最终每一个网站注册
输入用户名 密码
然后再选尺码 再下单
是一个非常漫长的流程
而现在我通过Google搜索的AI Mode
我一键就可以下单了
你们觉得这样一个场景对谷歌来说可行吗
我知道很多人
就比如说做Agent的人
大家考虑的第一个问题是
我是不是要把我所有这些电商网站的密码都输入给谷歌
它都得有
我才能完成这样一个下单
我当时觉得那个也是很惊喜的一个场景
我相信大家都会去搜索很多衣服或者购物
其实对于男生的话
衣服可能倒还好
但有可能会比如说买一些硬件
GPU或者说买个显卡
就是买一些其他东西
也是会去跟踪一个东西的价格
我觉得它这一次的改变
有几个东西可能会让我印象很深刻
第一个是因为你传统的广告
比如说有可能你看到有一个展示型广告
你看到一次 我收一次的费
也有可能一种是点击广告
就是你进去了之后才会收你的费

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注