它的延迟越低
还有取决于你的并发量
就是你当下有多少个同时在处理的请求
这也会是影响你当前的延迟
但如果说是只是正常的这种云服务提供商
如果是闭源模型的话
Gemini 2.5 Flash它现在还不是特别低的延迟
但是2.0的Flash是非常快的
然后现在的OpenAI的话
因为它要解决这个延迟的问题
它除了4.1 mini
4.1 mini和4.1 nano其实也都很快
但是智能就不是很强
所以它会有一个平衡
就是你单论现在的任务来说
它哪个延迟是合适的
理解
所以看起来也是在一个你追我赶的情况中
你们会根据模型的发布随时去切换底层的模型
还是说其实你们是一个鸡尾酒架构
大家都在会在
会的 因为对于做Agent的公司来说
给我一个体验就是
你其实没有对于任何的一个模型有任何的忠诚度
谁的模型又快又好又便宜
我们就用谁的模型
好 Kimi
我补充两点
第一点就是我完全同意Shaun的
我觉得这取决于你做什么事情
我加一点你需要的是一个怎么来帮你选择最好的模型的
不是人为
而是一个非常可以被量化的一个选择的方式
比如说我们做代理化工作流的时候
我们就会把我们现在所有的模型都跑一遍
看哪一个模型在我们想做的任务上完成的效果最好
我们就选那个模型
第二点就是说正因为有这样的一个百家齐放的状态
这才有初创公司的机会
第一点
这个排行榜的排名我们看一看就可以了
它在这些综合上面的排名好
确实是有他的原因的
但是也有可能是有些水分的
没人知道
我不是说Google的水分
就是之前LLaMA 4在lmsys排行榜上排名非常好
lmsys是个人类投票的排行榜
就是人想要的排行榜
LLaMA 4干这件事情
它提交的一个特别的模型
就是让这个模型干的事情就是人类喜欢的事情
而不是说把它基座模型
或者把它的普通的LLaMA模型上传上去
所以说这个排行榜你看一下就可以了
会有一定水分
但不是说我说Google这个模型2.5 Pro有水分在里面
那正因为这个排行榜更多时候只是一个替代指标
你相当于自己一个评测来做这件事情
正因为你评测之后
你知道不同模型可以擅长干不同的事情
所以说这才有了初创企业
可以把不同的模型整合在一起
做一个非常高度复杂的任务系统
来切入一个垂直但极具深度的市场
对 所以你们也是根据你们的需求
对 我们有我们内部的非常完善的一套评测的机制
就跟我当年在DeepMind的时候一样
我当年是相当于是评测DeepMind这一个模型
我们现在是评测的都可能不是一个模型
是一个系统
这个系统里面有可能有很多个模型
了解
这次其实谷歌发布有一个让我印象非常深刻的点
就是它可以去做实时的语言翻译
比如说Google Meet
它会上线英语
实时翻译成西班牙语
Flash 2.5可以根据你的文本去生成二十多种语言的声音
因为我自己做播客
我其实是这些产品的一个非常深度的使用者
我在考虑的问题是
比如说我的中文播客
它如果能实时生成成英文了
只要我们内容做的好
是不是也可以在英文市场里面大家也可以来听
但是我在用这些模型的时候
我就发现它核心还不是说只是生成声音
因为生成声音很简单
但是你要让那个语音非常的自然流畅
而让用户听不出来AI感
这个还是有门槛的
就比如说ElevenLabs
他们的英文模型做的很好
但是他们的中文模型
生成两个字还行
但是生成一句话
他那个语音就非常外国人的腔调了
所以大家觉得这一类的产品
它考验的核心到底是模型能力还是工程能力
我觉得我们现在用的更多的产品
尤其是这种直接ToC的产品
其实更多时候还是个纯的模型的能力
未来Sam Altman说GPT5不是一个模型
是一个系统
我觉得未来大家会引入更多的系统的概念
但是现在
我们更多时候作为C端的终端用户
相当于是最直接地接触的模型的能力这个事情
那为什么有可能Gemini在这些上面的体验不会像ElevenLabs这么好
那就像我之前说的
你有很多个团队
这个模型要做很多事情
有可能有20个团队
就是说这个团队说我要增强它的编程能力
这个团队说我要增强它的创意性写作能力
然后另一个团队说我要增强它的比如说实时API能力
然后另一个团队说我要在实时里面增加不但是这个能力
中文能力 还有英文能力 还有西班牙语的能力
作为一个大公司
你不可避免的就得去做一个整合
在这个整合的情况下
自然会有一些取舍
导致了有可能比如说它的延迟非常低的同时
就会不可避免在一些表现上有一些落后
作为ElevenLabs
它要干好的就是一件事儿
它不用想任何数据配比的事情
它就要配进去最好的音频的数据
把这件事情做成
你想做的是一个更横向更浅层的任务
还是一个更垂直更深入的问题
本身这就相当于是区分了
是一个初创公司的机会
还是个大公司的机会
所以核心其实是看团队内部重视什么
我觉得是看优先级
我觉得都很重要 没有什么是不重要的
在Google内部 更多是优先级
那有可能对于初创企业而言
我优先级第一的事情有可能是Google的第30个重要的事情
当然这不在Google的路线图上
我把这件事做成了
我也可以获取一个非常大的市场
这不是我说的话
这是Sarah Guo在他的某一些播客里面说的一件事
你觉得考验的核心是工程能力还是模型能力呢
我觉得都有
我觉得没有直接的模型
没有直接的工程
如果是只给人一个模型的话
其实他的体验还是会非常差的
我只能说模型决定下限
工程决定上限
Shaun你是做语音产品的
你正好可以聊一下
语音产品其实很有意思
比如说文字输出
你到最后看的好坏
其实到最后只是每个人的偏好 喜好
但是语音类的这些东西的话
所有人都能听出这个东西到底是好还是坏的
就像你说的
如果你这个模型生成一个中文不好的时候
不用听两句话
听两三个词儿
我其实就知道说你这个生成的效果不好
这个是所有人都会有同样的感觉
我最早接触过比如说OpenAI的
也是叫做实时API
就是它能够实时做语音到语音的端到端处理
然后我看了Google Meet的Demo里边
我觉得几个东西给我印象非常的深刻
第一个是因为它是个实时的翻译
那你要保证它的信息是准确的
就是因为同声传译
而且跟它的语速语调也要保持一致的
而不是说所有听上来就是机器音
第二个的话就是它要保证它的速度是足够快的
可能最糟糕的体验就是这个人说完了一句话之后
你5秒之后你才翻译完
这个体验其实非常差
为了要解决可能两三百毫秒的延迟的问题的话
那它在工程角度来说也要解决很多问题
最后的话就是它很多翻译的东西是跟上下文是有关系的
那你这个上下文在同一个里面
它是怎么做的
它是不是应该把整个内容全都放到这个模型里
然后同时保证速度很快
这个其实我也不是很清楚
但是这几个都是它要解决实时同声传译的非常难点的东西
对 它后来也在AI眼镜上展示了这个功能
然后我当时的想法是
这个得多耗电呢
其实还好
因为从技术的角度来说的话
无非你是怎么到最后去实现这个东西
你传统的做法就是我可以开一个简单的
我无论是WebSocket或者说一个服务器端流式传输
你可以认为就是高阶版的不停地发请求而已
它只是发的频率稍微高一点
但它其实并不会特别耗电
而且他如果说控制那个硬件的设备的时候
你的这个音频的码率也不用特别高
所以它的这个数据量其实也没有你想象中的那么大
OK了解
我记得谷歌它还展示了一个demo就是Project Astra
它会帮一个用户去修自行车
包括中间我记得是有零件有什么问题的时候
还可以让大模型打电话
你会觉得比如说以后越来越多的Agent加入
模型或者像大公司
它可以直接给用户去打电话提供一些服务的话
会对你们的商业模式是有冲击吗
我们自己是主要作为医疗方面的B2B的这个模式更多了
现在并不会直接ToC
你说的是这个场景的话
其实对于很多ToC的公司确实是影响会非常的大
因为模型随着大公司这种模型能力很大
然后大部分大公司的第一要做的就是我能不能面向C端
我的用户能够扩大这个能力
所以针对这个C端的公司确实会有很强的冲击
然后你刚才说的打电话这个场景里边的话
其实这种很多打电话AI Agent可能就调一个工具就能做的这些事情的话
它的本身的门槛是越来越低的
你如果解决的这个垂直领域里边它的工具的量特别的少
或者它对于整个商业
整个流程的这个逻辑特别的少的话
那你确实是有可能会被大公司直接被取代掉的
对 所以有一种说法是谷歌I/O的发布会一开
感觉创业公司又要倒一批
你还记得去年的时候还是OpenAI一开发布会就创业公司倒一批
确实是啊
你看从你刚才说的试衣服
你应该知道像有很多公司
其实去年这一年可能就是根据虚拟试衣服的这些事情
有很多公司在做这个事情
那Google一出来之后
可能这个公司就没有了
Google做了
那Amazon肯定也会做
那你其实最大的几个购物网页上面都做了
那小公司就没什么机会了
所以ToC是一个非常难的事情
对 很有意思
就是关于试衣服的这个场景
其实正好昨天我在谷歌的现场有跟阿里的人聊到
他们其实一直在尝试这个场景
他们对这个功能的评价是
其实让用户试衣服这个点不重要
就是谷歌如果能把尺码搞对就很不错了
可能尺码是一个比你虚拟看一下自己穿着好不好看更痛点的问题
对 所以我觉得他的现在展示是直接发一张照片
我不知道你有没有看过用像苹果手机
或者说会有有光学雷达传感器的
它可以对你身体稍微扫描一下
其实你就拿这个手机离着自己转一圈
它其实可以把你自己的3D模型
大概你的高胖矮瘦之类的
就一次性就输入进去了
它现在只给你一个照片
但我觉得Google要去做这个事情也是非常容易
我们来说综合来看
就是你会怎么看谷歌在大模型这一轮竞争中的优劣势和它的生态位
我觉得Google的优势就是
第一个是它有自己的硬件的生态
它其实就不会依赖Nvidia提供这些硬件给它
那它在这个底层的时候就已经比大部分公司有这个优势了
基本上其实没有什么公司能做这个事情
第二个的话就是它有非常大的服务器的集群
因为它有整个的Google Cloud
它其实有无穷的算力
它因为它有自己的这个数据中心
那你能够做独立数据中心的公司也是非常少的
再往下面的话就是它有它的模型层的
有大量的数据去训练他的模型
我觉得大家离这个AGI越来越近的时候
其实训练的方法差距就已经不大了
那你谁能够获得最高质量的这些数据的公司
其实它的优势就非常大
那Google其实是有非常大的数据
这个是在模型层
最后的话就是在算法层
Google拥有他非常强的算法的团队
所以Google通过这一年的努力变到现在整个的模型的第一
我觉得一点都不奇怪
你刚刚提到的硬件生态 服务器集群模型层 跟算法层
总结来说就是Google它还是一家技术公司
它的技术是非常厉害的
这一点我认同 非常认同
但我觉得同时大家对Google的质疑是
Google它是一个产品基因不够强的公司
我们来看Google的明星产品
就感觉很多产品其实也做的很好了
但是它其实没有维持运转下去
你会怎么去看
如果要把这些技术变成一个非常强的有穿透力的产品
Google在产品上的布局是怎么样的
我觉得Google的产品一直是它的弱项
就是它自己也很难做出特别好的产品
所以我觉得Google这一波要做的其实就是
围绕着Gemini这个非常强的模型在打造自己的生态
你看它从自己的尝试
从Gemini的手机的应用到它的XR的眼镜
其实它不是发布了一个产品
它是一次性发布了可能10到20个产品
因为我觉得站在Google的角度来说
其实它也不确定哪个产品能跑出来
你如果关注过Google NotebookLM
那个其实大家都很知道对吧
其实它也是一个非常小的项目
突然火了之后Google就开始倾注资源
所以我觉得Google现在的趋势就是它不确定哪个产品会赢
但是它先把所有的产品都摆好自己的身位
一旦发现哪个产品真正的可能起飞了之后
它就开始往里面不停地砸资源
这个是我觉得Google现在在做的事情
你现在还会用NotebookLM
因为NotebookLM它最开始是一个你把所有的研究资料输入进去
它会给你特别好的整个输出的总结
按照几种模板来总结
同时你还可以根据这个总结去看它是引用的哪一块
但是它天才的产品经理在上面加了一个一键生成音频的功能
相当于它一下在整个播客圈就火了
就是我们可以把一个几十页的长文本
甚至是一本书
快速的通过一个十分钟的播客的语音的产品来有一个总结
我觉得这个产品在它刚刚发布的时候还是非常火的
但是现在我觉得它的声量小了很多
我不知道你还有没有持续的在用跟在关注
我觉得很多的信息
之后获取的途径大部分都是播客
这也是我先你们在做的主要原因
所以我觉得播客会变成一个非常常见的信息获取的渠道
所以我觉得他的这个非常聪明的一点就是
我把一个只要是任何的信息放到这个里边之后
它就会变成一个我能够接受的一个模式
变成我的个人的这样一个播客
我用过几次之后
我之后听的话会选择
比如说因为现在确实是长播客非常的多
我会稍微挑几个自己听
你会直接听长播客
还是把长播客总结一下
然后让它变成一个短播客来听
其实我也试过把自己的节目放进去
让它总结成一个短播客
我觉得它总结的效果还不错
但只能是英文版
对我自己会听一些比如说两三个小时那种长播客
因为我觉得那些播客的话能让我不会漏河任何的细节
任何只要我想知道的知识点的话
我可以再听一个播客就可以从头到尾都能够覆盖到了
而不会丢失中间的细节
以上就是我们对Google I/O本次发布的技术层面的解析
我们已经经历了OpenAI领先
DeepSeek冲击美股股价
到Gemini全面领先的好几轮AI竞争
我们可以看到
模型层面上的竞争
其实现在已经是在一个你追我赶
各领风骚100天的阶段
如果说谁都可以在大模型的这种竞争中保持暂时性领先
那我们应该如何去综合性地评估当今这些AI巨头的竞争力
下一集我们会聊一聊
发表回复