分类: Uncategorized

  • 聊聊2025 Google I_O与Gemini背后的灵魂人物(5)

    华尔街是如何看待谷歌现在在美股七巨头中的位置
    我是泓君
    请大家持续关注我们

  • 聊聊2025 Google I_O与Gemini背后的灵魂人物(3)

    这只是比例问题
    我认为Anthropic在这方面下了更多功夫
    主要是也是看团队把哪一块儿放成是重点
    你觉得DeepMind之前的重点在哪里呢
    好问题 我觉得其实是非常综合的一个能力
    之前我们就说我们想要编程 数学 推理 写作
    我们会设定一个通用的评估指标体系
    用于覆盖多个不同的评估维度
    但是我知道我们之前有一些非常不擅长的东西
    比如说写代码
    其实因为这个不擅长
    所以大家花了更多的努力进这个事情本身
    所以这一波相当于说可以追上Anthropic的编程的能力
    推理能力呢
    也是重视程度吗
    还是说它其实是你在整个后训练的过程中
    你需要有一些特别的技巧
    我觉得我还在Google的时候
    其实Google还没有开始启动它的推理模型
    就是我离开Google的时候
    其实是o1刚开始出来的时候
    当时的话有可能推理还是没有在它们这个优先级上的
    我觉得他们更多是都是尝试赶上OpenAI的写作能力
    比如说是解决问题的一些能力
    目前的话
    我觉得更多时候就是数据配比的问题
    他们会配入了更多的对齐
    不只是说对齐这个人为偏好
    因为OpenAI刚开始出的时候是人偏好这个结果
    所以Google干的第一件事
    我想追上OpenAI做出来的人偏好的结果
    但是很多时人候是非常有限的
    如果人偏好这件事情非常难做 什么好做
    编程有可能好做
    Anthropic做成这个事情
    Google说我现在不单只想追上人类偏好这件事情本身
    我也想写出非常牛的代码出来
    那当有非常牛的代码出来之后
    OpenAI又做了推理这个事情
    我想做的模型不只是做出人想要的东西
    不只是写出牛的代码
    而且它应该有个非常缜密的逻辑
    让大家知道怎么来解决这个问题
    当他把这件事情做成之后
    我觉得目前Google开始引领这个潮流了
    我现在有最牛的东西之后
    我怎么再去引领潮流
    让别人成为我的追赶者
    数学问题是Grok做的比较好
    就是马斯克成立的一家模型公司
    因为我看它们创始团队的成员是有非常顶尖的数学家的
    它们也一直在解决世界上很难的数学问题
    我觉得我的数学能力可能没有办法达到顶尖数学家的水平
    这是一个先有鸡还是先有蛋的问题
    非常有意思
    你需要有人这个能力才能评测这个模型好或者不好
    那如果作为一个软件工程师出身
    我觉得我可以对于这个模型在代码能力也有非常直观的评价
    但是有两方面是这个模型只是能写出
    可以进生产的代码
    还是说这个模型只是擅长编程
    我觉得是两个不一样的事情
    我觉得Dario原来有个非常有趣的说法是说
    我希望我的编程模型不是说只是解决LeetCode的难题
    因为LeetCode的题目其实是没有直接的商业价值的
    他希望的是我的编程模型可以写出高质量代码
    作为Shaun或者我们的初创企业
    可以直接把这代码进入生产
    我觉得这是Anthropic非常专注的一个事情
    说回这个数学编程的问题本身
    我觉得也是分为两方面
    是有多少人需要深入解决这种高深的奥数的问题
    那我可能这个是可以用来展示的模型的肌肉的一个能力
    除了解决这种高深的奥数的问题的时候
    怎么样可以把数学问题接入初创企业
    或者接入不同的这种公司里面
    让他们可以产生直接的一个商业价值
    我觉得这是有可能更多的商业公司去思考的一个问题
    理解
    你觉得你在的时候谁是DeepMind的灵魂人物呢
    比如说是Demis还是 我看Brin最近也回来了
    他应该准确来说是2023年就回来了
    只是最近才开始高调亮相
    你觉得谷歌的模型是谁的价值观更多一点
    谷歌是谁
    我觉得Gemini之前是Jeff Dean和Oriol Vinyals他们俩在共同领导的这个模型
    我觉得之前是这两位Google的灵魂人物
    因为Jeff Dean有可能真的是一个计算机科学的活化石了
    大家经常开玩笑说
    Jeff Dean如果你写它的简历上不干什么事
    有可能会比他在简历上写干什么事会短很多
    所以因为Jeff Dean干的事情太多
    所以我们只写Jeff Dean没有干什么事情
    这样可以在一页上写完Jeff Dean的整个的人生的成就
    Jeff Dean就可能是非常擅长
    完全是预训练
    因为预训练就是一个对于数据
    对于集群大量的调调度
    Oriol原来是做AlphaGo AlphaStar AlphaZero和MuZero的灵魂人物
    就原来DeepMind的一群人物
    他们其实对强化学习有更深的深入
    所以基于原来Google最擅长的预训练的部分
    加上DeepMind最擅长的强化对齐的事情
    所以让Google可以快速地追赶上竞争对手的步伐
    同时在对于Character.AI的收购
    又重新赢回了Noam Shazeer
    我觉得这有可能对我而言是我最尊敬的一个人
    因为他对于自然语言处理的深耕是非常久的
    从Attention is All You Need
    到最后面的Grouped Query Attention
    再加上Noam Shazeer的回归
    我觉得他们三足鼎立把这个事情不是一个预训练和一个对齐的
    而是说把它整合成一个有机的一个迭代流程来做模型
    能力不断的提升
    我觉得这样子的话
    让Google的整体处境改善了很多
    我觉得这三个人有可能都是我非常尊敬的
    觉得是让Google可以这一波非常快速赶上它的竞争对手的能力
    就是Jeff Dean对于整个Google的基建能力
    Oriol Vinyals对于对齐的能力
    还有Noam Shazeer对于整个自然语言处理非常深入的认知
    听下来非常有意思
    但你觉得Demis在中间的作用是怎么样的
    就是DeepMind跟Google本身训练模型的团队之间的关系是什么呢
    我觉得当原来Google Brain和DeepMind还没有合并的时候
    我觉得他们是完全走的更多是两种不一样的思路
    我觉得DeepMind的强化学习非常强大
    这是为什么Google收购它的原因
    Google本身是对于它瞬间调度大量的资源来规模化它的训练
    预训练或者监督微调的能力
    预训练能力我觉得Google还是非常强
    我觉得最后其实是一个强强连手的过程
    而Google擅长的事情和DeepMind擅长事情做了一个非常强强的整合
    再后来我觉得Demis扮演的能力更多是一个领导和管理的能力
    有可能原来我作为一个IC(个人贡献者)的时候
    我有可能只要写代码就可以把我的每天的工作完成了
    但是当你自己运营一家公司的时候
    我逐渐意识到
    工作不仅仅是把任务完成而已
    更主要的是怎么去可以去激励这些最极顶聪明的一群人
    有一个共同的方向把一件事情完成
    我觉得这是非常难的一件事情
    因为极顶聪明的人
    每个人都自己有自己极度的想法
    大家相当于是非常不愿意去听从他人的
    我觉得Demis相当于扮演了一个这样非常好的角色
    把相当于两个刚整合起来的公司整合成了一个有机的整体
    有一个共同的目标
    我们想实现AGI这个目标
    然后大家所有人都朝着这个目标
    把你最擅长的能力都拿出来
    把这件事情做成
    有意思
    所以Jeff Dean跟Demis他们的关系是怎么样的
    Jeff Dean现在应该是首席科学家
    Demis应该是CEO
    相当于他向Demis汇报
    好像Jeff Dean是不向Demis汇报的
    至少我走的时候是
    我不知道现在内部是什么样
    至少我走的时候Demis和Jeff Dean都直接向Sundar汇报
    那你觉得Sergey Brin
    Google的创始人之一回来
    你们会有什么样的变化吗
    首先我已经不在里面了
    就是应该说他们不是我们
    对 你在的时候应该是他刚好着手抓的时间点
    我觉得Sergey Brin给Google的应该是更多的是一个Founder Mode
    创始人的一个状态
    就跟AI Mode一样
    他说他带回来了一个Founder Mode
    让大家知道应该是以什么样的一个投入
    和什么样的一个方式来完成这项工作
    如果这个创始人都回来做这件事了
    创始人都在那儿一周待60个小时
    你作为一个Google的员工
    你难道好意思干40小时就回家吗
    所以真的是一周60个小时
    有些团队是这样子的
    我知道我一些朋友原来是在比如说图像生成的团队
    他们就是说Sergey Brin回来说这个Meta又出了一个新的模型
    我们的模型什么时候可以出来
    大家知道
    得了吧 周末加班去吧
    我觉得更多时候是个Founder Mode
    对于大家非常鼓舞士气的一件事情本身
    我觉得我说的有点多了
    我觉得我们可以让Shaun来阐明一下这件事情
    对 Shaun你怎么看Gemini 2.5 Pro
    我觉得Kimi已经讲的很好了
    这已经把该讲的都给你讲了
    不能讲的我觉得也讲的差不多
    所以我就从一个外面的角度来说
    因为我也在Google干过
    其实大家都知道整个Google的人才密度是非常高的
    其实大部分人之前都处在一个非常躺平的状态
    因为广告太赚钱了
    大部分团队都不用特别的拼命去做些事情
    但是这一波AI其实起来了之后
    尤其是从去年OpenAI抢了Google很多的风头之后
    再加上Sergey回来了
    整个Founder Mode之后
    我知道整个的Gemini团队的士气都非常得高涨
    大家其实是拼了一口气
    就觉得说AGI如果说要有人做出来的话
    那是不是就应该是Google能做得出来
    Google有最大的计算机
    有最优秀的人才在里边
    基本上还有无限的资源
    再加上Sergey也冲回来了
    所以其实站在从外面的角度来说
    看到这一波整个Gemini的崛起
    其实也就可能花了一年的时间
    大家从去年的I/O被抢了风头
    到今年的Gemini2.5就直接霸榜了
    所有的都在第一名了
    你看连OpenAI可能今年也没有办法去抢这个风头了
    那接下来还有一个问题
    其实大家现在看到的是Gemini它的模型做的很好
    但是我知道在很久之前OpenAI跟Anthropic
    它们接入API价格很高的时候
    其实Gemini它的整个大模型它已经是把它的token价格降到了
    当时对比了一下
    可能就是OpenAI价格的1/5到1/10
    当然最新的数据它有没有反向去促使其他两家又在降价
    我没有去看啊
    但整体来说基本上在开发者的社区里面
    大家都知道Gemini它的API接入成本跟token成本是很低的
    我很好奇它这个价格是怎么样降下来的
    我自己看的话可能是主要是三方面
    第一个是Google应该是从十年前就开始大量地投入GPU了
    当然它是叫TPU
    我觉得它们当时就想的很清楚
    如果说整个的Google Cloud如果发展起来的话
    它没有办法不停地去向Nvidia
    或者是像AMD去买这些GPU
    所以它自己从十年前就开始慢慢的深耕整个的TPU的生态
    它本身的TPU的迭代速度
    尤其是这两年明显也变快了
    因为它的需求非常大
    所以它自己拥有这个TPU
    它就避免了很多这种Nvidia的税
    你不用单独去等这个Nvidia的这些新的GPU出来
    你要跟别人去抢
    第二个的话就是Google它本身有很强的Infra
    大家其实都知道这Google的Infra非常的强
    所以它已经有基本上无限的资源了
    所以它其实就是要想清楚怎么去动态地调度这些
    它的动态的调度这些机器的能力是远强于像OpenAI像Anthropic
    因为OpenAI和Anthropic它自己还是没有自己的数据中心
    Grok现在很强
    做了一个世界上最大的GPU的集群
    但是大部分的这些公司其实是没有能力去调度这么大的一个集群的
    它其实依赖的是第三方
    比如说像Amazon或者像Microsoft它们的云服务来做这个事情
    所以它其实还是用别人的这套Infra来做这个事情
    然后第三个的话就是因为它能够去定制自己的硬件
    能够去调用更大的集群
    它自己在优化自己的模型的时候
    也会相当于你的软件和硬件就一体化了
    所以它能在你的硬件上面发挥的能力也会更强一点
    然后它自己还有整个的这个开发者生态
    Kimi有补充的吗
    首先我非常同意Shaun说的
    Google整个内部的Infra能力其实真正非常强的
    很久以前SemiAnalysis出了一个非常有意思的报告
    来对不同的GPU云服务打分排名
    比如说它们排名最上面是这种CoWeave
    因为我知道OpenAI用的其实是CoWeave来做整个GPU的调度的
    然后我就是当时给我联合创始人开了一个玩笑
    我觉得其实我说再往上还有一个
    最牛的应该是有Google内部
    就是它的内部的Infra能力真的是非常的强的
    我觉得我再多说一点
    其实我们虽然觉得已经API非常的便宜了
    但是我们没有任何人知道API的成本价到底是多少
    唯一我们能看到的一个线索是当年DeepSeek在发它的
    那个论文叫啥我都有点不记得了
    就DeepSeek那篇文章里面说了
    其实DeepSeek大概是有80%的溢价空间的
    就它的成本价
    只有它现在收费价格的20%左右
    你看DeepSeek的模型是那个体量
    它用的是GPU
    你可以返回来估OpenAI的
    有可能它的利润是非常高的
    对于Google而言
    它不需要通过API赚钱了
    它相当于说它的搜索已经足够养活它了
    它可以相当于说只是收你一个白菜价
    保证它收支平衡
    它就可以做这个事儿
    但是别反驳我
    我不是说它一定就是一个收支平衡的白菜价
    就是它的这个成本
    就它有足够的资本可以
    把它来价格降到有可能就是成本价的一个状态来做这个事情
    理解 这个信息量超级大了
    大家现在其实也都在做AI Agent相关的创业
    你们在自己做创业的时候
    因为你们底层肯定要选一个模型来在上面去搭建
    你们会怎么样去选模型呢
    就站在我的角度来说
    没有最好的模型
    只有最适合你的模型
    很多做Agent到最后
    你会拆分的是它的很多是不同的任务类型
    无论你是分析文字 分析文件 分析图片
    那你当下你觉得哪个模型最适合你当前的这个任务
    那个模型是最适合你的
    当然我们自己在观测
    当然因为我们现在自己做很多打电话相关的东西
    那其实对于我们最敏感的就是它的延迟和稳定
    因为你基本上有一定的延迟的跳跃
    对面一听这个电话可能就有个1到2秒的延时
    这个体验就非常糟糕了
    所以我们自己在选择模型的时候也会去平衡这个
    比如说有一些特别敏感的东西
    或者说特别需要实时的东西
    我是不是应该自己搭建
    就是连外面的这些闭源模型都不用
    如果说有一些对于时间不是特别计较的
    但是对于成本比较在意的
    因为它可能有将近要512K的上下文窗口的时候
    这个时候我可能就选一个
    比如说Gemini这种Flash或者Pro
    我如果它智能要求高的话
    那我就会用它
    因为它比较便宜
    那我如果说是需要一些更强大的模型
    或者说使用习惯
    OpenAI整体的对你的提示词理解
    对于指令理解执行能力
    我觉得可能跟我之前的调配的方式还是比较有用
    还有我的很多的这些数据设置也都是基于这个的
    那我可能还是会有一些OpenAI的东西
    然后再加上现在Claude这些模型
    它对于agentic(代理化)的能力非常的强
    你如果是一些纯的代理化工作流程的时候就会选择这些
    所以站在我的角度来说的话
    其实并没有最好的一个模型
    而是说你当下你的这个场景里面选择哪个模型比较合适
    哪个模型延迟低
    因为延时这个东西是根据你的模型大小有关系
    其实你的模型越小

  • 聊聊2025 Google I_O与Gemini背后的灵魂人物(4)

    它的延迟越低
    还有取决于你的并发量
    就是你当下有多少个同时在处理的请求
    这也会是影响你当前的延迟
    但如果说是只是正常的这种云服务提供商
    如果是闭源模型的话
    Gemini 2.5 Flash它现在还不是特别低的延迟
    但是2.0的Flash是非常快的
    然后现在的OpenAI的话
    因为它要解决这个延迟的问题
    它除了4.1 mini
    4.1 mini和4.1 nano其实也都很快
    但是智能就不是很强
    所以它会有一个平衡
    就是你单论现在的任务来说
    它哪个延迟是合适的
    理解
    所以看起来也是在一个你追我赶的情况中
    你们会根据模型的发布随时去切换底层的模型
    还是说其实你们是一个鸡尾酒架构
    大家都在会在
    会的 因为对于做Agent的公司来说
    给我一个体验就是
    你其实没有对于任何的一个模型有任何的忠诚度
    谁的模型又快又好又便宜
    我们就用谁的模型
    好 Kimi
    我补充两点
    第一点就是我完全同意Shaun的
    我觉得这取决于你做什么事情
    我加一点你需要的是一个怎么来帮你选择最好的模型的
    不是人为
    而是一个非常可以被量化的一个选择的方式
    比如说我们做代理化工作流的时候
    我们就会把我们现在所有的模型都跑一遍
    看哪一个模型在我们想做的任务上完成的效果最好
    我们就选那个模型
    第二点就是说正因为有这样的一个百家齐放的状态
    这才有初创公司的机会
    第一点
    这个排行榜的排名我们看一看就可以了
    它在这些综合上面的排名好
    确实是有他的原因的
    但是也有可能是有些水分的
    没人知道
    我不是说Google的水分
    就是之前LLaMA 4在lmsys排行榜上排名非常好
    lmsys是个人类投票的排行榜
    就是人想要的排行榜
    LLaMA 4干这件事情
    它提交的一个特别的模型
    就是让这个模型干的事情就是人类喜欢的事情
    而不是说把它基座模型
    或者把它的普通的LLaMA模型上传上去
    所以说这个排行榜你看一下就可以了
    会有一定水分
    但不是说我说Google这个模型2.5 Pro有水分在里面
    那正因为这个排行榜更多时候只是一个替代指标
    你相当于自己一个评测来做这件事情
    正因为你评测之后
    你知道不同模型可以擅长干不同的事情
    所以说这才有了初创企业
    可以把不同的模型整合在一起
    做一个非常高度复杂的任务系统
    来切入一个垂直但极具深度的市场
    对 所以你们也是根据你们的需求
    对 我们有我们内部的非常完善的一套评测的机制
    就跟我当年在DeepMind的时候一样
    我当年是相当于是评测DeepMind这一个模型
    我们现在是评测的都可能不是一个模型
    是一个系统
    这个系统里面有可能有很多个模型
    了解
    这次其实谷歌发布有一个让我印象非常深刻的点
    就是它可以去做实时的语言翻译
    比如说Google Meet
    它会上线英语
    实时翻译成西班牙语
    Flash 2.5可以根据你的文本去生成二十多种语言的声音
    因为我自己做播客
    我其实是这些产品的一个非常深度的使用者
    我在考虑的问题是
    比如说我的中文播客
    它如果能实时生成成英文了
    只要我们内容做的好
    是不是也可以在英文市场里面大家也可以来听
    但是我在用这些模型的时候
    我就发现它核心还不是说只是生成声音
    因为生成声音很简单
    但是你要让那个语音非常的自然流畅
    而让用户听不出来AI感
    这个还是有门槛的
    就比如说ElevenLabs
    他们的英文模型做的很好
    但是他们的中文模型
    生成两个字还行
    但是生成一句话
    他那个语音就非常外国人的腔调了
    所以大家觉得这一类的产品
    它考验的核心到底是模型能力还是工程能力
    我觉得我们现在用的更多的产品
    尤其是这种直接ToC的产品
    其实更多时候还是个纯的模型的能力
    未来Sam Altman说GPT5不是一个模型
    是一个系统
    我觉得未来大家会引入更多的系统的概念
    但是现在
    我们更多时候作为C端的终端用户
    相当于是最直接地接触的模型的能力这个事情
    那为什么有可能Gemini在这些上面的体验不会像ElevenLabs这么好
    那就像我之前说的
    你有很多个团队
    这个模型要做很多事情
    有可能有20个团队
    就是说这个团队说我要增强它的编程能力
    这个团队说我要增强它的创意性写作能力
    然后另一个团队说我要增强它的比如说实时API能力
    然后另一个团队说我要在实时里面增加不但是这个能力
    中文能力 还有英文能力 还有西班牙语的能力
    作为一个大公司
    你不可避免的就得去做一个整合
    在这个整合的情况下
    自然会有一些取舍
    导致了有可能比如说它的延迟非常低的同时
    就会不可避免在一些表现上有一些落后
    作为ElevenLabs
    它要干好的就是一件事儿
    它不用想任何数据配比的事情
    它就要配进去最好的音频的数据
    把这件事情做成
    你想做的是一个更横向更浅层的任务
    还是一个更垂直更深入的问题
    本身这就相当于是区分了
    是一个初创公司的机会
    还是个大公司的机会
    所以核心其实是看团队内部重视什么
    我觉得是看优先级
    我觉得都很重要 没有什么是不重要的
    在Google内部 更多是优先级
    那有可能对于初创企业而言
    我优先级第一的事情有可能是Google的第30个重要的事情
    当然这不在Google的路线图上
    我把这件事做成了
    我也可以获取一个非常大的市场
    这不是我说的话
    这是Sarah Guo在他的某一些播客里面说的一件事
    你觉得考验的核心是工程能力还是模型能力呢
    我觉得都有
    我觉得没有直接的模型
    没有直接的工程
    如果是只给人一个模型的话
    其实他的体验还是会非常差的
    我只能说模型决定下限
    工程决定上限
    Shaun你是做语音产品的
    你正好可以聊一下
    语音产品其实很有意思
    比如说文字输出
    你到最后看的好坏
    其实到最后只是每个人的偏好 喜好
    但是语音类的这些东西的话
    所有人都能听出这个东西到底是好还是坏的
    就像你说的
    如果你这个模型生成一个中文不好的时候
    不用听两句话
    听两三个词儿
    我其实就知道说你这个生成的效果不好
    这个是所有人都会有同样的感觉
    我最早接触过比如说OpenAI的
    也是叫做实时API
    就是它能够实时做语音到语音的端到端处理
    然后我看了Google Meet的Demo里边
    我觉得几个东西给我印象非常的深刻
    第一个是因为它是个实时的翻译
    那你要保证它的信息是准确的
    就是因为同声传译
    而且跟它的语速语调也要保持一致的
    而不是说所有听上来就是机器音
    第二个的话就是它要保证它的速度是足够快的
    可能最糟糕的体验就是这个人说完了一句话之后
    你5秒之后你才翻译完
    这个体验其实非常差
    为了要解决可能两三百毫秒的延迟的问题的话
    那它在工程角度来说也要解决很多问题
    最后的话就是它很多翻译的东西是跟上下文是有关系的
    那你这个上下文在同一个里面
    它是怎么做的
    它是不是应该把整个内容全都放到这个模型里
    然后同时保证速度很快
    这个其实我也不是很清楚
    但是这几个都是它要解决实时同声传译的非常难点的东西
    对 它后来也在AI眼镜上展示了这个功能
    然后我当时的想法是
    这个得多耗电呢
    其实还好
    因为从技术的角度来说的话
    无非你是怎么到最后去实现这个东西
    你传统的做法就是我可以开一个简单的
    我无论是WebSocket或者说一个服务器端流式传输
    你可以认为就是高阶版的不停地发请求而已
    它只是发的频率稍微高一点
    但它其实并不会特别耗电
    而且他如果说控制那个硬件的设备的时候
    你的这个音频的码率也不用特别高
    所以它的这个数据量其实也没有你想象中的那么大
    OK了解
    我记得谷歌它还展示了一个demo就是Project Astra
    它会帮一个用户去修自行车
    包括中间我记得是有零件有什么问题的时候
    还可以让大模型打电话
    你会觉得比如说以后越来越多的Agent加入
    模型或者像大公司
    它可以直接给用户去打电话提供一些服务的话
    会对你们的商业模式是有冲击吗
    我们自己是主要作为医疗方面的B2B的这个模式更多了
    现在并不会直接ToC
    你说的是这个场景的话
    其实对于很多ToC的公司确实是影响会非常的大
    因为模型随着大公司这种模型能力很大
    然后大部分大公司的第一要做的就是我能不能面向C端
    我的用户能够扩大这个能力
    所以针对这个C端的公司确实会有很强的冲击
    然后你刚才说的打电话这个场景里边的话
    其实这种很多打电话AI Agent可能就调一个工具就能做的这些事情的话
    它的本身的门槛是越来越低的
    你如果解决的这个垂直领域里边它的工具的量特别的少
    或者它对于整个商业
    整个流程的这个逻辑特别的少的话
    那你确实是有可能会被大公司直接被取代掉的
    对 所以有一种说法是谷歌I/O的发布会一开
    感觉创业公司又要倒一批
    你还记得去年的时候还是OpenAI一开发布会就创业公司倒一批
    确实是啊
    你看从你刚才说的试衣服
    你应该知道像有很多公司
    其实去年这一年可能就是根据虚拟试衣服的这些事情
    有很多公司在做这个事情
    那Google一出来之后
    可能这个公司就没有了
    Google做了
    那Amazon肯定也会做
    那你其实最大的几个购物网页上面都做了
    那小公司就没什么机会了
    所以ToC是一个非常难的事情
    对 很有意思
    就是关于试衣服的这个场景
    其实正好昨天我在谷歌的现场有跟阿里的人聊到
    他们其实一直在尝试这个场景
    他们对这个功能的评价是
    其实让用户试衣服这个点不重要
    就是谷歌如果能把尺码搞对就很不错了
    可能尺码是一个比你虚拟看一下自己穿着好不好看更痛点的问题
    对 所以我觉得他的现在展示是直接发一张照片
    我不知道你有没有看过用像苹果手机
    或者说会有有光学雷达传感器的
    它可以对你身体稍微扫描一下
    其实你就拿这个手机离着自己转一圈
    它其实可以把你自己的3D模型
    大概你的高胖矮瘦之类的
    就一次性就输入进去了
    它现在只给你一个照片
    但我觉得Google要去做这个事情也是非常容易
    我们来说综合来看
    就是你会怎么看谷歌在大模型这一轮竞争中的优劣势和它的生态位
    我觉得Google的优势就是
    第一个是它有自己的硬件的生态
    它其实就不会依赖Nvidia提供这些硬件给它
    那它在这个底层的时候就已经比大部分公司有这个优势了
    基本上其实没有什么公司能做这个事情
    第二个的话就是它有非常大的服务器的集群
    因为它有整个的Google Cloud
    它其实有无穷的算力
    它因为它有自己的这个数据中心
    那你能够做独立数据中心的公司也是非常少的
    再往下面的话就是它有它的模型层的
    有大量的数据去训练他的模型
    我觉得大家离这个AGI越来越近的时候
    其实训练的方法差距就已经不大了
    那你谁能够获得最高质量的这些数据的公司
    其实它的优势就非常大
    那Google其实是有非常大的数据
    这个是在模型层
    最后的话就是在算法层
    Google拥有他非常强的算法的团队
    所以Google通过这一年的努力变到现在整个的模型的第一
    我觉得一点都不奇怪
    你刚刚提到的硬件生态 服务器集群模型层 跟算法层
    总结来说就是Google它还是一家技术公司
    它的技术是非常厉害的
    这一点我认同 非常认同
    但我觉得同时大家对Google的质疑是
    Google它是一个产品基因不够强的公司
    我们来看Google的明星产品
    就感觉很多产品其实也做的很好了
    但是它其实没有维持运转下去
    你会怎么去看
    如果要把这些技术变成一个非常强的有穿透力的产品
    Google在产品上的布局是怎么样的
    我觉得Google的产品一直是它的弱项
    就是它自己也很难做出特别好的产品
    所以我觉得Google这一波要做的其实就是
    围绕着Gemini这个非常强的模型在打造自己的生态
    你看它从自己的尝试
    从Gemini的手机的应用到它的XR的眼镜
    其实它不是发布了一个产品
    它是一次性发布了可能10到20个产品
    因为我觉得站在Google的角度来说
    其实它也不确定哪个产品能跑出来
    你如果关注过Google NotebookLM
    那个其实大家都很知道对吧
    其实它也是一个非常小的项目
    突然火了之后Google就开始倾注资源
    所以我觉得Google现在的趋势就是它不确定哪个产品会赢
    但是它先把所有的产品都摆好自己的身位
    一旦发现哪个产品真正的可能起飞了之后
    它就开始往里面不停地砸资源
    这个是我觉得Google现在在做的事情
    你现在还会用NotebookLM
    因为NotebookLM它最开始是一个你把所有的研究资料输入进去
    它会给你特别好的整个输出的总结
    按照几种模板来总结
    同时你还可以根据这个总结去看它是引用的哪一块
    但是它天才的产品经理在上面加了一个一键生成音频的功能
    相当于它一下在整个播客圈就火了
    就是我们可以把一个几十页的长文本
    甚至是一本书
    快速的通过一个十分钟的播客的语音的产品来有一个总结
    我觉得这个产品在它刚刚发布的时候还是非常火的
    但是现在我觉得它的声量小了很多
    我不知道你还有没有持续的在用跟在关注
    我觉得很多的信息
    之后获取的途径大部分都是播客
    这也是我先你们在做的主要原因
    所以我觉得播客会变成一个非常常见的信息获取的渠道
    所以我觉得他的这个非常聪明的一点就是
    我把一个只要是任何的信息放到这个里边之后
    它就会变成一个我能够接受的一个模式
    变成我的个人的这样一个播客
    我用过几次之后
    我之后听的话会选择
    比如说因为现在确实是长播客非常的多
    我会稍微挑几个自己听
    你会直接听长播客
    还是把长播客总结一下
    然后让它变成一个短播客来听
    其实我也试过把自己的节目放进去
    让它总结成一个短播客
    我觉得它总结的效果还不错
    但只能是英文版
    对我自己会听一些比如说两三个小时那种长播客
    因为我觉得那些播客的话能让我不会漏河任何的细节
    任何只要我想知道的知识点的话
    我可以再听一个播客就可以从头到尾都能够覆盖到了
    而不会丢失中间的细节
    以上就是我们对Google I/O本次发布的技术层面的解析
    我们已经经历了OpenAI领先
    DeepSeek冲击美股股价
    到Gemini全面领先的好几轮AI竞争
    我们可以看到
    模型层面上的竞争
    其实现在已经是在一个你追我赶
    各领风骚100天的阶段
    如果说谁都可以在大模型的这种竞争中保持暂时性领先
    那我们应该如何去综合性地评估当今这些AI巨头的竞争力
    下一集我们会聊一聊

  • 聊聊2025 Google I_O与Gemini背后的灵魂人物(1)

    Hello 大家好
    欢迎收听硅谷101
    我是泓君
    大家早上好
    欢迎来到Google I/O
    每年5月份
    谷歌都会在山景城总部举办Google I/O
    这是一个面向开发者的活动
    每年谷歌都会在这个活动上集中发布一批的新产品
    疫情之后
    基本上每年我都会去Google I/O
    我们来回顾一下前两年的情况
    2023年谷歌正式向ChatGPT发起挑战
    当时谷歌它也是发布了一款聊天机器人叫做Bard
    它问詹姆斯韦伯太空望远镜的新发现
    结果AI在回答中出现错误
    导致谷歌的市值一夜蒸发超过千亿美元
    2024年就在谷歌开会的前一天
    OpenAI上线的4o模型效果震惊世界
    甚至很多外媒犀利点评说
    这是OpenAI故意在狙击谷歌
    度过了失意的两年
    回到今年
    谷歌可以说破釜沉舟
    打了一场漂亮的翻身之战
    在这次开会的时候
    模型端 Gemini 2.5模型全面霸榜
    这一集我们就来深度揭秘一下
    谷歌大模型Gemini背后的灵魂人物
    以及谷歌推出的AI Mode到底能否应对大模型对搜索的冲击
    华尔街又会如何看待谷歌在美股七巨头中的位置
    最后这期节目不可避免的出现了一些中英混杂
    因为嘉宾都是长期在英文的语境中工作
    如果大家有听不懂的部分
    我们会在B站和YouTube的视频平台上配上字幕
    来尽可能的帮助大家理解
    下面就请收听今天的节目
    今天跟我在一起的嘉宾是CambioML的联合创始人Kimi Kong
    Hello Kimi你好
    Hello 你好
    你之前也是在DeepMind
    要不要跟听众简单介绍一下你自己
    OK首先非常感谢今天的邀请
    让我可以来到硅谷101播客
    我也是硅谷101的忠实的听众
    我现在是CambioML的联合创始人兼CTO
    CambioML是一家YC S23的创业公司
    主要的产品是AI Agent Energent.ai
    我们的AI Agent可以帮你思考和行动
    在创立CambioML之前
    我是在Google DeepMind待了将近两年的时间
    主要负责几个不同的模块
    一方面是通过强化学习
    帮Google来增加它的广告收入
    我主要立了两个项目
    一个是整个大语言模型的评测
    我们帮Google做了刚开始的第一个用AI Agent
    来帮Google优化广告投放和搜索结果的一个项目
    在我完成这两个项目之后
    我就离开了Google来做这家公司
    去到Google之前
    我在Amazon Web Services待了四年
    主要主导了几个不同的Amazon的Microservice(微服务架构)
    在去到Amazon之前
    我是Stanford双硕士
    我有机械和计算机两个学位

    跟我们在一起的嘉宾还有一位是Shaun Wei
    他是HeyRevia的创始人
    之前在谷歌语音助手
    Hello Shaun
    Hello大家好
    我是Shaun Wei
    我们主要是一家AI contact center(人工智能呼叫中心)的公司
    主要深耕在美国的医疗行业的call center(呼叫中心)
    主要是针对比如说我的患者和医生之间的这些沟通
    可以完全的用语音自动化
    今年你有没有看Google I/O的直播
    在这样的一场发布中
    让你印象最深刻的一点是什么
    我觉得Google l/O对我印象最深刻的是
    Google对于整个模型和它整个产品的横向广度和纵向深度的整合
    对于广度而言
    它包含了现在多模态模型所需要的所有的不同的modality(模态)
    从它的Gemini2.5 Pro多模态的模型
    到它的Imagen图片生成模型
    到它的Veo的视频生成模型
    这个相当于说它给你提供了一个模型全家桶
    可以让你完成各种不同的任务
    对于纵向而言
    它不是只是一个云端的一个搜索服务
    它同时也可以相当于在可穿戴的安卓的XR上面
    给我们展示了未来Google在不同纵向的深度里面的它的野心
    所以对我而言
    这是让我觉得Google对于它未来的一个全面布局的一个状态
    是 Shaun呢
    对我印象最深刻的是它的Text-to-video(文生视频)这个事情
    因为大家在这个方向上面尝试了很多
    无论你之前的OpenAI的Sora
    还是之前文生图 文生音频
    各种各样的尝试
    其实大家都想达到的目标就是
    我能不能用一个把我大脑里面想象的东西
    变成一个电影的画面出来
    我觉得终于是在Google这个发布会上面
    我看到了真正意义上的可以从一个想法变成视频的发布
    然后另一个的话
    因为我之前做了很久的Google Assistant(助理)
    大家一直都很想有一个真正意义上的AI陪伴着你
    你有任何的问题
    无论你是视频的 文字的 多模态的各种方式
    这个AI都能够帮助你
    以前没有实现
    Google Assistant的时候没有实现
    但是现在Gemini终于实现了它十年前的这个愿景
    这个是让我印象非常深刻
    对 你正好提到了Text-to-video
    你是指的它的Veo 3的模型的发布
    对不对
    是的 它的Veo 3
    对我看它这次发布
    它不仅仅有视频的画面
    它还有声音
    从整个多模态的角度来讲
    加入声音它会是一个门槛比较高的事情吗
    你觉得它的发布跟当时Sora那几次文生视频的模型的发布
    有什么区别呢
    我能感觉到它是从文字变成了电影
    它真正意义上变成了电影
    Sora当时它们发布的其实也只是一个视频的画面
    你看它当时Sora变成一个视频的时候
    还有跟比如说ElevenLabs或者一些合作
    去在后期加入这些声音
    但是它在这个多模态理解的时候
    比如说看到它很多视频里面
    它的语音 背景 音效还有嘴型都能对得上
    我觉得这个难度其实就非常难了
    它对于你的整个模型
    对于上下文的理解
    对于可能整个物理世界的模式
    大家还记得当时是威尔斯密斯吃面条
    这才其实两年的时间
    就已经从威尔史密斯吃面条
    变成一个可以做出动作电影的状态了
    对 所以其实加入音效还是挺关键的一个点
    没错 是的
    对 我自己也对今年的谷歌I/O印象很深
    因为我觉得今年它们有一个特别大的优势
    它们今年特别骄傲的就是Gemini 2.5的这个模型
    2.5 Pro在它们发布的这个时间点你追我赶中
    这一轮终于是Google最领先了
    去年这个点的时候
    其实是Google在发布以前被OpenAI给狙击了
    它们把应该是4o的模型给推出来了
    所以当时可以说去年发布会就被OpenAI抢了风头
    今年模型最强
    应用推广又很开
    多模态也有新的进展
    包括今年我觉得还有一个特别大的让我印象深刻的
    就是Google把整个的搜索
    就是它们整个商业模式的基石
    搜索的入口给改了
    改成了AI Mode
    大家有关注Google新推出的AI Mode吗
    简单理解我觉得它可能是把搜索的入口跟大模型相结合
    相当于在传统的搜索框里面
    你进去以后
    它左边的有一个标签栏
    它是加入了一个AI Mode的标签
    然后你在问它一个问题的时候
    大模型可以给你很精准的回答
    甚至你还可以追问
    它们后面还有一个demo可能也是跟Agent相关的
    你想买一个衣服
    它可以给你完成闭环到一键下单
    当然这个demo我们可以之后详细地讨论
    首先我们来聊一聊整个Google搜索上的一个变化
    大家会如何看谷歌在搜索框加入AI Mode
    你们觉得它会怎么样去影响谷歌的生态跟商业模式
    我先说一下这个AI Mode
    我之前特别巧合的是
    它在发布会之前
    其实我就尝试了一下AI Mode
    我当时还拿这个AI Mode和Perplexity
    还有OpenAI的搜索都稍微对比了一下
    我觉得从效果来讲的话
    AI Mode和之前那种搜索
    就已经很大幅度的提升了上下文理解的能力
    基本上能对于你的上下文的理解和搜索相关的信息
    它已经可以搜索非常强大了
    但是我觉得站在Google的这个搜索效果的角度来说
    其实那一次我的测试的里边是OpenAI的测试
    其实是比Google AI Mode当时的效果是要好的
    我不知道这一次发布的时候是有没有更好一点
    当然你刚刚说到的是Google的这个AI Mode
    其实它是在革自己的命
    我觉得这个是真的
    因为Google 搜索的话
    它的广告收入是一个最稳定的收入
    从AI Mode的角度来说
    就把传统的广告模式
    它的营收模式完全就改变了
    当然Pichai也说了
    它是这十年里边对于搜索最大规模的一个变化
    我相信他从UI的前端
    就是用户进入搜索的界面上面
    到最后提供结果的这个方案
    他都应该是在Google内部里面做了非常大的提升
    你提到你之前灰度测试了一下它的AI Mode
    你可以讲一下你当时测试了什么样的场景
    为什么你会觉得OpenAI的搜索功能会比谷歌更好吗
    我当时想搜索一架正在天空中飞的飞机
    它当时的具体的落地信息
    因为它晚点了
    那它就不是一个传统的
    就是我会查一个正常的飞行时间表
    因为我不太确定那个航班的航班号
    我只知道它大概的方向
    从A点到B点
    我只是搜了这么一个信息
    我让OpenAI, Google AI Mode和Perplexity同时搜索的信息
    它的提示词当时就是我大概知道有架飞机从A点飞到B点
    然后它大概是几点钟出发的
    你能告诉我一下这个航班的详尽的信息
    它大概在哪
    在空中的哪个地方
    有没有准点出发
    它会不会晚点这样的一个信息
    到最后其实AI Mode和Perplexity都输给了OpenAI
    我非常好奇
    我追问一下
    是因为搜不出来这个结果
    还是搜的结果不准
    它都没有搜索出来这个结果
    有意思 了解了
    其实它就是要告诉我
    当下在天空中飞的航班号能不能给我
    结果只有OpenAI给了我正确的结果
    有意思 Kimi怎么看AI搜索
    我觉得首先搜索有可能真的是全世界最赚钱的生意
    而且是所有人都垂涎欲滴的生意
    我觉得很久以前
    Satya Nadella说他最后悔的是当年Microsoft没有办法搜索这件事情做成
    因为搜索太赚钱了
    说回谁有能力做成这个事情本身
    我觉得有可能Google是所有这些科技公司里面
    最可以把AI搜索做得最好的
    但是就像Shaun刚刚说的
    它有多愿意去革自己的命
    我觉得对于一个创新困境
    我只能说Google半革了自己的命
    因为现在Google的AI还是有两个产品
    我永远不相信Google(没有)创新的能力
    我也不担心Google没有人才
    我觉得Google有可能真的是所有公司里面
    人才密度最大的一家公司
    为什么说半革命的这个状态
    根本上还是有两个产品
    一个叫AI Mode in Google.com
    还有一个是它的Gemini.Google.com
    但是根本上来说
    Gemini和DeepMind
    AI Lab和搜索
    在Google内是两个完全不同的业务单位
    但是怎么能把这个公司的流量入口给你整合到
    让用户(觉得是)更加原生的AI搜索
    而不是说一家公司推出的两个产品
    我觉得这不是一个能力的问题
    这是Google的意愿的问题
    是它有多愿意深度革自己的命
    那革了之后
    怎么用AI搜索来产生新的营业收入
    就原来有可能定向广告只是给你在搜索上
    显示最前三个的推荐位的这种模式
    怎么可以更加有效地嵌入这种AI模型的结果里面
    我觉得这是Google得去思考的一个问题
    但我觉得Google从根本上是有能力做这个事儿
    更多是个意愿的问题
    我们说到第二点
    它为什么有能力做这个事儿
    如果一个大模型想把一个任务做好
    模型是一方面它的能力
    然后除了模型以外
    用户的指令是另一方面能力
    我完全不担心谷歌模型对于用户的指令理解的能力
    除了这个以外
    更重要的一个东西是工具的调用
    毫无疑问
    Google它每年有超过90%的搜索入口的流量
    导致它的搜索一定是在定向搜索里面做的是最好的一个
    基于这个模型和它有世界上最好的工具 搜索引擎这件事情本身
    我觉得我完全不担心Google可以把AI搜索做到一个天花板的能力
    但有可能像Shaun说的
    因为这个AI搜索还很新
    Google内部也在进行大量自用测试
    它们自己其实也有好几个版本的搜索系统
    甚至都还在评估到底哪个搜索方式最适配AI模型
    我觉得这是一个Google整合的能力
    那就是说看Google一方面它有多少意愿来整合
    第二 它整合的时候不要像之前那样出现翻车的情况就可以
    你提到的这个工具的调用是指哪些工具
    你应该浏览哪些网站
    然后你应该搜索怎么样特定的网站
    根本上来说 原来的搜索直接把结果给你了
    现在相当于说大语言模型得通过Google 搜索这个工具
    把东西整合成了一个更好的你想要的结果给你
    那我觉得我短期可以非常理解
    为什么OpenAI可以把这件事情做的好更好
    有可能OpenAI相当于做AI 搜索会比Google领先了一段时间
    包括产品层面
    之前GPT的模型对于工具的调用有可能在2.5之前
    也有可能领先于谷歌
    现在Google拥有最好的模型
    也拥有最强的搜索引擎工具
    我觉得是一个Google可以开始打它的翻盘局了
    对于它而言应该是个顺风局了
    只是看Google愿不愿意把它的产品做一个更深度的整合
    我希望看到是一个统一的产品
    就是ChatGPT不止是聊天
    还是一个整合的入口
    是它们的入口的流量
    Google现在流量是分散
    对于一个用户而言
    其实还是让人非常困惑的一个事情本身
    我觉得这是Google在产品层面必须做出的一个战略决策
    我觉得接下来我们可以把Google的AI Mode
    跟它搜索的具体的展开放在一个场景里面
    就比如说我现在脑子里面第一个出现的场景
    就是当时Google在I/O上的一段演示
    比如说一个女性要买一件衣服
    她对这个衣服有一个大概的描述
    描述完之后
    谷歌就开始搜索
    搜到了一堆这样的衣服的网站
    接下来它可以去比价
    看哪个网站在打折
    然后给你一个最低价格
    中间还有一个环节
    她会把自己的照片也传上去
    说我虚拟试一下这个衣服
    看一下这个衣服是一个什么样的效果
    我当时印象很深刻的是她是一个微胖的女生
    而模特是一个非常瘦的模特
    最后现场出来的效果
    那个衣服穿在她身上依然是一个微胖的女生穿起来的效果
    所以当时现场是有一阵欢呼的
    之后她决定ok这个衣服我看到了
    我穿的效果还不错 下单
    Google是一键闭环
    直接把这个单子给下了
    我看它的支付系统用的是一个Google Pay的页面
    也是一个Google钱包
    整体上来说看起来以前我要搜索一件衣服
    要去各个网站上比价
    最终每一个网站注册
    输入用户名 密码
    然后再选尺码 再下单
    是一个非常漫长的流程
    而现在我通过Google搜索的AI Mode
    我一键就可以下单了
    你们觉得这样一个场景对谷歌来说可行吗
    我知道很多人
    就比如说做Agent的人
    大家考虑的第一个问题是
    我是不是要把我所有这些电商网站的密码都输入给谷歌
    它都得有
    我才能完成这样一个下单
    我当时觉得那个也是很惊喜的一个场景
    我相信大家都会去搜索很多衣服或者购物
    其实对于男生的话
    衣服可能倒还好
    但有可能会比如说买一些硬件
    GPU或者说买个显卡
    就是买一些其他东西
    也是会去跟踪一个东西的价格
    我觉得它这一次的改变
    有几个东西可能会让我印象很深刻
    第一个是因为你传统的广告
    比如说有可能你看到有一个展示型广告
    你看到一次 我收一次的费
    也有可能一种是点击广告
    就是你进去了之后才会收你的费

  • 聊聊2025 Google I_O与Gemini背后的灵魂人物(2)

    所以对于新的这种模式说
    我要去买个东西
    那它上面的展示型广告可能还是有的
    点击广告可能也还是有的
    那它再往里边转化的时候
    Google怎么去从里面收这个钱
    我觉得这个会很有意思
    我相信它在运行这些AI Mode和搜索的时候
    它是非常耗钱的
    因为它的搜索是免费的
    可能大家没有意识到
    就是你每次搜索的时候
    谷歌都是要付钱的
    因为它有机器的支出
    但你现在AI Mode要跑起来
    给所有人都开放起来的话
    那也就是说它的成本会非常的高
    因为它的计算逻辑就不是你搜索一个问题就结束了
    它是要过GPU的
    它要过上下文理解的
    这个成本我觉得对于顾客来说非常的高
    那它会不会羊毛出在羊身上
    到最后以一定的方式把这个钱从你身上出
    我不知道
    第二个就是你在搜索这些问题的时候
    它的模式也就改变了
    传统来说基本上都是文字描述加些图片搜索差不多了
    但它这个的话其实还会带一些更个人化的图片搜索
    你的偏好搜索也会在这里边
    我觉得搜索质量也会往上提升
    再往下面第三个的话
    就是你的所谓的结果丰富度
    以前的这些结果是给你显示一个完整的网页
    那么多的链接
    你慢慢一个点
    或者说有可能我给上面一个面板
    但现在你的整个的结果丰富度
    我就告诉你一个结果
    你就在我这里同一个页面里面
    你不会离开到其他页面了
    对于你这个SEO(搜索引擎优化)怎么做
    这也是会产生非常大的影响
    因为SEO也是非常大一个业务
    比如说卖衣服的
    我怎么能保证我在Google的这个搜索结果里边
    这是个非常大的问题
    最后的话就是你刚才说的
    我一旦感兴趣一个东西的话
    我怎么去持续跟踪
    我怎么保证它的价格是不是稳定的
    到我一个理想价值能够做的价格
    我觉得这一点
    Google其实当时一直做购物做的不是很成功
    一直落后于Amazon
    我相信这个是它的一个更新的方案
    我如何把购物的闭环就直接在Google搜索里面做完
    Kimi怎么想
    我了解了
    我觉得Google来实现它一个最大的野心是想做成一个AI助手
    对于这个AI助手而言
    购物其实是一个非常有挑战性的一件事情本身
    我觉得很久以前Anthropic有一个非常意思的采访
    就是说如果这个事情对于人而言就非常有挑战的话
    那对于模型而言其实也是会非常有挑战的这件事情
    把这个模型当作一个人来看待
    对我而言有什么非常高价值
    但又非常有挑战性的事情本身
    比如说我想订一趟旅行
    我不仅要订酒店 还得订机票
    对于购物来说
    我要浏览很多网站来对比价格
    但有可能就是说我去不同的网站比价的时候
    可能我不是说我登录我自己的密码
    有可能更多的时候是我能用哪些网站
    我可以去Amazon
    也可以去H&M
    或者其他网站
    怎么能通过不同的渠道搜集信息
    对比价格之后给你一个结果
    它对于这种长逻辑链
    就是需要一个多步骤的一个过程
    我觉得已经可以完成的非常好了
    我觉得在不久的将来
    Google其实可以在除了购物以外
    非常长逻辑链条的一些任务上
    也可以做到同样的效果
    所以我觉得我们有可能只看到了冰山一角
    它只是完成了一个长逻辑链的事情
    比如购物就是长逻辑链
    有可能会有更多长逻辑的这种事情
    非常快的将来AI Mode都可以帮你做的
    我整体上理解
    其实谷歌做这件事情就是买衣服到下单到完成
    它其实是一个Agent对吧
    是的
    刚刚大家其实都有说到一些核心的点
    就比如说以前一个搜索耗的服务器成本
    它可能相比于现在整个你要完成这样一个购物的闭环
    它消耗的token跟服务器成本是小很多的
    现在这个成本就突然一下高了很多
    然后我们知道谷歌的商业模式其实是依赖于
    你搜索一个东西它有竞价排名
    然后商家要去做SEO
    它是通过这个赚钱的
    那它改成这样一个模式以后
    它的商业模式会怎么样改变呢
    它靠什么赚钱
    我觉得商业模式的话
    Google已经给了一个方案了
    你如果看到它的Google I/O的时候
    你会发现各种订阅服务
    有便宜的版本
    有ultra服务
    它有各个级别
    都会从你所使用AI的方式
    比如更多的智能 更定制化
    那我都需要你去订阅和付费
    就像我说的羊毛出在羊身上
    另外一个的方法的话就是
    我相信它的广告也会跟着新一代的这些AI进行改变
    如果你用过OpenAI搜索的时候
    或者说你如果做过一些开源项目的时候
    就会发现其实OpenAI本身它是会给你导很多流量进去的
    就有专门从大语言模型导出去的流量
    所以我相信Google内部也在思考
    因为我现在更定制化到你个人回复了
    那我从这个中间推出去的这些流量的话
    我是不是也要收更多的服务费用
    是对商家收费吗
    对 对商家收费
    依然可以收费
    对 用户是订阅服务
    对商家也是一样会收费的
    你不做广告
    但是你如果在我的AI里边你要排名的话
    那我还是会要求你有一定的收费
    但我觉得AI很难
    因为以前搜索可以提供给大家10页 100页 1000页的结果
    你只要保证在第一页或者你在第一页的前三个都可以
    AI它其实是要推给用户一个固定的结果
    它的优势就是不让用户选择
    对 如果说你知道一些传统广告的话
    就比如说保险类的广告
    旅游类的广告
    它的每一个点击或者转化的收费是非常高的
    有可能每一单都是大概几十美元的这种价格
    我相信如果是到最后只会推1到2个的话
    那它会收商家可能收的费用也会更高
    因为你完成这个购买服务的可能性就非常高了
    理解
    而且以后它的排名可能直接是在大模型里
    对 是的
    Kimi认同吗
    我完全认同
    我觉得这个成本永远就是开源节流
    那相当于说开源节流两个不同的方式
    先从开源的方式来说
    Google有怎么更加增加它的收入的方式
    有可能我们不太像传统意义
    只是相当于一种竞价
    给你做一个排名
    一个列表的方式来给你展示广告不同的价格
    因为它现在是个多模态
    而且它知道你所有的记录的上下文
    它可以给你做的定向广告的质量可以比原来变得更好
    它有可能原来不用给你推十个
    它还是会给你推
    比如说三个
    因为作为人的乐趣是你相当于是做一个选择
    现在AI产品给人的情绪价值
    在于让你做一个HILT(人工干预机制)的过程
    如果真的把人完全抹去了
    其实你也不希望完全自动运行去做一件事情
    有可能它原来是给你100个的广告
    现在就给你三个
    然后在语言模型里面说这有三个选项
    你来做选择
    它可以每个单价做的更高
    我觉得这是相当于说一部分从广告商品的角度来说这个问题
    其实Google现在本身搜索而言
    也是运行了一个巨大的一个搜索集群
    但是其实有可能是个CPU的搜索集群
    那有可能在Google刚开始的时候
    这也是特别大的一个成本
    但是传统意义上的搜索
    比如说CPU的成本在过去的20年里面有可能已经降了1000倍 1万倍 1亿倍
    我也不清楚具体的数字
    就算ChatGPT产生了两年
    到现在整个的GPU的推理成本已经降掉了95%了
    那我觉得在不远的将来
    一定会再按一个指数级别往下降下去
    我觉得未来的话
    如果你可以提供每一个广告的成本
    不但只是广告商来付钱
    这个用户也要付自己的订阅费
    同时你也可以把GPU的成本或者TPU的成本
    尽量再继续往下降下去
    我觉得有可能Google如果做的好的话
    可以发展出一套更好的商业模式
    我们可以接着看看
    所以你们觉得如果假设OpenAI或者Anthropic它们也来做这件事情
    因为最终我觉得这件事情对搜索的冲击还是很大的
    搜索的入口也是大家都想抢占的一个点
    你觉得谷歌的优势是什么呢
    我觉得谷歌的最大优势还是它是有海量的数据
    它其实无论你是在索引的这些网页到它的YouTube视频
    它的触达能力一定是它的有足够的内容资源
    而且它大部分人都会有什么邮箱
    其他的信息在Google里
    所以它对你个人定制化它是非常的强大的
    尤其是我自己在用OpenAI的时候
    它现在的主要的提供的粘性是因为它有很多工作上面的信息
    其实Google有你个人信息的 这是其他的生态不具有的
    这个很好
    我想到我现在用Chrome的浏览器很多
    很多我的数据也存在这个浏览器上
    在这个浏览器上完成一个入口
    可能在一些购买行为上也是会更便捷的
    我觉得几点
    一方面是搜索这个产品本身
    就Google 2026年这家公司它的使命是整合全球信息
    它基本对于这个世界的信息
    有可能世界上最好的一个知识图谱
    我们每一个人浏览Google的时候留下来
    我们自己在浏览它
    比如说5到10年使用Google的浏览的介入
    那它相当于说它把它的世界信息和我们的个人信息整合在一起的话
    它有了世界上最好的模型
    它也有世界上最好搜索引擎
    我觉得它的起点其实就已经非常高了
    它一定是有这个能力来做出一个最棒的产品
    只是说看它这个产品怎么样一个形式来部署给用户而已
    我觉得还可以补充一点
    就是Google还有很大的分发
    它还有它的分发
    它有它的安卓
    它有它的Chrome
    它拥有的这个分发系统估计也就只有苹果跟它抗衡
    所以它占的分发是比所有人都强大的
    我最近也是跟很多人聊
    大家觉得这一轮其实还是巨头的机会
    就是在大模型竞争的这一轮
    创业公司可能还真是小而美的机会
    我们刚刚聊了很久的搜索
    接下来我觉得我们可以来聊一下Gemini 2.5模型的更新
    在谷歌这次的公布中就是Gemini 2.5 Pro
    它现在在整个数据评分中是所有大模型中最好的
    Kimi可不可以跟大家分析一下它是如何做到的
    OK 我已经离开DeepMind快一年的时间了
    我已经不知道我的同事们在这一年里面又做了什么新的创新
    但是就是几点
    我觉得大语言模型训练的基础有三个步骤
    Pre-training就是预训练
    SFT (Supervised Fine-tuning,监督微调)
    和到最后的alignment(对齐)
    RLHF(基于人类反馈的强化学习)
    大概已经是去年的NeurIPS的时候
    我们都说网络数据已经被我们抓取完了
    就像化石燃料都被耗尽了
    我觉得大家其实在这一年的时候
    花了更多的精力在对齐上面
    就是在强化学习
    尤其在人类反馈和AI反馈上
    就比如说数学和代码任务上
    因为这些的任务是有一个指定的目标
    你是可以完全知道这件事是做成还是没有做成的
    Google基于它在前面的Gemini 1到1.5到2的一些积淀
    对于尤其是这种基座模型的训练
    再加上它开始更多的强调这种强化学习
    不只是说人类反馈的强化学习
    而是启动一个路径让AI自己来批判AI
    把这件事情做成
    比如说像当年做AlphaGo的时候
    为什么AlphaGo可以做成
    关键其实就在于它能下出像“第37手”
    那样超越人类常规理解的决策
    就是说超过了我们所有人的认知
    这一步棋能这样下
    我觉得未来的AI尤其当你强化学习的时候
    你让模型自己去判断“什么是对的”的时候
    在这个2.5的时候
    我觉得它们应该是引入了更多这种强化学习的概念
    和强化学习的使用
    导致Gemini 2.5可以让我们到今天在所有的可以非常确定性任务
    比如说编程和数学中出现了这种惊艳的结果
    我记得之前就是去年有一个大模型训练比较集中的趋势
    就是最开始大家都是预训练
    后来在预训练中加入后训练
    比如说OpenAI o1系列
    它们都加入了推理模型
    包括像DeepSeek的R1都是推理模型做的比较好
    Anthropic它其实是有很长一段时间它没有去出自己的推理模型的
    但是比如说Sonet 3.5跟3.7
    它在代码能力上会有一个质的提升
    这也是带动了一批像编程类的Agent
    比如说像Cursor Windsurf它们迅速崛起
    我好奇的是为什么Anthropic它生成的代码质量
    能比其他家生成的代码质量更好
    我看这一次Google其实也在强调自己生成的代码质量是比较好的
    代码质量能力的提升主要靠的是什么
    我可以快速给出我的几个观点
    Shaun可以随时打断我
    我觉得模型训练永远就是那么几个步骤
    预训练
    后面的监督微调和对齐
    尤其是基于人类反馈的强化学习
    我们先从预训练而言
    就是预训练的时候你永远都是有个数据配比的
    就是你要配多少的代码进去
    你要配多少自然语言进去
    你要配多少中文进去
    配多少的英文进去
    现在就是一团乱
    没有人知道什么是最优的配比
    我觉得有可能对于Anthropic这家公司而言
    代码是它们的最高优先级
    它们在预训练的时候
    就配入了更多的高质量的代码信息进去
    这个模型相当于是它的基座能力首先就变得很强
    但是基座能力强之后
    它的别的能力肯定会有一定相对应的下降
    我到后面也可以和大家分享一下有趣的小故事
    在它做了基座模型之后
    它要做很多的对齐
    那对齐的时候更多在大公司里面
    大家做的也就是一个我们开玩笑叫YOLO run
    就比如说今天Shaun在Google的一个团队
    我在Google另一个团队
    比如说您在Google的另一个团队
    大家每个人都会有自己这个礼拜很多的创新
    我们会把大家所有人做的东西都聚在一起
    然后我发起一个YOLO run
    然后两周之后
    我们把大家的东西都整合在一起
    看看我们做出了什么
    那这个相当于是做在对齐的时候
    每个团队其实有不同的优先级
    有可能这个团队非常注重代码
    那个团队非常看重写作能力
    就像是一个种族问题
    我觉得对于Anthropic而言
    也许对它们来说
    编程是最高优先级的
    就大家觉得也许编程才是解决推理模型的钥匙
    它们在做预训练和到最后的后训练的过程中
    尤其是基于人类反馈的强化学习中都加入了更多的编程的训练进去
    编程本身也是非常容易被量化的一件事情
    一件事情做成了没做成
    导致了Anthropic它在编程能力表现得非常好
    但是就因为它的编程能力强
    其实它会在别的能力方面也有可能有些缺陷
    我可以说一个我最近学到的非常有趣的故事
    作为初创公司的创始人
    我现在不单单每天会去写代码
    会做很多的市场营销
    很多的销售工作
    我要写类似很多这种的文案
    我一般就会把比如说Gemini, ChatGPT, Anthropic, Perplexity都打开
    我让所有人把同一个提示词都输进去
    然后让它做一个这个事情本身
    也有可能OpenAI的创意性写作做的非常好
    让他写出来东西让我觉得非常有调性
    我觉得我非常愿意去发这样一个市场营销文案出去
    那我让Claude写出来的时候
    就有可能有一种跟一个无聊的码农在聊怎么做市场
    这个事情本身就会非常的枯燥
    我觉得这是策略
    大语言模型的训练就是
    输入垃圾 输出垃圾
    如果你输入大量高质量的代码
    输出的代码质量也会高

  • E197_一位动漫制作人的日本之旅_七大模型多模态之争(4)

    一方面是我们刚才说的
    稳定性的问题
    另外一方面来说
    可能它就不再具有有意义的产品
    和市场需求之间的匹配了
    为什么
    因为如果要生成更长的话
    没有一个人会愿意
    看一个人举咖啡喝一分钟我觉得
    生成更长可能就需要故事线了
    所以他们现在还只是生成
    一些场景的特定镜头
    然后它这个特定镜头其实是
    没有太多的动感的

    就是如果真的要达到一分钟的话
    其实我们平时现在
    你看任何的影视作品也好
    你是很难看一个人
    做单个事情一分钟
    而且尤其是是在没有上下文情况下
    这个还是挺难的
    我上次在谷歌的发布会上
    就是我用了一下他们的Veo3
    就是我测试了一下
    我当时的prompt词是生成了
    一个还蛮复杂的场景的
    大概就是一只小松鼠一只猫
    他们在一个山坡上奔跑
    然后穿过了树林
    接下来是穿过了一座桥
    最后到了山顶上
    桥的两边是有彩虹的
    然后有风
    就是很具体了
    很具体很具体
    很有画面感了
    对 我其实是想看它在
    这一连串的关键的奔跑中
    它整个场景的变化
    它的连续性
    效果如何
    我说到的这些点非常好
    但是跳帧很严重
    是吧
    跳帧
    逻辑很奇怪
    对对对
    感觉在做梦一样对吧
    就是这种感觉
    这个描述太准了 对
    感觉就是做梦一样
    对 它比如说是桥到山顶
    你感觉这个中间
    它是没有任何的这个
    他不是奔跑过去的
    他是画面切换过去
    是是是
    然后里面各种各样的元素
    就开始进行不可思议的形变对吧
    这个其实跟我们
    刚才说的稳定性有很大的关系
    如果真的要用在
    一个创意的产品上来说
    我们看起来至少得相对合理
    除非你是真的想要做出
    这种梦境一般的效果
    目前我看可能20秒 30秒
    算是比较长的
    还相对比较稳定的
    如果真要说生成一分钟以上的东西
    一方面来说我们人可能
    也需要给它更详细的情节
    另外一方面来说
    它真的是否能从逻辑上很好的
    再现我们脑中想象的这种情节
    这确实还是一个挺大的问题
    对 所以你觉得现在如果我们
    来看整个AI做视频生成的问题
    最大的问题其实就是一个是可控性
    一个是不够好
    不够好
    其实最大的问题
    还是不够好
    最大问题就是这三个字不够好
    所有的玄妙之处都在够这个当中
    其实我之前也在网上看到
    一些很感人的一种个人的应用场景
    比如说一些人会把他们
    去世家人的照片给AI
    然后让它去做一个十秒钟左右的
    已经去世的亲人的动态的这种
    这种在声音模型生成的特别多
    就是因为现在其实因为我做播客
    现在各个厂家他们的声音模型
    竞争也非常激烈
    我就经常看见有评论说
    我把妈妈生前给我发的这个语音
    喂给模型
    然后我就能听到我妈妈的声音了
    对 很感人
    很具有人性色彩的一种使用的场景
    而在这种场景当中
    所谓的够不够好
    它这个够这个字就不重要了
    因为它有一种很真实的
    有大于无
    对 有大于无
    而且以前就是不可能
    它的点不在于我真的生成出来
    一个多好的视觉的产品
    而是我真的通过这种方式
    仿佛跟我以前的亲人朋友
    又重现了一个记忆
    这个就很有意义
    比如说如果真的AI要上工业的话
    它的成本就会成为
    一个特别大的问题
    AI现在的成本是多少
    挺高的
    我大概在很多这些视频平台上
    都会去买他们的这种视频
    生成的credit
    每个平台也有按月订阅的计划
    基本上我会买中间那一档
    主要是想尽可能的多试试看
    基本上所有的平台
    在每一个月的第一周我都会用完
    就是严重的token不够用
    你每天用多久
    非常非常的缺token
    我在Luna或者可灵
    我有两三个创意的想法
    我基本上每一个平台上
    会希望它生成5到10次
    那么这个就相当于是20到30次
    而我一天比如说
    生成20到30次的话
    真的一周也就全用完了
    可能一周都不到
    现在他们在生成人物的时候
    眼睛还会有恐怖谷的效应吗
    因为我们其实在这些视频模型
    刚刚出来的时候
    因为我们自己也做视频
    所以我们也是都用过这些视频模型
    但我们试过
    就觉得它生成的这个人物状态
    还是很恐怖的
    就是跟迪士尼最开始
    是是是
    最开始那些动漫一样
    他的眼神是空洞的
    我觉得现在基本没有了
    基本没有了
    这也是一个很大的进步
    非常大的
    而且比方说还有手的稳定性
    手的稳定性
    突然一下多出一根手指
    少一根手指
    这个其实也是一个巨大的突破
    我觉得很厉害
    就所有模型手的稳定性都解决了
    几乎到了一个不会穿帮的程度了
    手跟眼神这两个问题都解决了
    对 时不时还会有这样那样的
    一些小bug出现
    但是大概率的话
    我现在不会担心说
    我现在去生成一个东西
    我首先得查一下他的手对不对
    我觉得现在已经基本没有这样了
    你们会用confine UI这样的工具吗
    我们自己没有直接在用
    因为这个工具的迭代特别快
    迭代速度快
    客观对我们来说一直做实验的
    导致一个很麻烦的问题
    就是必须一直用
    不一直用的话很容易
    出现工具跟工具之间
    我过一个月它就变样了
    所以在这个方面我们也是一个
    有一点烦恼的一个地方了
    工具跟工具之间迭代了
    这个对你们的影响是什么
    目前没有
    因为你们还是没有用到这些工具
    真正的在商业行为中的
    对了
    这又回到我们刚才说的这一点
    这个够字当中的另外一个魔鬼
    就是工具的稳定性了
    如果真的要工业化生产之后
    我首先对于它的token
    会有大量的需求
    我们就说一个关键帧
    生成中间帧的这一件事情
    那可就不是一天生成20次量级了
    可能一天生成500次
    都是有可能的
    一旦进入工业化之后
    这个成本 效率
    甚至产品上的问题
    会一下变得特别严重
    Ok了解
    其实对模型端来说
    就是一旦他们开始
    给工业化的机构去做制作
    它也会有token的大量消耗
    然后你的算力够不够的问题
    我觉得这个非常非常的真实
    还有一个问题
    就是你觉得用AI配音怎么样
    因为我觉得现在语音模型的发展
    反而是我看到的最快
    然后效果最好
    可控程度也比较高的
    就比如说动漫
    其实我们刚刚讲的
    全部是画面的环节
    但其实还有配音
    还有配乐的环节
    这件事情牵涉到了一个
    我个人也非常忐忑的一个话题了
    语音确实比视频
    要好做的很多很多
    而且如果真从语音的生成质量
    角度上来说
    其实现在大部分尖端的模型
    已经跟真人无异了
    但是这里面语音生成这个
    也牵扯到一个很难聊的一个话题
    也就是AI跟人类创作者之间
    到底是什么样一个经济关系
    让你忐忑的是什么呢
    非常忐忑的一点是
    这次我们在日本也聊了
    一些导演 配音演员 声优
    日本的声优实际上
    他也有自己的协会
    包括日本这几个月的时候
    也有很多日本非常知名的声优
    公开出来反对AI
    他们不会把自己的声音
    用于语音训练
    也不会允许AI来模仿他们的声音
    他们给出来一个论点
    其实我很同意
    他们自己对于自己声音的训练
    还有他们的表演
    实际上是他们的生计
    而且这个东西一旦被替代
    他们自己的价值也好了
    创意也好了
    还有自己他们的生计也好
    会被迎面冲击
    你看日本还有工会
    但是还有很多人不在工会里
    很多国家是没有工会的
    很复杂
    如果真的讲到
    经济模型的问题的话
    确实是一个相当相当深刻
    且困难的话题
    从一个画画的角度上来说
    我还可以说
    AI对我来说是一个工具
    但是同样的这种工具的论点
    如果放到声优上面
    可能就会比较困难
    因为它生成出来的东西
    跟声优表演出来的东西太像
    所以其实在声音这个环节
    技术已经可以做到它可以替代人了
    只是说在这个过程中
    你要去怎么解决
    这一部分人他的生计问题
    它反而是一个经济关系的问题
    它不再是一个技术的问题
    我个人认为是这样的这里面
    存在一定深层次的
    工作伦理的问题
    对 我觉得在播客行业
    已经出现了这样的问题
    完全可信 完全可信
    这个确实是
    比如说泓君
    如果有一天我现在告诉你
    有一个AI可以模仿你的声音
    然后说泓君
    以后你就不用再出来录播客了
    你就写稿就行了
    我们把稿件就转换成声音
    这个事情我觉得从主观程度上来说
    还是一个挺有冲击力的一件事情
    另外一方面我个人也偏向于
    认可的一个论点就是
    声优他本身
    并不仅仅是在提供一个声音
    他是在对角色进行演绎
    甚至他们自己也是一个流量的点
    他们提供了很多在商业上
    产品上和创意上
    比一个物理上的声音
    要多得多的一些价值
    还是应该正视和尊重他们
    对于作品和商业上的贡献
    如果真的从技术上角度来说
    声音我觉得技术程度上我觉得到了
    但音乐还没有ok就是声音ok了
    音乐我觉得也ok了
    音乐也ok了吗
    音乐我觉得也ok
    你觉得AI生成的音乐
    它跟人的这个音乐它的表现力
    这个问题可太有意思了
    这个问题甚至可以上升到哲学高度
    我之前在学校学习美术
    或者音乐史的时候
    就发现一个很有意思的现象
    我们就说西方音乐史
    它里面的大家
    时代和风格的变化
    其实没有那么多
    其实我觉得客观上来说
    反映了一个很有意思的现象
    就是我们认为好听的音乐
    可能就那么几种
    我们认为难听的音乐比比皆是
    我今天就可以写一个给你
    就是人类认为的好听的音乐
    现在已有的这些大调
    小调 节奏
    实际上已经被前人
    还有乐理总结的相当完备
    因为我们认为好听的东西
    没有那么多
    所以从AI的角度上去理解
    什么东西是人认为好听的
    就没有那么的困难
    所以最终导致的一个结果
    就是它生成出来的东西
    其实表现力怎么样
    我觉得这个问题
    一半是观众心里要回答的
    我举一个例子
    比如说像Suno这样的音乐生成平台
    我们之前有测试过它的歌
    但是我们测试的时候确实
    可能是它刚刚出来的时候
    值得再试一遍
    Ok 对
    我们当时就觉得
    这个也太口水歌了
    但是我们其实跟
    做这个音乐模型生成的人聊过
    他说是因为这样的平台
    它不敢去复制
    现在最顶级的这个流行歌曲
    对 讲到我们刚才的问题
    对对对
    不敢拿他们的数据去训练
    如果你训练出
    最后一个风格一模一样的歌
    或者风格很相近的歌
    那这个版权问题就会产生纠纷了
    非常严重纠纷其实
    对 但是理论上只要把它喂进去
    高质量的作品跟数据
    它是可以训练出来的
    对 我给你一个建议
    你可以试试看
    就是下次你再跟Suno玩的时候
    你去生成古典乐
    我们上次就试了古典乐
    对吧
    就试了巴赫
    古典乐这个效果
    我觉得目前相当不错说实话
    是因为古典乐的版权
    已经开放了50年
    对 它很多已经过了这个版权期限

    所以这个数据实际上就是更开放
    但Suno的观点其实非常的正确
    因为你现在如果真的模仿一个歌手
    那我们真的得解决
    一个商业伦理上的一个问题
    这我觉得甚至从一定程度上来说
    超越了商业利益
    如果我真的现在技术上
    能复制出周杰伦的声音
    我应该拿他的声音去写歌吗
    但我觉得这个事情细想也很可怕
    你模型能做这个事情了
    这件事情就变得无利可图了
    尤其是刚刚起来的新艺人
    就变得无利可图了
    所有的艺人他都是不停的创作重复
    创作重复来做出更好的作品的
    那以后可能就没有好的新歌
    或者说没有人类创作出来的
    好的新歌了
    所以这个就是讲到商业结构
    和商业伦理的问题
    包括我们刚才讲的中间帧生成
    这一个简简单单的事情上
    已经包含了这种深层次的矛盾
    我现在比如说提出一个中间帧
    生成的一个模型
    制作一个产品
    基本上不会有日本的动画工作室
    会对这件事情提出伦理上的意见
    因为这个确实是大家一个需求
    从表面上来看
    确实也保留了人类的创作性
    因为关键帧还是要人来画的
    这看上去确实
    是一件一本万利的好事
    但是它客观上来说就会对产业
    产生一种非常长远
    且非常令人忐忑的一个后果
    就是新人没有办法去爬了
    对 而且新人没有办法
    去做大量的重复的练习了
    对了
    而这个练习是你通往大师的必经路
    其实这一点非常非常的可怕
    假设从一个小白到一个大师的过程
    是一个长长的一个梯子
    那小白需要从一开始
    有能落脚的地方
    我们如果这个梯子只有上面的
    一半有杠杠可以抓的话
    这个梯子是没有办法爬的
    而关键帧这件事情虽然看上去很好
    它从长远的角度上来说
    可能会带来一个现象
    就是大量的新一代的
    我们目前还不认识的
    还在读书的
    还没有在读书的
    这些新一代的这些动画的制作师
    他实际上在这个行业当中
    没有可以向上爬的落脚点
    如果产生了这个现象的话
    那可能动漫这个行业
    说不定还会后退
    在几十年之后
    我们现在已经看到这种
    大规模的人才短缺的现象
    我觉得可能是全人类社会
    都需要一起来考虑的一件事情
    想一想也挺可怕的
    是啊
    确实是一个相当复杂
    而且短期之内可能
    还挺无解的一个问题
    反过来说一个理想状态
    还是刚才说的
    就是我们作画也好了
    在动画上也好
    我们真的能够把AI
    作为一个工具来看
    这种工具又去鼓励另外一些
    之前不会考虑做动画的人
    他们参与进来
    那就像是我们以前在艺术史上
    颜料都是很贵重
    自然原料来做出来的
    那在化学工业做成之后
    油画的颜料就变便宜了很多
    它从客观上来说就鼓励了
    很多新的一代的年轻人
    新的一代的画师进入这个行业
    如果AI能够对动画
    达到这样的效果的话
    我觉得它还是一个值得期待的未来
    当然这个过程当中存在
    非常深奥非常复杂的商业伦理
    和商业结构的一个问题
    我觉得也是整个行业
    需要一起去面对去探索的
    你为什么会从技术走向动漫
    我觉得
    你是学什么的
    我在大学的时候学的是计算机
    对 OK
    我一直以来就非常非常喜欢的动漫
    我看刚刚
    你还学过西方美学史

    跟音乐史这些
    是 我一直以来
    都非常喜欢创意的产品
    我对创意行业本身
    也是有非常大的激情
    当然一开始是作为一个观众
    能够通过机缘巧合的机会
    做到现在这个位置上来说
    也是非常非常的幸运
    现在你的工作中
    涉及到的技术的部分多吗
    你的这个岗位
    如果是一个传统的内容负责人
    或者一个动漫制片人
    他们的岗位是需要懂技术的吗
    传统的可能对于技术的理解
    要求并不是特别多
    他可能对特效能达到一个
    什么样的技术
    会要求更高一点
    很多时候是对于流程的理解
    和对于创意方面的
    直觉是更核心的一个
    比如说每天都会用到的一个事情
    是的
    技术上来说反正相对少一点
    现在呢
    现在我觉得可能对于

  • E197_一位动漫制作人的日本之旅_七大模型多模态之争(5)

    技术理解的要求会越来越高
    如果说我们都认为
    技术和创意的相互奔赴
    在接下还会加速的话
    可能双方互相的直觉和品味上
    需求都会提高
    那你现在的工作中会具体用到
    涉及到技术判断的时候吗
    15%左右
    百分之十五到二十
    15%是一些什么样的场景
    主要还是用在我刚才讲到的
    实验性的场景上
    比方说我们做出来一个东西
    从技术角度上来说
    这个事情花了我多少时间
    它难不难做
    它是否可以复刻
    它如果大规模复刻的话
    它需要多少钱
    这些都是很技术上的东西
    甚至还有更纯代码和技术上的东西
    比如
    那比如说
    我现在如果去做一套
    我们自己的管线
    我们训练自己的模型
    你会做自己的模型吗
    我们其实做过
    但是我们做出来坦率的时候
    效果真的不好
    而且由于是万马奔腾的状态
    那就让马在前面跑
    所以你们其实还想过
    做一个生成二次元的模型
    对 纯粹作为尝试
    对于比如说视频生成
    关键帧生成或者声音的生成
    对于这些行业非常感兴趣的
    技术上的创业者来说
    可能现在的时代会对他们
    提出更高的美学上的需求
    比如说我生出来的音乐
    到底好不好听
    有什么标准去评判它好不好听
    这个我觉得可能反而会成为
    技术指标之外训练模型
    以及指导模型进行迭代方面
    一个很重要的标准

    你的品味可能决定了模型的品味
    我最近看到一些文章挺有意思的
    其实比如说像Deepseek出来以后
    我是非常喜欢Deepseek
    它回答问题的那种方式的
    然后我是偶然在一篇采访中
    发现梁文峰他对你的文字的
    美感是有追求的
    包括最近我也是问DeepMind的人
    我说为什么anthropic
    他们做出来的代码质量就很好
    那可能也是创始人关注
    包括我们看ChatGPT
    整个文本的风格
    跟Sam Altman它那一套
    非常看重表达 看重营销
    看重把一个事情包装的
    特别美好的那个风格
    我觉得还是跟创始人的品味
    关系很大
    特别相关
    而且甚至可以说在大模型也好
    视频生成模型上
    这种品味就能转换成非常直接的
    商业价值和产品优势
    我用文字生成出来20秒的小视频
    一个特效或者是中间帧
    这个中间帧它能不能用
    它中间出现的这些5%的错误
    错在哪了
    这个错的地方我能不能接受
    如果一个技术的团队
    理解这些事情的话
    并且针对这些事情进行优化的话
    那么他们在产品上应该
    就可以跟其他的产品
    形成非常非常有利的竞争优势

    可能是一个混合型人才的时代是吧
    对的 我觉得每个行业
    都在追求混合型人才
    是是是 很有意思
    对对
    我自己很喜欢艺术史
    然后我自己也是一个工程师
    我现在很直观的一个感觉就是
    从两三年前大模型这一波开始
    我的左脑就在每天跟右脑打架
    说实话就是
    左脑跟右脑每天起来都在打架
    然后工程师的这一边说
    你看AI的东西多么的酷炫对吧
    艺术史的这边就是说
    但是你得注意这些东西
    产生的社会的影响
    而我更愿意相信
    人类对于创意的追求是无限的
    对于表达创意
    还有对于他人的作品的
    这种原始性的追求
    是刻在人类DNA里面的东西
    它并不会随着技术产生改变
    而技术的迭代
    技术是不停的在变的
    美术的商业环境也是不停的在变的
    但是艺术和美术自己是永恒的
    所以我也是希望
    正在走向的一个未来
    并不是说因为有了AI
    所以我们走向了一个
    更贫瘠的更无趣的一个世界
    不是
    而是说因为我们有了一个AI
    我们走向了一个更百家争鸣
    百花齐放的一个世界
    如果是这样的话
    那我觉得AI 人类
    包括人类对自己的理解
    人类对自己的艺术的理解
    可能都会以这个为契机
    走向一个全新的高度
    对 因为我在做一档技术播客
    播客是一个创业行业
    技术也是一个相对枯燥的事情

    所以我每天其实也是在一个
    左脑右脑打架的这样的一个状态
    但是整体来说
    我对AI跟人类的未来的悲观很多
    很难说很难说
    但是好处是在于
    无论怎么说
    我们这一代人就是在创造这个未来
    是的
    对吧
    所以我们这一代人的选择
    确实有可能影响在接下来
    很长一段时间之内
    人类技术和艺术之间的相互关系
    对 还有很多的社会问题
    还有很多很多的社会问题
    这个没有任何好的答案
    但是至少可以知道的一点
    就是答案是要由我们来写的
    这个心态特别好
    对吧

    这个心态特别好
    创业者的心态
    知道了这一点之后
    我觉得每天左脑右脑
    打完架之后就又能睡觉了
    明天起来又可以打架了对吧
    OK
    所以也是希望通过
    今天的分享一些事情的思考
    作为一个抛砖引玉
    作为长长的技术
    和艺术之间的博弈当中
    提供一些个人的一些小的想法
    好的 好
    谢谢天宇
    好 非常感谢
    非常精彩
    拜拜
    好了
    这就是我们今天的节目
    欢迎在小宇宙 苹果播客
    Spotify还有喜马拉雅
    蜻蜓fm 荔枝fm
    网易云音乐
    QQ音乐上订阅收听我们
    如果你是习惯
    通过视频平台来收听播客
    也可以在YouTube和B站上
    搜索硅谷101播客来关注到我们
    另外我们音频的部分文字稿
    会发表在我们的公众号硅谷101上
    如果大家感兴趣
    欢迎大家持续的关注我们
    我是泓君
    感谢大家的收听

  • E197_一位动漫制作人的日本之旅_七大模型多模态之争(2)

    基本上处于一个全球排期的状态
    这个就导致了做动漫的工作室
    心有余力不足
    其实我们这一圈聊了下来之后
    基本上所有的动漫工作室都在看AI
    当然大家不一定会说
    你说主流的 顶级的
    对 我们能叫上名字的动画工作室
    当然AI对于艺术家来说
    是一个特别敏感的话题
    所以对于这些工作室来说
    往往他们在外面宣发的很少
    但是技术大家都看得到
    他们能看到这些可能的应用场景
    也是很激动的
    他们真的有行动吗
    有的有的
    比如说像动漫
    其实动漫的生产环节相对来说
    是比较流程化
    比如说先从故事的脚本
    角色设计开始入手
    然后把它做成故事板
    再做到原画里面还有一元二元
    然后再做中间帧的动画
    背景同时做
    然后再加上音乐
    最后把这些东西全部合起来
    最后加上配音
    然后再有后期调整
    他们最希望能看的事情就是
    这些流程当中
    有没有这样那样的环节
    可以用AI去提升效率的
    他们找到了吗
    没有
    其实
    我们待会儿可以说一下
    为什么没有
    没有 对吧
    就是举一个非常具体例子
    AI其实在动漫当中有一个
    特别特别明显的潜在应用场景
    就是中间帧
    比如说我们刚才讲一个人喝咖啡
    他用手拿起咖啡杯
    然后放到自己嘴里面然后喝一口
    这里面可能就会有三个关键帧
    关键帧大概是手拿到杯子
    可能形成一个
    这个我们要画一张画
    然后杯子拿到嘴边可能形成一个
    这个我们要画一张画
    然后喝一口
    喝完之后什么状态
    杯子是什么角度
    这个我们要画一张
    可能有三张
    而动画只有这三张
    它肯定是很撕裂的一种体验
    所以为了让
    大家会觉得跳帧

    感觉中间漏了一点什么
    所以为了让整个动作变得很流畅
    我们需要在这三个关键帧当中
    进行补帧
    如果说我们是一个特别细节的
    是一个很靠近这个人的镜头的话
    中间可能要补不少帧
    中间帧这个过程
    和关键帧这个过程的绘制
    在动漫行业当中一般是两个步骤
    而关键帧的绘制大家都会觉得
    是一种非常富有创造性的活动
    中间帧的绘制相对来说就枯燥一些
    因为
    实习生做的活动
    所以中间帧的绘制也往往是
    动漫行业新人第一个会上手的工作
    而中间帧的绘制往往是很多人
    想到AI能不能用于帮助我们
    提升产能时候的第一个应用场景
    它这个需求相当于是
    我给你两张原画
    然后你根据这两张原画
    来生成中间的这一系列动作
    还不仅仅说是文生图
    它其实是图生图
    还是图生视频
    图生视频
    因为视频也是一系列图
    对对对
    所以基本上就可以理解为
    是一个图生图的一个过程
    而这个过程从技术的角度上来说
    听上去好像不是特别困难
    无论是美国这边的大学也好
    创业公司也好
    甚至包括硅谷的一些院校
    国内的院校还有公司也是一样
    往往是关键帧生成上
    时不时的就会发布一些
    很厉害的一些论文
    每一两个月可能就会看到一个
    我们在关键帧生成上
    又有了什么什么突破
    哪些公司在关键帧上比较有突破
    非常非常多
    B站前几周
    就发了一个挺不错的论文
    就B站的研发团队
    他们自己也在研发这方面的技术
    对对对
    甚至说美国的一些比较独立的
    一些科研团队
    都有做出来很不错的结果
    我们看到这些当然是很激动的
    但是理想总是非常的丰满
    现实其实相当的骨感
    我们这次去参观的工作室
    都有尝试在用AI辅助中间帧的生成
    但问题就在于效果不够稳定
    不够稳定
    其实这四个字当中最关键的
    一个词是够
    要多少才能够用
    这个是一个特别特别
    玄妙的一个问题
    对 能不能还是用我们
    刚刚喝咖啡的这个例子
    来解释一下什么叫够
    可以 没问题
    比如说这个人他穿的是一个夹克衫
    这个夹克衫在运动的过程当中
    可能会产生皱褶
    或者说我们这个人的手
    可能会产生一些
    我想要去表现的一些光影的变化
    或者说他带了一个手套
    这个手套上有一定的纹理
    或者说这个咖啡杯上
    画了一个什么东西
    那么这个时候关键帧
    就开始出现一些很玄妙的
    一些问题了
    比如说我们在拿起咖啡杯之后
    生成了一个关键帧
    这个关键帧由AI做出来
    可能90%
    大家已经看不出什么问题了
    但是很有可能这里面
    就会出现百分之五到十的差错
    而这个差错就会对动画制作流程
    产生特别大的影响
    它就不是一个连续性的过程
    你人用物理跟常识去看
    就会觉得别扭
    对 而且这有些时候还不是物理的问题
    这有些时候是一个创意性的问题
    因为动漫的制作
    它也并没有追求每一帧
    都完全符合物理世界的规律
    往往更多的是我希望
    它在这种创意的允许范围之内
    它可信且好看
    而这两个问题都会产生
    比较严重的问题
    在可信这方面
    如果我的这一个皱褶
    一下出现突然一下消失
    又一下出现又突然一下消失
    那它如果真的播放的时候
    是不是会产生一种很奇怪的观感
    这个袖子上到底有没有东西
    大家可能会联想到
    是不是跟剧情的关系
    对对对
    尤其是像动漫这种媒介
    因为实际上每一笔
    都是由人画出来的
    所以它实际上每一笔后面的思考
    尤其是在很厉害的
    这些动漫的大师上面
    都会有非常深奥的思考
    就是它可能会有铺垫在里面

    你本来是一个AI
    做的一个不完美的作品
    它只是因为它不完美而已
    但是观众会把它作为
    一种剧情的铺垫去解读
    这个绝对是其中一个很大的原因
    尤其是当我们比方说把一段
    很激烈的动漫当中的打斗
    非常慢的放之后
    就会发现其实每一帧的动作
    相当的夸张
    夸张到你如果真的把这一帧拿出来
    纯粹作为一个物理世界的这种考量
    它就不是一个正常物理世界当中
    应该存在的事情
    它就是一个导演也好
    动画制作师也好
    在这种夸张的动作之下诞生的
    一种美学上的思考
    而这种在AI当中
    为什么会特别容易产生问题
    其实就是如果有那百分之五到十
    它的细节不好的话
    这个东西不一定好改
    不一定好改
    就是在衣服上加几笔
    这个褶皱是很难的
    这个其实比我们想象的要困难
    这个也是为什么说很多时候
    我们觉得AI好像
    能够做关键帧生成很不错
    但其实足够用这个够
    这个字里面的标准相当的高
    假设我们用AI拿起咖啡杯喝一口
    生成了十张关键帧
    这十张关键帧每一张都不错
    但是每一张都在不同的地方
    出现了5%的误差
    这十张拿出来之后
    我们还是要交给作画监督
    原画师还是要交给他们审查
    那么真的节省他们时间了吗
    不一定
    还不如就直接自己画了
    可能有些时候
    还真不如自己画来的更快
    95%的10次方这个正确率
    最后就可以算出来吗
    对 这个正确率会发现
    好像也没有那么大的帮助
    这个更牵扯到尤其是现在
    生成模型的一个问题
    如果比方说我中间
    是以十个实习生在帮我画
    我至少可以非常详细的
    告诉他你们错在哪了
    我们可以把他们加起来一起开个会
    但是AI很难可控的生成
    你想让它把这个褶皱去掉

    它可能改的不是这个地方
    它或者它还是会出现这个错误
    对 这个就是细节当中的魔鬼
    真的就显现出来了
    如果是十个实习生的话
    我至少能够很稳定的知道
    每次我交过来的稿件都会变得更好
    AI就不一定了
    包括我们现在也有
    这些masking的这些技术
    但实际上最终还是存在一个
    我让AI从90%到95%
    再从95%到100%
    这个过程真的不一定比人快
    而这个往往在影视行业也是这样
    比方说在好莱坞的特效也是
    真人也好 CGI也好 对吧
    我们现在就说一个车
    嘣一下爆炸了
    其实这个事情
    如果在好莱坞来做的话
    这个是我真去炸一辆车
    还是说我用CGI做
    如果我用CGI做的话
    那这个爆炸它有多大
    它是否产生烟雾
    它是什么颜色的
    产生出来的碎片应该往哪些方向飞
    这些在很多导演当中
    都是相当重要的细节
    而AI至少在目前阶段还很难
    对于特效也好
    像动漫我刚才讲的细节也是
    做到如此精细程度的控制
    这个我觉得也是将来AI如果
    真的在影视行业全面落地的话
    可能会比较需要长期投资
    和发展的一种关键技术
    就是对于非常详细的
    创意细节的把控能力
    而且你这个其实难度挺大的
    因为你要细节到每一帧

    对 我记得之前我们聊天
    你说正好听到
    一个詹姆斯卡梅隆的演讲
    说他每一次爆炸都会爆破几百次
    对吧
    是模拟几百次 如果没记错 对吧
    对对对
    卡梅隆其实一直以来也是一个
    非常对技术友好的一个导演了
    他自己本身
    也有工程师的背景在里面
    很朋克很厉害的一个人
    他们拍电影的过程当中
    对于技术性的要求
    对于美学的追求很高
    他对于自己手上的工具的可控性
    其实上有着相当相当高的要求
    还是在那个不够好
    这个够这个字到底有多详细
    我们也可以刚好借这个话题
    聊第二类公司
    第二类是什么
    完全放弃已有动漫行业的工业流程
    想要以AI为核心
    做一种以AI为主的
    新的动画制作流程的公司
    这类公司往往更偏向于创业公司了
    很多这些公司可能也不一定
    有非常丰富的动画制作的经验
    他们实际上并不是说我拿AI过来
    我去优化已有的一个流程
    不是 他们就是说我的流程
    就应该从零开始围绕AI来去做
    看AI有什么能力
    然后我们来做什么样的动画
    对 就是AI有什么能力
    我们就干什么的事情
    能出什么样的作品
    比方说中间帧AI制作很难
    无所谓
    我们就不做中间帧了
    或者说我们对于中间帧的
    制作的方法就跟之前不一样了
    我们之前聊了一个公司
    叫Kaka creations
    他们在今年做了一个
    大概30分钟左右
    声称是95%用AI生成的一个小动画
    Kaka creations
    对 这个公司当时在网上
    也是引起了轩然大波
    刚好又是Open AI大家把照片
    吉卜力化的风口浪尖上
    这家公司其实人特别少
    可能也就十人左右
    也非常早期
    他们因为看到了这些
    视频生成模型很有趣 想做
    那他就说那我就从零开始做一个呗
    他们的关键帧
    还有他们的中间帧
    很多是动捕的
    是有一个人实际在演
    然后又把人演的这个部分
    利用AI换成动漫的风格
    有点像风格转换
    它其实是把人眼的
    这个视频捕捉下来
    还是说图像捕捉下来
    再把它导入到大模型里面
    把它做成一个动漫风格
    有点像吉卜力风格的这样的一个
    我们还是用刚才那个例子
    他们的想法是这样的
    既然现在AI画画存在很大的缺陷
    我们就不考虑这个方法了
    我们就实际录一个人拿了一个咖啡
    喝了一口水
    然后把录出来的
    这个素材丢到AI里面
    把它转换成动漫的风格
    你觉得做得好吗
    我觉得做的还行
    多少分
    七分
    十分是满分
    十分给个七分
    然后六分及格
    六分及格
    七分
    就是我觉得属于
    确实还行的一个状态
    成本应该是会比
    动漫视觉化节省一些
    肯定低
    现在的话存在很大的
    科研成本的问题
    这个技术的做出来东西有多好
    其实也不知道
    但是七分其实如果真的
    从一个动漫纯制作角度来说
    不算一个特别高的得分
    但是如果说它能不能及格
    我觉得能及格
    但是非常明显的
    看出这个是AI制作的
    它跟传统的这些动画相比
    它的表现力
    美学上的这种设计
    坦率的说还是差不少
    举一个例子说
    美学上的设计有什么不一样
    比如说本来做3D模型
    2D模型
    我得把它一帧一帧画出来
    得把一个3D人的这些动作
    都给摆出来
    我用动捕的话
    就直接人打打就结束了
    那这个效率多高
    从一定程度上是的
    但问题是如果真的做在动画里面
    其实上大家会对于更夸张的表现
    往往会有一种美学上的追求
    动捕如果真的做成动漫
    其实经常会产生的一个问题
    就是它显得特别僵硬
    我懂了
    就是它不够夸张
    它不够夸张
    它不够有艺术性
    对 它不够夸张 它不够有趣
    对吧
    就是因为我们实际上一天到晚的
    看周围的世界就是一个
    很真实的一个世界
    如果我真的是喜欢这种风格的
    我干嘛不去看真人电影
    对的对的对的
    就举一个例子
    比如说人笑
    他的嘴巴的弧度是有限的
    但我们通常在动漫中
    那个眼睛非常大
    然后你那个笑
    嘴巴可以一直延伸到很大很大
    对对对
    它就是一个夸张的效果
    但我们会觉得很可爱
    会觉得很有意思 对吧
    哆啦A梦
    就是嘴笑的那么大
    然后眼睛都眯成一条线了
    这个就很好玩 对吧

    这个东西如果拿动捕来做
    它就会有另外一些技术上的难度
    所以动捕有好也有坏
    最终呈现出来的效果实际上
    是一种美学上的取舍
    Kaka creations这个就是
    它的其中的这个案例之一
    但我觉得也是一种思路
    也是一种思路
    一种挺好的思路的
    比如说背景的话
    一般不是也是画的吗
    那我们就不画了
    我们就拍张照
    然后拿这张照片上AI说
    你把照片给我转个风格行不行
    其实背景反而是最容易成立的
    尤其是静态背景
    它就不太那么容易穿帮
    这不是已经构成了
    可以在传统的动画产业链中
    有一个环节
    至少你的背景空镜头
    可以用AI来做
    说的很对
    其实奈飞之前改编手冢制成的
    这个Pluto有个剧集很好看
    奈飞也就公开声称
    自己在Pluto的背景制作当中
    已经引入了AI生成的背景
    确确实实是一个很实在的落地场景
    对于实际效用的提升来说不好说
    因为背景在动画生成当中
    本来就是一个比较平行的线
    一般来说
    画人 画动作
    比画背景要更复杂不少
    而且背景估计也不占成本的多少
    有些时候还会占不少的
    是的
    但是在很多时候
    新海诚就是一个典型的例子
    新海诚作为环境狂人
    他的背景的制作他就不会便宜
    那这种背景也不可能用AI生成了
    因为他对背景的要求高
    那人家对于背景的要求可能
    确实是超过目前AI的可能性的
    是是
    我觉得
    但是绝大部分情况下
    背景不占动画制作过程的主要部分
    所以说有没有帮助 有
    背景确实是一个很具体的一个案例
    这个案例我觉得也是将来可能
    会看到更多的动画工作室
    来做的一个方向
    但是它并不是动画制作瓶颈的大头
    对 所以我们刚刚
    其实聊了两类公司
    一类是传统公司对于AI的探索
    简单来说
    他们现在还是一头雾水
    还有一类就是完全按照
    一个新的方式去做动漫
    你觉得有中间派吗
    有一些非常奇特的用法
    这个也是超出我的想象力
    我们聊过的一个动画工作室
    他们实际上是
    一个传统的动画工作室
    然后他们再看关键帧行不行
    不太行
    看背景行不行
    有可能行
    但是背景又不太能够真正意义上
    产生那么大幅度的时间
    和成本上的缩减
    那怎么办呢
    说我们给导演做
    一个ChatGPT助手怎么样
    他们是跟他们公司的
    一个导演合作
    他就说导演你就把你之前
    所画的这些故事板

  • E197_一位动漫制作人的日本之旅_七大模型多模态之争(3)

    包括你给之前的话
    提出过的这些建议
    包括你写的这些脚本
    我们把它丢给ChatGPT
    然后我们就告诉ChatGPT
    你现在假装自己是这个动画导演
    对一个新的项目进行评估
    所以他们最终
    有用吗
    怎么样
    我非常需要
    这个还真有用
    而且觉得有用的
    并不完全是他们自己
    而是导演本身
    尤其是大项目的动画导演
    他面临的工作量实际上
    是非常非常不是个人
    能够完成的一个量级
    而且其实他是所有的项目
    都会汇总到他这里

    他要去做决定
    他要去看整个项目的审美

    每一个环节行不行的人

    所以说很多时候
    比方说看到有些地方
    画的不好的时候
    我们叫作什么作画崩坏
    很多人会觉得那个导演不行
    这个不正确
    因为导演尤其是在
    动漫的这种产品当中
    他永远不可能去亲自的
    把每一帧的画都拿出来去修正
    那不可能
    这完全不是一个正常人
    能够完成的一个工作量
    所以他为了保持一个优秀的质量
    那个导演下面他会去组建
    他信任的这些原画师也好
    这些修正的专职人员也好了
    他会需要一个团队
    而这些团队当中
    如果有人掉链子了之后
    其实反而比导演本身更容易
    产生作画上的质量问题
    而导演本身因为
    他需要反馈的东西太多了
    故事板怎么样
    脚本怎么样
    我画的这个风格怎么样
    颜色对不对
    我画的这些动作时间上的安排
    合不合理
    情节好不好
    他作为一个总的策划人来说
    实际上他的精力也是非常有限的
    对吧
    所以这个公司他们的产品卖的好吗
    其实蛮好
    就是相当于是一个导演助理的角色
    对 这个是一个动画工作室在做
    这个动画工作室
    他是做给自己用
    还是他的产品
    做给自己用
    他们完全是在自用
    挺好的 这个想法非常棒
    对 他们完全是在自用 对吧
    所以他的意思就是说ok
    导演我现在给你做了一个
    ChatGPT的一个虚拟助理
    如果接下来有下面任何
    一个环节需要你提供反馈了
    要不你先把它
    给ChatGPT过一遍对吧
    然后ChatGPT要说这不行
    你看看它说的有没有道理对吧
    然后他们也是这样试验了一下
    最后这个导演觉得还不错
    其实在动漫行业这些导演
    和制片人的这一类人当中
    很多人对AI有着更开放式的
    这种研究探讨的态度
    我个人认为很多一方面
    也是从他们的角度上来说
    确实经常出现
    心有余而力不足的情况
    所以AI会帮他真的抠到每一帧
    那你觉得AI给的意见靠谱吗
    我觉得实际上甚至AI
    也不一定能帮他抠到每一帧
    但是在一些比较关键的一些节点上
    其实AI即使能够帮到他
    百分之四十五十
    也是很有用的
    至少作为一个观点
    了解
    比方说一个导演一天8到
    12个小时
    比如说其实真的生产起来
    可能比这个多
    是十八个小时吗
    可能比这还多
    但我们就假设说是10个小时
    他在这10个小时当中
    可能真的能够非常聚精会神的
    修改的关键部分
    可能每天我觉得不一定
    会超过十个关键点
    那有这个AI他即使每天能够
    修的关键点能从10个变成15个
    那这也是一个巨大的成功
    那看起来质量提升了30%
    那感觉是有这个希望 对吧
    对对对
    然后你从日本回来之后
    你觉得对你们如何做动漫
    然后要不要使用AI工具
    对你整体上的观点会有改变吗
    我觉得改变还是相当大的说实话
    大家对于AI
    一方面来说就是更欢迎
    然后另外一方面来说也是
    更偏向于相信它未来的可能性
    但是他如果真的作为一个工具
    嵌入到平时的这种生产过程当中
    那确实还要面对这样那样的
    细节当中的魔鬼
    所以你对AI就是日本之行之后
    你反而对它的态度是更谨慎了
    这个是我听出来的
    这个是一方面
    另外一方面也是因为我们看到
    有很多现在以AI为核心的小团队
    实验的出现
    我们也觉得很激动人心
    我一直觉得人类对于艺术
    人类对于创作的追求
    是一件永恒的事情
    人类我觉得从上千年上万年前
    就开始在洞窟上戳画画 对吧
    而这次从日本回来之后
    我也更思考的一件事情就是
    如果我们真的把AI
    作为创作工具的本身
    那么围绕AI
    会不会有新的可能性产生
    有没有可能说我们现在能够看到
    以前完全做不出来的东西
    比如说特别特别复杂的衣服
    动漫的设计当中不太适合
    出现特别复杂和华丽的服饰
    因为这些服饰的制作
    还有把它动起来
    那就需要有大量的人力物力
    我理解 就是一个服饰
    如果它特别复杂
    上面还有花纹
    那这个动画师在画它的时候
    就要吐血了 对吧
    就每天28个小时的工作时间
    就出现了
    但是如果有AI的话
    这可能就会成为
    一种可行的视觉语言
    但服饰也不重要
    就是在整个动漫中
    不好说
    不好说吗
    这个我一直以来
    抱有一个很开放的态度
    因为我们目前看到的
    尤其是2D手绘的动画
    它的服饰都相对简单
    并不一定代表说
    复杂的服饰它就不好看
    而是因为制作上的原因
    我们只能这么选
    我能想象一些场景
    比如说一些打斗
    它还是需要一些复杂的服饰
    或者在你体现一个
    王这种概念的时候
    对对对
    或者是甚至说一个打斗的案例
    一个中世纪的一个骑士
    其实他的盔甲的结构是相当复杂的
    而如果把这些全部复杂精密的
    这种盔甲的结构
    完全的用手绘的方法画出来
    那可真的是不知道做到什么时候
    也确实有可能得不偿失
    比方说身上会挂很多挂饰
    或者铃铛的这种角色
    相对来说这种角色的服饰
    在现代动画当中可能相对罕见一些
    但如果有AI的话
    这些变得更好做了
    它会不会产生
    新的一种创意上的可能性
    对于这件事情
    我其实抱有相当的开放式的态度
    我觉得也是一个很值得期待的领域
    与此相对应的
    比如说动漫的这种上色的方式
    现在是怎么上色的
    AI是怎么上色的
    基本上就是填充
    没有了
    这个就是开玩笑
    这个有点半开玩笑的意思
    听众朋友们可能在小时候
    也玩过windows上面的涂鸦工具
    然后里面有一个大家
    可能都玩过的工具
    叫做油漆桶 是吧
    就是你画一个圈
    油漆桶一点
    这里面突然一下都变成一个颜色了
    其实现在大部分上色
    就是这么上 就是油漆桶
    但你不觉得其实这就是人类
    重复密集劳动的部分吗
    这个就是技术与创意产品之间的
    一种非常微妙的关系

    这就是我们最想交给AI去做的
    对 就是技术的限制
    它会产生一种形式的创意的结果
    像希腊雕塑的这些大理石
    大理石它本身就是一种限制
    大理石上的上色
    当时的颜料的技术实际上
    非常的不成熟
    所有的颜料都很难在历史的
    化学反应当中被保存下来
    那就导致了很多我们现在看到
    希腊时期的这些大理石都是白色
    但是就因为有这样的
    技术上的这种限制
    反而在后来
    比方说我们新古典主义时期的时候
    大家又来看
    觉得白色反而是一种特色
    但是后来当我们的这种印染的
    或者对材料控制的技术
    又上一层楼的时候
    我们之前买的
    这种变形金刚的玩具也好
    哆啦A梦的这些小玩具也好
    动漫的这些手办也好
    由于我们人类对于塑料的
    这种化学工业已经
    到达了一种非常非常先进的程度
    它又诞生了一种完全不一样的
    美学的可能性和生产的体系
    我希望AI它最应该做的事情
    并不是说把已有的创意
    给用AI自动化
    但是AI它最美妙的
    最有趣的地方应该是说
    我因为产生的这个工具
    有没有什么我以前因为
    各种各样的原因做不到的事情
    现在可以做得到了
    如果我们有这样的愿景的话
    那我觉得人类与AI
    在文化艺术方面创意上的
    这个未来应该是一个
    非常另人期待 百家争鸣
    百花齐放的一种理想状态
    如果我们说在此过程当中
    艺术也好 文化作品也好
    它的创作上忽视了
    这当中一个具体的艺术家
    那这我觉得也是
    一个很不应该的事情
    是 你能不能简单介绍一下
    你现在每天的工作
    然后你的工作中是怎么样
    跟大模型发生这种
    就是每天会使用它的
    我们现在每天的工作
    主要围绕动漫制作产生
    比方说未来的项目
    它写故事 设计角色
    然后跟进已有的项目
    我们就去跟进它的产能的状况
    有没有什么问题
    还有一些是更偏向于商业上的
    那就更典型的一些制片的职责
    比方说项目的融资发
    宣发 制作资源的整合
    对于我们来说可能比较特别的一些
    因为我们本来这个 IP的起源
    也比较奇特
    它并不是一个漫画
    也并不是一个小说
    它是一套NFT的头像
    所以我们也会尽可能的
    会想着有没有什么AI
    能够跟头像直接产生一些
    有趣的化学反应的方法
    AI是不是也可以直接
    帮你们生成Azuki头像的作品
    肯定是可以的
    对 因为我觉得其实你们是一个
    非常典型的AI的应用场景
    因为NFT它就是需要
    有各种不一样的
    符合你们风格调性的头像
    但是每一张都要不一样
    对也不对
    一方面来说我们肯定跟AI生成
    这方面是结合的非常的紧的
    那另外一方面NFT它本身
    有着比较强的收藏属性
    我们人手工的制作以及它的稀缺性
    可能会成为比它是由AI做出来的
    这件事情要更重要
    所以不能用AI做
    在Azuki头像生成过程当中
    我们肯定没有用过AI
    为了保持它本身的
    这种收藏属性的价值
    我们也会控制它的供给量也好
    也会有尽可能的
    用我们的艺术家也好
    设计也好
    把它打磨到最好
    所以就是AI如果足够发达的情况下
    它会解决了一种生产上的问题
    但是AI它不解决宣发的问题
    比如说我现在拿AI
    做出一个五分钟的短片
    但这个短片怎么样宣发
    它是否拥有商业价值
    它是否能让一部分
    看到它的人觉得感动
    这些都不是AI
    现在技术上正在做的事情
    这些除了技术上的考量之外
    又需要很多非技术的
    对于动漫也好了
    文化作品也好了
    有着非常深层理解的
    这些导演 创作者
    他们来去把这件事情给挖清楚
    那你现在每天用到AI做生成
    大概是一些什么样的环节
    我们大部分的时候在实验
    比方说你现在
    有一个Azuki的头像
    我们能不能把你
    用AI把这个头像动起来
    来作为一种技术上的尝试
    有意思
    这种情况下我们就不打破它
    原则性的收藏性的基础上
    提升了一些它趣味性
    对 然后你之前有提到
    七个大模型每周都在进步
    你追我赶
    可能不止七个
    现在已经不止七个了
    对对
    你觉得是哪些方向的进步呢
    是从什么时候开始进入到
    这种你追我赶的时间点的
    我感觉这种万马奔腾的状态
    真的很接近
    可能是从七八个月前开始的我觉得
    是有什么关键的模型发布吗
    Sora
    我觉得还不是Sora
    实际上可灵
    Pika还有Runway
    在几个重大节点上的发布
    可能比Sora还要更具有代表性
    Sora当时一开始发布的时候
    如果我没记错的话
    好像还有一定的争议
    因为大家对于它的漆面普遍偏高
    但是最后生成出来的效果
    还不一定有想象中的那么好
    但是我记得
    确实就从那个时间点开始
    基本上这几家大模型
    就进入了一个你追我赶的状态
    你追我赶表现在什么方面呢
    版本更新的频率
    还有AI模型稳定性 速度
    对于关键词的理解上面
    都在以一种非常惊人的速度进步
    能不能举几个例子
    这个变化实在是太快了
    那我们就用ChatGPT来举例好吧
    OK
    它之前发布了吉卜力
    大家去改的时候
    这个是今年的事情
    还是挺近的事情
    两个月前 四五月份
    我记得当时在ChatGPT发布之前
    谷歌的Gemini放了一个
    实验性的feature
    当中它就已经做到了
    用文字来编辑单张图片
    这个能力已经做到了
    一种非常惊人的程度了
    在Gemini和ChatGPT这一波之前
    实际上如果我们单从图片考虑的话
    可能大家用Mejourney
    和Stable Diffusion还更多一点
    但Mejourney和Stable Diffusion
    对于文字逻辑的理解
    坦率的说不是特别的强
    比如说我给一张照片
    然后我说把这个照片
    变成一个吉卜力的风格
    就这么简单的一句话
    在谷歌的Gemini和ChatGPT上
    一句话就能解决的事
    而且效果还真不错
    很厉害
    迎头赶上是吧
    几周之后ChatGPT
    就出来类似的东西了
    然后
    就大家互相
    我觉得还有一个因素
    是当一个功能大家确定了
    某一个方向可以这样做的时候
    其实抄起来是很快的
    确实现在明显有这个感觉
    Luma我觉得也是一个很好的例子
    Luma我觉得我之前印象非常深刻的
    是它的给一个起点
    给一个终点
    你是说关键帧是吧

    拿茶杯跟喝到水的关键帧
    对对对
    我们就比方说给一个起点
    给一个终点
    然后让它把中间给补全 对吧
    我记得去年年底的时候
    他们有一版
    这个效果整体就做的非常不错
    很快 我觉得甚至可能是同时
    中国的可灵这个模型的关键帧
    尤其是在动漫这个风格上面
    它的那个补全的质量就更高
    为什么现在很多大模型
    它在动漫方向的进展
    好像比它在真实的物理世界的
    进展看起来是要快的
    我感觉这个还存在
    模型与模型之间的区别
    就可能是训练员素材的问题
    对 而且有可能是跟这些团队
    不同的侧重点有关
    可能尤其是对于中国的团队上来说
    因为大家都比较习惯
    也比较喜欢动漫二次元的这种画风
    那对他们来说去往这个方向做
    是一个相对来说
    比较自然而然的反应
    而在美国方面
    实际上现在很多
    比如Pika Runway
    像Luma他们我觉得
    在特效上可能就做得非常的不错
    也很难说技术上来说到底哪家
    跟哪家之间是否存在
    真正意义上的代差
    所以你觉得
    在视频模型上是没有代差的
    包括中国的这些大模型
    中国还有哪些做的比较好的
    你刚刚提到了混元 可灵
    混元 可灵在动漫方面确实不错
    Vidu我记得是
    Vidu对
    也是动漫生成相当不错的一个
    开源的模型
    我记得是One wan I think
    中国的这些模型
    我觉得从生成质量上
    完全不输于美国的模型
    而且从迭代速度
    甚至产品的终端用户体验上来说
    甚至比美国的公司还要再好一些
    所以我觉得
    因为会做产品
    我觉得真的是
    我觉得真的是
    而且生成更快而且更便宜一些
    美国的这些按月付费的
    这个其实真挺贵的
    很快就能用完
    我觉得最新一次视频模型的发布
    其实是在Google IO期间
    Google 发布的Veo3
    它其实是在常规的
    这种视频生成的基础上加入了声音
    它有音画同步
    包括有口型 这个难吗
    这个有点像我们刚才讲的
    ChatGPT和Gemini
    他说的单个语言文字
    来去做图片的这种编辑
    这件事情本身从技术上来说
    当然是挺不错的一个成就
    但如果真从模型本质上来说
    我反而觉得应该没有那么的复杂
    可能很快我们就会看到其他家
    也会有类似的产品出现
    音效生成

    现在视频模型能生成的
    最长的视频是几秒
    目前很多的都在
    10秒15秒 20秒这种区间
    如果再往下生成的话
    就确实会出现

  • E196_稳定币之战_Circle崛起之路与传统金融入局的新势力角逐(6)

    其实并没有大规模支持
    2020到2021年DeFi 之夏
    才开始大规模支持
    这个时候正好碰上了
    USDT被纽约监管部门调查
    出了一些问题
    大家都质疑USDT储备金的质量
    然后一下起了量
    起来以后迅速地追进
    差一点就追上的时候
    发生了硅谷银行事件
    一下又掉下去
    USDT大规模的扩张
    所以到今天这个巨大的差距
    其实转折点就是硅谷银行事件
    我可以大胆地说
    如果没有硅谷银行事件
    我认为现在的老大可能是USDC
    而不是USDT
    所以我会觉得这个里面
    确实偶然性很大
    然后又像刘总讲的
    后面它怎么又复苏到现在这个规模
    跟索拉纳生态的爆发也有很大关系
    因为索拉纳上面
    主要还是USDC 80亿 现在
    然后USDT比较小
    只有20多亿等等
    所以我是觉得
    很多时候我们看龙一龙二
    我们总觉得好像
    开了后视镜上帝之眼以后
    我们总觉得
    好像这些事情都是必然的
    它就是有这样的一个气势
    但是如果我们看这些节点
    我们看这些路径
    我们发现这里面充满了偶然
    稍微一不注意可能就换位了
    我会觉得未来的竞争会非常的激烈
    我现在我说实话我看不太清
    甚至你说USDT现在这么强势
    五年以后会不会仍然是龙一
    我不知道
    那USDC现在是第二
    它五年以后有没有可能成为第一
    甚至有没有可能滑落
    我也不知道
    所以我只能说行业总规模
    我非常看好
    但是竞争态势我觉得会越来越激烈
    而且也取决于
    法规的长臂管辖的这些能力
    而且我还想最后再补充一句
    我们现在讨论的
    全是美元稳定币的竞争
    但是我们有没有想过一个问题
    未来的稳定币只有美元稳定币吗
    未来难道不会
    受到其他稳定币的竞争吗
    这是一个非常重要的开放式问题
    还有一个follow up question
    那就是未来在跨境的支付领域里
    有大量的是进出口贸易
    和大宗商品的这些场景
    那这些场景的稳定币又会是什么呢
    我稍微补充一个追问
    现在大家其实在谈到稳定币的时候
    我觉得主要的应用场景
    还是在交易所 在链上
    就像迪刚刚提到的
    未来比如说在跨境贸易中
    这些稳定币
    它也会有它自己的使用场景
    就是你觉得
    稳定币入侵到我们日常生活中
    比如说现在美国的venmo
    它已经可以跟朋友转账之间
    是用稳定币了
    我不知道有没有人用那个功能
    即使我自己有稳定币
    我可能也不会随意的
    把这个稳定币转到上面
    它还是需要有一些
    日常的生活化的场景切入的
    你觉得从to C跟传统的
    完全消费的视角
    因为大家现在在提PayFi
    稳定币它是能进入到日常生活中
    或者你日常的购买中吗
    首先泓君你提到的一个问题
    是指的已经有稳定币的这些人
    这些人本身就是一个小众群体
    他主要是CEX
    和链上的这些交易用户
    然后你说他能不能拿着稳定币
    到线下或者线上去支付 去交易
    但是我觉得你想问的
    其实是第二个更大的一个场景
    就是我现在没有稳定币的这些人
    未来能不能去经历稳定币支付
    我想说这个问题分发达国家
    和发展中国家两部分
    发展中国家的这些人
    其实在拉美也好 在非洲也好
    包括像土耳其通货膨胀巨高
    货币贬值很厉害的这种国家
    其实在相当程度上已经稳定币化了
    甚至说美元稳定币化了
    他们是符合第一种场景的
    他们可能不见得是活跃成交用户
    但是他们钱包里都有U
    或者有BTC
    他们也希望这些U能在线下去交易
    但是一个更广的场景是
    很多的发达国家
    有大量购买力的这些人
    他在跨境支付的时候
    甚至境内支付的时候
    是不是能够直接走稳定币的通道
    加快速度来减少这个摩擦成本
    所以这就是我说的
    无损的这样的一个支付场景
    就是说后台确实
    可能是用稳定币支付的
    但是你根本不需要了解它
    比如说你这边是美元进
    那边是欧元出
    但这个中间是用了稳定币支付
    你直接刷了一张美元的信用卡
    或者美元的借记卡
    那边是一个欧元产品
    你直接支付了
    你完全不需要知道什么是稳定币
    就我还是跟以前一样用钱就行了
    至于你这个发给我的钱
    还是美元稳定币
    还是欧元稳定币
    还是我们说现在的美元
    其实不重要
    这是to B到to C的场景
    对 其实现在稳定币
    PayFi公司想做的就是这个事
    我怎么样能够无损地
    嵌入到现有的金融体系
    而不是去造现有金融体系的法案
    我不是要推翻现有金融体系
    我是怎么样提升这个效率
    所以这样的一个态度
    现在的银行和支付机构是很喜欢的
    卡组织可能它会受损一些
    我算过 大概我认为卡组织
    可能它的毛利会下降5到8个点
    然后它的收入会掉20%到30%
    但可能他们也不得不拥抱
    你说visa跟mastercard对吗
    对 就是由于你现在稳定币
    支付服务解决方案公司
    这些PayFi公司
    像布瑞吉也好
    像连连数字合作CVNK也好
    等等这些公司
    它们推的方案
    都是怎么样能够去嵌入
    现有的金融体系
    所以也不需要教育用户
    我说过这个做生意就是说
    教育用户是一个最蠢的事情
    不要教育
    你就是从后台
    去改造整个这样的一个支付体系
    这样慢慢地去潜入
    去润滑以往的经济体系
    最后大家其实也不知道
    稳定币其实已经占了这么大份额
    但是很可能那个时候稳定币
    已经统治全球的后台支付体系了
    这样才是method adoption
    这是我的看法
    至于C端它要能用这个稳定币
    我觉得一定是AIagent
    已经很发达了以后
    你只要语音操控一下
    它就做了
    你对钱包也不是太懂
    你也可以做
    这就像微信支付和支付宝
    其实它的底层技术都是很复杂的
    但是你不需要知道
    你就知道微信支付和支付宝
    很快 很便宜
    然后扫码就能支付
    这就是我们C端全部知道的东西
    但是其实它underline
    很复杂的底层技术
    我们是完全不知道的
    我觉得稳定币支付
    未来就是要做到这样的一个效果
    才能够大规模推广
    Ok 了解 挺好的
    我特别喜欢迪讲的最后这部分
    就是说如果我们真的
    对稳定币的使用场景
    有想象力的话
    我们不应该想我们今天
    是不是还要再去弄一个
    所谓加密货币钱包
    而是应该是可能在未来
    我们每个普通人做的支付工作
    在背后可能都是稳定币
    在进行清结算
    这个可能就会是一个巨大的突破
    以及如果真的敢想象的话
    将来在AIagent的这个世界里面
    其实稳定币或者是以加密货币
    区块链技术驱动的这种稳定币
    其实是最合适这种
    AIagent的来使用的一个支付场景
    所以这才是具有想象力的
    感谢感谢 非常精彩
    非常感谢
    好的 谢谢
    感谢感谢
    非常感谢