E179_DeepSeek技术解析_为何引发英伟达股价下跌_(4)

调用API完成一些基本的工作
那更复杂一些工作呢
它其实可以offload到语音上面
这样的一个层次化的一个智能
对吧但是它其实很多的这种平台上
一个手表
它已经能做非常复杂的这种推理了
而且你这手机上像高通的芯片
其实它的这种推理的能力可以达到50TOPS
它其实是一个非常大的一个算例
没有比A100差多少
所以很多小模型
他其实可以胜任
很多大模型已经在做的事情
然后这个对于降成本
提高AI的触及程度是有很大的帮助的
小模型是本地的还是联网的
本地的所以我理解
未来我们整个世界里面
可能会有各种各样的小模型
当这个小模型不够用的时候
他再去调动这种大模型
这样就可以极大地节省
这一部分的推理成本
对我觉得就是未来的AI的Intra
应该是一个层次化的
它最小的可以到端上面就是在传感器里边就做一些非常普通的问题
在边上也会有更多的AI的功能
然后到云上对吧
端边云我认为它未来是一个整体
之前我说过一个数字
如果你做一个简单的计算的话
你把全世界
刚才我说的端上和边上的这个算力
你乘一下
你会发现
是全世界HPC里边的GPU的算力的100倍
那这个是非常可怕的一件事
因为它的量太大了
高性能GPU
可能是以百万片的级别在出
但是你像手机
像边上的这种端上的
它都可能是以10个billion
就是这种100亿的这种量级
或者手机比如说是10亿这种级别
然后到Sensor的话
它又会带那么一两个数量级
当它的volume上去以后
它的加起来的算力实际上是超大的
芯片够用吗
比如说高通的芯片
它可以做很多很复杂的功能
就是说从小语言模型嗯
一直到visual language model啊
到Audio的ASR什么的
很多的功能都胜任了
所以其实对于这些
我管它叫做初级的AI的功能
不管是agentic的还是perception的对吧
就感知的很多
我认为在这种edge platform和End point身上都是可以完成的
最后呢
最复杂的一部分任务会交到云上面来
然后第二个事件是
你会发现全世界其实99%到90%的数据
其实也在端和边上
但是现在大部分情况是use it or lose it
就比如
你不可能把camera的所有的这些video
全都传上来
所以如果你有AI的function在端和边上
你可能会能够把最有用的数据传上来
这个其实是价值是巨大的
所以其实现在的这些数据
都是没有被UNLOCK的
然后在未来的话
当你的AI的初级程度变多了以后
你可以认为初级的AI模型
反而是可以充当大模型的一种
数据压缩
这样的一个角色
对然后
现在大家部署的是DeepSeek的小模型吗
还是Llama的
其实可能都不是它一个
整个生态有
然后有Qwen的
然后有Llama的
有DeepSeek现在出来的一些模型
也有很多自研的
所以我觉得整个生态里面
其实只能说是越来越多的
这样的小模型在涌现
而且他们的能力在快速提高
选模型看中的关键点是什么
首先它必须得快
对吧得小
这是它的效率的问题
但是除此之外
它必须得足够好
因为没人会为一个小
快但不好用的模型买单的
所以就是说
你一定要保证它所处理的任务呢
它能够胜任
这个我认为是叫做鲁棒性
就是AI的鲁棒性
这个很重要
我们就说一个话筒降噪
你放到这里了
那它必须得能够保证我的一个音质
它不能最后出来的很粗糙
那我是不会用它的
那我可能还是要用后期的处理软件
啊我理解了
所以其实我觉得在应用端的话
大家看的并不是说
最前沿的模型是什么
而是说最适合我的模型是什么
就是哪一个模型它能保证
比如说我在话筒里面加一个降噪功能
它最后出来的兼顾音质跟
降噪它能调整到一个最优水平
然后在这个情况下
选成本最低的就可以了
是的是的是的
对
那最后我们再来讨论一下AGI的问题
我看最近Anthropic的CEO跟创始人
Dario Amodei他自己在他的文章里面
他也是说了这个
人工智能发展的三大动力曲线
第一个就是Scaling Law
然后这个我们就不解释了
然后第二个
大概就是说在人工智能发展的过程中
通过比如说算法的改进
然后芯片上的改进
各种各样的方法
它可以让你的训练的效率跟数量级
再去提升一个
比如说每年4倍或者10倍的速度
第三个呢
他就是说整个的训练范式
其实也在改变
比如说从2020年到2023年
整个业界
他用的方法就是预训练大模型的方式
但是其实在2024年
几乎所有的公司都意识到了
大家要在预训练的这个模型上
加入强化学习这个思维
练的方式去训练
但是大家在这个步骤上
其实花的钱不够多
就比如说以前从这个10万到100万美元
那如果我把这些步骤
比如说拉到1亿美元会怎么样
通过这三个方式
他是觉得整个人工智能的发展
按照现在的速度算
他会是指数级的增长
然后他的智能也会指数级的提升
所以他有一个结论非常震惊我
他就说大概在2026年到2027年
他觉得AI会在任何行业任何场景下
比绝大部分的人会聪明
他用的是“almost”这个词
“almost”我觉得应该99%对
嗯他做出这样一个预测
就2026年 2027年这
样一个预测呢
我认为还是非常有勇气的
嗯你觉得没有那么快
就是如果你说5年以后的话
我认为可能是更稳妥一点
因为5年以后的事情
谁都不知道怎么回事
但是如果你说是明年的事
因为现在是2025年了
如果说你明年在各行各业
都要超越大部分的人
或者是我再多给一年 2027年
我认为这是有挑战的
嗯单个任务呢
比如说写代码
写代码其实是提高效率
但是你说超越人
我觉得不是这样的
就是很多你会发现这些低级别的
这个任务确实很繁琐
它确实可以加速
但是人工智能
它真正用在应用里的开发还远远不够
因为你如果这么去想一下
这个全世界的算力
它主要是应用在训练上
还是应用在推理上
以前可能主要的都是应用在训练上
随着这种大模型的能力变强
随着AI的开发成本下降
所以它这个AI的应用上的
所用到的算力其实已经提高了很多了
对我觉得替代人可能是他
是一个应用层面的事情
但我觉得从他的角度来说
因为他其实自己
是一个大模型公司的创始人
我想他说的应该是指
模型能达到的这个智力水平
对如果不解决学习的efficiency
的这个问题的话
我其实觉得大模型的智力水平的话
是无法跟人真的放在一个级别上的
OK对
所以你觉得达到Yann说的这个efficiency
它大概需要多久
比如说三个数量级
对就是我们当时讨论的时候
这个三个数量级后
来我们就简单
我做做了一个这样的一个计算
我其实觉得
这个还有非常大的不可预测性
因为这里面需要基础研究
现在我们当前的人工智能
跟人所能达到的能力
或者自然natural intelligence的政策
和artificial intelligence的智能
它们之间的一个efficiency效率差距
我认为不管从功耗
从模型尺寸
从学习所需要的数据
都差至少3个数量级
跟人相比
对功耗的话
你可以想
人的这个大脑其实非常efficient
它在运转的时候
你在醒的时候
它的功耗大概相当于一个20瓦
那么同样的话
你可以想象
我如果要是有一个600个billion parameter
这样的一个模型的话
你就可以想象大概我需要多少张卡呢
大概是需要16张卡
这个样子
大概对应的是一个2万瓦的一个量级
那么哎
你看20瓦和2万瓦差了三个数量级
人呢假设咱们在20岁之前
只能access不超过10个billion token
那么Llama的这个训练的数据量
也是15个trillion
那么15trillion和10个billion的话
那又是刚好是大概三个数量级
这个样子
第三个例子
你说如果你看自然界的这些小动物
你看像jumping spider
它可以做非常复杂的三维的navigation
这样的模型
在我们现在自动驾驶里面
所做的这些navigation的模型的话
基本上是billion级别的parameter
而你看jumping Spider
它只有几百万个神经元
刚好又是3个数量级
所以我觉得
自然的natural intelligence和Artificial intelligence
它存在这样至少一个3个数量级的efficiency的差距
如何unlock这个差距
或者bridge这个gap
我是觉得需要基础研究
现在整个大模型的进步
让你看到了这个希望吗
我觉得大模型的进步
其实并没有看到这个希望
但是大模型之外
像这种reasoning planning
或者是neurosymbolic representation
这种逻辑推理呀
也好啊然后像这种search也好呀
像因果呀
causality啊也好呀
我觉得这个似乎都在正确的路上
而且这种data的curation
这个data的迭代
就是人其实是非常擅长的
做一件事情
是说我学一个东西
然后我找到哪里学习最有效
然后我focus上学这些东西
对吧我要搭桥等等
原则上来讲的话
如果机器能有这样的能力自我去提升
我认为这个就像人相似了
但是目前呢
很多的时候
你的机器的提升
是来自于人来给你准备数据
所以就是human in the loop对吧
然后他也给你做更好的curation
什么时候这个过程能够基本自动化
模型他能自己给他一个Internet
他上去自己提升自己
能够make every token count的话
那我认为这样的话
可能距离人的智能就更加接近了
所以你是觉得整个基础研究
已经走在了正确的路上
类似于类人智能的这些基础研究
基本上在全面开怀就是
呃我觉得是
有有很多这样的比较有意思的研究
但是呢基础研究
它虽然我们的发展速度一直在加快
但是基础研究本身有一种不可预测性
有可能
明天有个小神童什么的
就找出来一种就unlock的这个密码
然后大家就happy的
这个问题solve掉了
它是计算机领域的研究
还是人脑领域的研究
我觉得它其实是在数学
计算机和人脑
工程几个的一个交叉的一个进展
当然目前的话工程占主导地位
就是在工程上面
你可能尝试很多这样的想法
就是更快
主要是工程上的
我认为在这件事情
工程上面走的
在最近的十年
都走的比其他领域都要快一点
因为主要是你可以做实验嘛
不管你怎么想
你最后可以有更高效的实验效率
因为数学的话
你要证明
证明的话
其实有的时候这个数据太复杂了
你无法证明
对吧就所以计算机或者说工程
in general它close这个loop更方便一些
嗯对
John你对Dario的观点有什么想法吗
我觉得这说的差不多吧
然后我只要觉得他说完全能超过人
这里头最大的一个瓶颈
可能在于domian knowledge吧
比如像我创业这么多年
你要说一个机器能超过我创业的经验
就我觉得可能比较难
因为我创业经验只有我自己知道
对我也没有把这些东西数字化了
那在不同的行业里头
大家都会有自己的经验
在增加自己在某项工作中的一些wisdom
那他们是不是把他们所有知道的东西
全都数据化了呢
而且把这些数字化的这些数据
都给到了某一个模型
我觉得这个可能是比较大的一个工程
所以就基于这点
我觉得机器超越人可能没有那么快
我觉得应该不会是这两年的事情吧
主要我觉得就是一个数据的一个壁垒
所以你觉得现在数据
会是整个大模型训练中
遇到的一个
达到AGI的一个核心的门槛吗
我认为还是模型自我提升能力
就还不到
数据的能力
我认为是他如何自己去提升
人在学习的过程中
其实你是不断在寻找学习的信号
然后自己去做一些思考的
很多的这些思考都是内化的
可能不是外界来的这个token
嗯不是说我们外界的
整个世界的数据不够了
所以我学不好
这学不好还是我自己的问题
呃然后还有第二点是说人
就是你如果看专家的学习的
他其实是一代人比一代人更强的
第一代人
他我要反复尝试
这尝试有点像是一个搜索的一个过程
比如我有一天在野外蹦蹦蹦蹦
蹦到一个地方
然后跳出来一个蘑菇
然后我可能会把这个记录下来
他就变成了后人的一个knowledge
所以人其实学习的高效性
很多的时候
也不是说因为我探索的高效性
而是说
我把之前学习最重要的一些knowledge
记下来然后
后面所有的人的学习效率都提高了
不管是围棋啊也好
音乐也好
对吧
每一代人他们探索出来一些新的技术
他会被记录下来
后边的人就会用上
这种高效的学习方法
之前有一本写的非常好的书叫做pick
就是讲如何做专注的这种学习
我其实觉得大模型可能来训
练之前的大模型
然后用来做出更好的数据
然后再提升自己
然后训练出来下一代的大模型
也可能这会变成一个趋势
但是说到底
我认为还是要解决那个efficiency的问题
就是说我们如何用少量的头盔
获得那么强的泛化能力
我觉得这个是一个圣杯问题之一啊
现在业界有哪些流派
最近其实争议挺多的
我看Yann他之前就是你的博士生导师Yann LeCun
他一直是不太认同纯强化学习的方式
Anthropic
其实他们在Sonnet 3.5之后
它一直还没有特别好的
一个推理模型出来嘛
但是比如说OpenAI O1的这个推理模型的思路
包括这次DeepSeek放出来的
R1的这个思路
我觉得其实在业界
在2024年可能也是一个
就是稍微标准一点的做法了
当然Yann他也有不同的看法
所以我是在想
在整个大模型的这个训练的
范式的转变上
你觉得业界现在还是一个争议很多
大家有完全不一样的思路跟方法
还是慢慢的
就像你刚刚说的
你就没有创新了
大家都是归一了
我觉得有很多创新
只不过说
当你把很多的capital bring进来以后
你说我要快速scale
大家scale的方式
有点让我看起来
感觉好多的时候是有点单调的
创新的点其实还是有很多的
我其实觉得样一直在推动的
叫做世界模型嘛
这个世界模型
其实当时是因为
我们看了David Ha的那个文章
叫world model
我觉得哎
概念上没什么新的
但是名字很酷
一个polish的名字
而不是说几十年前就有的这个概念
然后我们就后来就adopt
这样的一个名字
那在我看来
这个定义其实超级简单
世界模型其实就做的一件事情
就是说给定当前的状态
给定当前的action
就是你的行为
预测未来
当然你能预测的越好就越好吧
但只不过说大家有不同的侧重
这个是一个非常重要的概念
我觉得世界模型是一定应该发展的
举个例子
就是你刚刚定义的那三步
只能举一个具体的例子吗
什么是世界模型
一个具体例子
其实GPT
你可以认为和世界模型相当像
就是generative portraining
它里边的有一个声音
就是说给定之前的context
过去的token
就所有的词
然后预测下一个
网上的各种数据
哎对
我预测下一个
这里面和世界模型唯一的区别就是

E179_DeepSeek技术解析_为何引发英伟达股价下跌_(4)

评论

发表回复取消回复

更多文章

聊聊2025 Google I_O与Gemini背后的灵魂人物(5)

聊聊2025 Google I_O与Gemini背后的灵魂人物(4)

聊聊2025 Google I_O与Gemini背后的灵魂人物(3)

聊聊2025 Google I_O与Gemini背后的灵魂人物(2)

E179_DeepSeek技术解析_为何引发英伟达股价下跌_(4)

评论

发表回复 取消回复

更多文章

聊聊2025 Google I_O与Gemini背后的灵魂人物(5)

聊聊2025 Google I_O与Gemini背后的灵魂人物(4)

聊聊2025 Google I_O与Gemini背后的灵魂人物(3)

聊聊2025 Google I_O与Gemini背后的灵魂人物(2)

发表回复取消回复