E179_DeepSeek技术解析_为何引发英伟达股价下跌_(1)

欢迎收听硅谷101
我是泓君
大家过年好
大家春节过得怎么样
我是整个春节期间
都有被DeepSeek给刷屏
而且它其实不仅仅是在中国火
它也是现在硅谷
还有华尔街讨论的热点
那DeepSeek是在1月26号那一天
登上苹果APP store榜的榜首的
从那之后的18天
它的下载量是1,600万次
如果我们对比OpenAI发布
ChatGPT的同期下载量了
它是ChatGPT同期下载量的1.8倍
现在呢已经成为了全球140个市场里面
下载量最多的应用
那DeepSeek引发关注的另外一点
它的出现
也带来了美国科技股的全线下跌
在1月27号的那一天
英伟达它的跌幅就接近17%
市值蒸发了5,890亿美元
按理说像DeepSeek这种低成本高性能
同时还是开源的模型啊
它的出现
应该是带来整个AI创业的繁荣
那市场呢
就应该需要更多的GPU
那所以按照这个逻辑推理
英伟达的股价应该是涨而不是跌
但是为何英伟达不涨反跌呢
这期节目
我们就会详细的来解释这个问题
那除此之外呢
我们也会深度解析DeepSeek的核心技术
以及对整个芯片产业
还有开原生态的影响
在过去的这一周
我们在硅谷
做了10个跟DeepSeek相关的深度采访
我们就不一一在播客里面呈现了
大家感兴趣的话呢
可以去观看硅谷101的视频
我们现在也正在加班加点的制作中
那下面就先请收听我们今天的播客
那今天我们来聊一聊
最近可以说是大家都在热议的DeepSeek
那跟我在一起的呢
也是大家的老朋友
加州大学戴维斯分校
电子与计算机工程系助理教授
陈羽北
羽北你好
你好

还有一位是Inference.ai的创始人与CEO
John Yue
John你好
那今天其实正好羽北
我觉得
你可以从模型跟算法的方向来讲
然后John
可以跟我们从算力的方向来分析一下
正好是在两位这个专业的方向上啊
那我觉得
首先
可不可以先总体上给大家介绍一下
就是为什么这次DeepSeek一出来
它立刻不管是在股市上
还是说在中美之间的这个讨论
它都引发了大家的关注
那羽北
你先从技术上给我们简单分析一下
他有哪些比较惊艳的表现吧
我觉得
这次就是引发这么大的一个讨论的话
首先就是DeepSeek
在所有的这些Language model的团队里面呢
它本身不是一个非常的
知名的一个团队
在之前就很多人其实不知道DeepSeek
他们很低调
第二个是说呢
这次媒体报道出来的一个talking point
我觉得是说他们低成本
然后用基本上用不是最好的算例啊
然后用很便宜的价格呢
就超越了OpenAI
那我认为这个呢
可能对于很多不了解以前的
他们的背景的读者吧
他会造成一定的冲击
对整个的股市也会造成一定的冲击
然后第三个呢

它确实这次DeepSeek做出来的这个模型
在Benchmark上跟O1达到了一样的
差不多的水平
甚至更好
伯仲之间
所以这个可能对大家也有一个冲击
就是说是不是美国的leadership不存在了
我觉得主要的引发这么大的一个讨论
是从这么几点来的
我觉得就说
这个报道还是有一定的片面性的
嗯对对
我觉得在展开以前我非常想follow一下
你刚刚说的
就是是不是美国的leadership不存在了
你怎么看这个问题
这可能也是大家最关心的一个问题
我其实觉得当然DeepSeek的技术很好了
但是我实际上感觉
就是说在泛化能力上面
我的一个初步的一个感觉
还是说O1的这个模型呢
在一般的任务上的泛化能力
还要更强一点
第二个呢是说我觉得有一点确实是
就说大家在大模型上的这种技术
大家对他理解和技术
或者说做的方法
在一定程度上我觉得这个速度下降了
就是大家想的有点相似
做的很多东西在收敛
那当这个时候的话
他其实不是美国的技术
领先的一个问题
而是说是整个学界大家的想法
这种创新性
我其实觉得在这一点上是有convergence
这个确实让大家会觉得有这么一点
就是slow down
就是会下降吧
整个的速度
你说创新的速度在下降
或者说我感觉大家的想法
很多的时候是有点像没有
那种你说出来
我我压根就没有想到的这种想法
好多时候在这种越来越少了
你指的是
比如说大家都开始认同
强化学习的方式是
是这一点
我自己一点粗浅的理解
这次我反而觉得
这个强化学习
是被大家过度提到的一个东西
当然一会我们可以再说这个细节
但是从DeepSeek这次的进展
我认为虽然这个强化学习
在这里面占了很大的一个比重
但是在我看来
其实是基础模型本身的能力
这个实际上是很强的
你说V3其实已经是一个很强的模型了
对我觉得V3是一个
本身它的基础能力是不错的
为什么呢
因为在如果你仔细看他的这个文章
里面有一个数字
你可以看到
在R1Zero没有进行强化学习之前呢
生成100条
它的成功率如果没记错的话
也已经是在10%左右了
这是一个非常非常显著的一个性能

4o是多少
4o的话
我印象中是最后到了七八十吧
但是呢基本的一个概念就是说
他在前期ten percent是一个非常高的number
在我看来他用了一个GRPO的方法
本身的这个policy gradient
这个方法呢
在我看来
我我的理解是
这也算是一个比较粗糙的一个模型
就可以认为
那后来在网上有
我看到有小伙伴说PPO也可以
就是其他的RL的方法也可以
那么我觉得如果要是这样的话
那其实最主要的这个进展
我认为是在这个基础模型的前期
他已经达到了一个ten percent
我觉得这个是非常好的一个性能了
当模型的基础能力
达到一定水平之后呢
你可以
通过一个这样类似于Search的方法
能够自我进行提升
如果你可以找到一个比较方便的
一个reward的话
就是这种学习的奖励函数的话
那你就可以实现自我的提升
所以
我觉得这个是一个蛮好的一个message
但是我觉得
反而强化学习
在这里面的地位是次要的
所以我总结你的观点就是
你觉得DeepSeek之所以好
本质上还是因为V3的表现非常惊艳
V3的表现经验其实是他们
比如说用MOE的各种方式
去让这个基础模型
它的整体的性能更好
然后R1
只是说
它在这个基础模型之上的一次升级
但是你觉得V3比R1跟R1Zero更重要
我觉得他们都有一些重要的点
V3呢里边的重要的点的话
我认为基本上都在
和model架构的efficiency上的提升
我觉得在V3里面的话
有两个比较重要的工作嘛
就是一个是MOE
以前的话
你会发现不同的Expertt
它的load balance做的不太好
所以
当你把它分散到不同的节点上的话
它的load balance会有问题
所以他们在这一点上
做了一个load balance的优化
同时呢它在Attention的这个layer的话
它要节省这个KV cache
其实也是在提高这个架构的efficiency
就是它的性能吧
这两点作为它的核心的创新
然后使得它在一个600多B的
一个Megatron级别的这种大模型上
然后它的基础模型的表现其实已经挺
不错的了
那么这次DeepSeek R1Zero的时候呢
他们其实做的第一件事情就是说
我先设计一个非常简单
直观的奖励函数
那管它叫做rule based这种奖励函数
对吧然后基本上就我刚才说的
你要保证你回答的这个数学题
它要绝对正确
你的回答格式也要绝对正确
然后呢他一个基本想法
就是说我就用DeepSeek V3的方法呢
每次你问我一个问题的时候
我回答他100条
然后我再从这100条里边去寻找
那些增强这些回答对的回答的比重
就是实际上它绕过了reinforcement learning
我认为就是强化学习里边
最难的一个问题
就是稀疏的奖励
就比如说我回答100条
回答1万条他都不对
那么我其实就没有办法去提升了
因为我根本就没有一个学习的方向
因为所有的时候都是错的
对吧反而是说
如果我做的这个任务
已经有一定的成功率了
我加强这些成功率的这些部分
我觉得这件事情
就使它从一个稀疏的奖励
变成了一个比较稠密的奖励
同时我也就不用再用去搭桥去建模
去学中间的一些奖励的函数了
所以我感觉就说
这里边是一个
他的借助V3的基础的能力
有一个挺大的提升
同时呢在R1Zero里面告诉我们
如果一个模型的基础能力已经不错了
那么我是有可能通过这个模型
自我进行提升的
其实这种思路和model predictive control
和世界模型啊一些想法
其实是有很多的相似之处的
只不过是
我现在在这里
解决了一个最简单的一个问题
那么第二个
我觉得看似是一个显而易见
但是这次也产生了很大影响力的
一个结果呢
就是说我可以先训一个这样
600多B的一个大模型
然后我让他用自启发的方式对吧他
因为他可以回答100次
然后用Bootstrap的方法
逐渐提高这个能力
从原来10%
可能后面提到百分之七八十
用这样的一个方式呢
我先学一个大模型
然后我就可以用大模型去教小模型
然后
他们后面做了一个非常有意思的实验
就是说在Qwen上面做了到1.5B
一直到三十几B
然后这样的模型
他们都做了这样的一个distillation
蒸馏学习
你用大模型学出来的
这些reasoning和planning的能力
你可以来教这些小模型
提升他们在相关问题上的表现
我感觉是一个相对来讲
比较容易想到的一个点
因为其实在所有的自我增强的这种
或者说monopredictive control啊
model based RL啊等等里边
面临一个核心问题
就是说如果你的模型不够好
那么我在上面提升的话
我就刚才又说的这些方法
这种通过search搜索的这种方法
其实表现都不会太好
但是你如果用一个大模型
他的搜索能力可以了
对吧
他本身的自己的模型表现好了以后呢
然后你已经学到的这些能力
你直接教给小模型
这个是可以的
嗯所以我听下来
觉得DeepSeek整体上它是一个组合
拳就是它每一步跟它接下来
比如说它从V3到R1Zero到R1
每一步它的方向上
都是有一些策略上的可取之处的
那你觉得在硅谷的这些公司里面
比如说像OpenAI Gemini
或者像Claude.AI
包括Llama
他们有去沿用这样一套
就是train模型的整个的方法吗
呃我觉得是有的
就是说很多的这种想法
其实都是在之前的工作里面都有
比如我印象中在DeepSeek
V3的这个模型
他们用到了Multi head latent tension
之前应该Meta有一篇工作专门讲的
就是一个Multi token的一个layer
其实也有相似的效果
我应该有很大的借鉴
然后reasoning和planning的话
之前也有过很多这个方面的工作了
当然这个process的这个reward呀
像这种model base方法呀
我其实恰恰觉得这次DeepSeek
R1Zero它们取这个名字
在一定程度上和这个Alpha Zero有点像
你们是什么时候
关注到DeepSeek这家公司的
以前他们应该就一直在发一些文章
但是真正特别仔细的关注
还是最近的事情了
就是之前一直在V3啊
V3出来开始
但之前应该也有一些文章
他们应该一直在发
嗯之后呢
我应该是12月的时候听说的吧
也是V3
对V3
但是当时也没有很注意这件事情
因为大家都觉得可能美国还是AI领先
很多国内模型虽然说跑分跑得好
但是大家也不知道到底是怎么跑的分
却没有很多心情去关注
而且尤其对我们就是客户
如果不提的话
我们也不会去深入研究这个东西
但他这个应该是就是微软的那个CEO
最近发了一个Twitter
那个发完以后才火起来的
他其实火了好几波
我是在2024年的年终
就不停有人发给我DeepSeek的文章
其实当时就是还有一个硅谷的媒体
叫SemiAnalysis
他们就写了一篇文章
就是说V2是他们见过的现在最好的
质量最高的开源模型的文章
那个时候大概2024年的七八月份有一轮
然后V3
我印象中
最开始是像Andrej Karpathy
他们几个意见领袖
在Twitter上说啊
这个模型很棒
然后开始把V3带火的
之后股市的英伟达的价格跌
其实是在R1出来之后的几天嘛
我其实是在想
这个市场它是怎么发生的
为什么在这个模型出来
差不多之后的一个多月
才引发了股市上的连锁反应
我还是感觉
这个媒体的报道
给大家的一个印象是说DeepSeek
他用了很少的钱做出这样的大模型
就好像说OpenAI
你烧了这么多钱
然后他做的跟你一样
对对对对对
第二个印象是说
其实我觉得整个market是emotional的
就是很多人
他可能过来会问我这样问题

DeepSeek是不是不用英伟达的最好的芯片
但是我说它背后的资方是幻方
对吧那我们又知道
幻方实际上是它是算力的一个大佬
这个也可能报道
也会对于不了解幻方的人来讲的话
对心理上会造成一定的冲击
所以我认为
首先训练所花的
总共的研发的成本是不低的
第二个事情是我认为啊
如果没有搞错的话
就是
也确实用到了英伟达最好的一类芯片
那么从这样的两点出发来讲的话
我其实觉得
市场是没有必要因此而恐慌
对吧就是说啊
英伟达的芯片不再被需要了
随便出来一个小的团队
就可以花几百万美金来挑战OpenAI了
如果公众是这样的印象
造成这样的恐慌的话
我觉得是没有必要

我其实是想问一下John
就是因为你是做GPU的
就是你觉得R1出来
对英伟达它到底是利好还是利空
就为什么它的股价会跌
这应该是一把双刃剑
就是有利好也有利空
利好这边就很明显了
就是DeepSeek出来
其实它是给了人们很多的想象空间
以前很多人都已经放弃做这种AI model啊什么
现在它其实是属于给了大家很多信心
让更多的这个初创出来
可以去试探更多的
这种application的
应用层面的一些possibility
那如果有更多人做APP的话
那其实
这是英伟达最希望看到的一个局面
就是AI整个行业被盘活
那大家都需要买更多的卡
所以这样的话
其实看起来是对英伟达更好的
那更差的这一面就是英伟达的溢价
确实是受到了一些冲击
但是这里头
可能很多人刚开始是以为
它的壁垒被冲倒了
所以一下就跌了特别多
但是其实啊
就我感觉也不是说壁垒被冲倒了
没有那么严重
壁垒是什么
就是英伟达
它其实是有两个最大的壁垒
一个是它Infiniband 芯片互联
然后另一个是CUDA
是它那整个一套调用GPU的这个系统
就是他跟AMD啊这些其他芯片公司
其实已经不是在一个层面在竞争的
因为其他的人都是在争
就是我单张卡我的性能怎么样
但英伟达其实争的是
就我互联的这个技术怎么样
然后我的软件调用软件
Ecosystem的这个维持是怎么样的
所以英伟达真正是这两个壁垒
那这两个壁垒
DeepSeek其实都有稍微冲击到它的溢价
但并没有把它的壁垒给冲垮
就是怎么冲到他议价呢
刚才一位说他那个MOE做的优化

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注