是不可能绕过去的一个点
不管说
我们做大模型的各种各样training
实际上最终
我们希望能让它实现类人的智能
那么不管说
我希望它能够做问答也好呀
我能够预测未来也好呀
然后呢可以去做coding也好
或者说去做这种推理和规划的能力
其实都是希望能赋予他人这样的智能
但是人有一个非常非常的强的能力
就是人的学习的效率极其之高
有两种估算我觉得都是有一定道理的
第一种估算是baby LLM在里边的一个估算是
到人的13岁之前
你所接受的token还是word小于100 million
第二种估算呢
是说假设从人出生开始
每秒钟你可以take in 30个token
大概是10个词
你每天12个小时
20年
这个你最多是10 billion的token
那么这两个数放在这
然后呢我们说Llama 3
它的pretraining
其实已经到了15个trillion了
所以你看我们的大模型
实际上现在一直在操作的一个思路
是说我们要scale
就是更大的模型
更多的数据
更多的计算
然后让我们的模型更强
这个没有任何问题
但是呢你会发现
它比人所拥有的数据的数量级
已经开始大了
3个4个数量级
那么这个时候
可能我们要反问一个问题
为什么人可以如此高效的方式来学习
我认为推理和逻辑
还有规划的能力
可能是
构成这样一个高效性的原因之一
可能还有因果呀
等等的一些其他的原因
然后我认为发展大模型的过程中
如何实现这样的高效
也是非常重要的
所以现在大模型跟
人脑相比
它的学习效率还是低很多
就是至少从数据上来看低很多
几个数量级的方式低
这个非常像当年的蒸汽机
刚一开始出来
我记得我看过一个数
就是早年有一个估算
说它的这个能量的效率是0.02 percent
那到今天可能是有20个PERCENT对吧
哎刚好也差了3个数量级
所以我觉得
什么时候我们对数据的燃烧的效率
可以提高3个数量级
这是当年我跟Yann讨论
他启发我的一个问题
我们有次在吃午饭的时候
聊到这个问题
什么时候我们觉得数据的
我们的燃烧效率可以提高三个数量级
的时候可能这种general的intelligence
或者human level intelligence
就可能更加可能一些了
但是在此之前呢
我认为只有scaling可能是不够的
对我跟大家解释一下
羽北刚刚提到的Yann
是指Yann LeCun
他的中文名字是杨立昆
他是羽北的博士后导师
也是图灵奖得主
跟Geoffrey Hinton和Yoshua Benjo一起
被称作是深度学习三巨头
他同时也是Meta的首席科学家
待会呢
我们会有一部分专门去讨论AGI啊
那个时候我们可以详细展开
聊一下他的思想
那在此之前
我们先把DeepSeek的这部分聊完
我们先说一下开源
你们觉得DeepSeek他选择开源的这条路
它对行业的生态具体会有哪些的影响
就比如说
我知道
最近可能在美国的一个论坛Reddit上
大家很多
已经开始去部署DeepSeek的模型了
然后其实
我很想知道他选了开源以后
这个开源到底是怎么去反哺他
让他能把模型做得更好的
对最近我们其实也部署了一些DeepSeek
这种模型在我们平台上面
我觉得它开源
其实是一件
对整个AI行业非常好的一个事情
因为去年下半年以后
大家会感觉有一点失落
因为AI application看起来都起不来
起不来的有一大原因
就是很多人觉得
OpenAI其实把所有application的壁垒
基本都当打掉了
个百分之八九十吧
就大家其实都是比较惶恐的
就是我做一个什么东西
然后
明年是不是OpenAI出个什么O4啊
什么就把我这东西全部带了
那我如果做这个东西
建立在OpenAI上的话
那就更麻烦对吧
我建立在OpenAI上
它出了一个新的模型
把我的application完全包含进去了
那我在价格上也没法跟他争
我在功能上没法跟他争
那这就导致很多人其实就压手对吧
他就不太敢去做
然后VC也不太敢进来
那我觉得这次DeepSeek给他开源
其实对整个行业的一个好处就等于
就是大家都有了自己的OpenAI
我其实就是作为一个小的
这个application Developer
我不再害怕OpenAI出下一版本
把我淹没
或者把我淹到我没法跟他竞争
或者我的产品就干脆再用他的API
然后我就直接就死了
那我现在用的是一个开元的
做非常好的一个模型
那这样的话
我其实有一定的这种continuity
我就有更大的
更多的信心去做更多的application
那DeepSeek
如果它再能有能力去超过OpenAI的话
那这个事情
我觉得对整个行业就更好了
就等于说是有一条恶龙
现在它不存在了
那大家其实发展的就能更好一些
那更多人用它的
其实它就跟Llama的逻辑是一样的
有更多人用
然后有更多反馈
所以它的模型能做得更好
那DeepSeek它其实也是这样
如果有更多的application Developer
大家都觉得用这个
等于自己拥有了自己的OpenAI
那它收集数据的速度
肯定是比其他的model都快很多
嗯对
现在我们能看到一个开源的模型
它在整个的性能上
已经跟OpenAI的O1
我们说可以说超过或者说接近
但是基本上是同一量级的
对不对那可以预期OpenAI它很快发了
O3 mini之后呢
开源模型可能也会升级
也会有下一个版本
再来超过这些闭源模型
这是我是在想
当一个开源模型
它的性能足够好的时候
OpenAI就是这些闭源模型
它存在的意义是什么
因为大家就直接可以拿到
这个开源模型的底座去用了
DeepSeek的意义在于它的价格降了很多
它是开源的
它跟OpenAI最前沿的这些模型
差不多好
它不是说比OpenAI已经好了
那确实就说它后来这个闭源模型
它有什么意义呢
意义就在于
它可能还会是领先的一个趋势
就像苹果安卓对吧
苹果其实还是比安卓
好的这是leadership and concentrate
它更有可能做出更好的这个产品
但是开源的意义可能就在于
它像安卓一样
就谁都可以用
然后非常便宜
那这样它降低了进入行业的门槛
所以它可能才是真正
让这个行业蓬勃的一个因素
然后这些闭源的模型
它有可能是一直领先的
闭源如果还不如开源
那可能就没有意义
但它应该是有management上面的这个优势
它应该是超过开源
那现在看起来
确实是有一批闭源不如开源的啊
那就自求多福
哈哈哈如果必然还不如开源呢
我也不知道这公司在干什么
你还不如免费好
我觉得开源的生态是非常重要的
因为我除了在实验室以外
我之前参与一家公司叫Aizip
这也做很多的全栈的这种AI应用
然后你会发现一件事情是说
很多这种开源的模型
你直接是无法使用的
就是产品级的东西
你无法直接使用这些开源的模型
但是如果有这样的开源的模型
可能会大大提高
你生产出一个这种产品级的模型的
大大提高你的效率
所以你像DeepSeek也好
Llama也好
我觉得这种开源的这种生态
对于整个的community来讲
是至关重要的一件事情
因为它降低了所有的AI应用准入门槛
那其实见到更多的AI的应用
它有更多的触及
这件事情是对于每一个做AI的人
是一个非常利好的一个消息
你其实不希望就说
我们做大量的training
但实际上real life
里面
真正能用的AI的application非常非常少
对吧
第二是它定价定的非常非常的高
这样的话
对于整个的生态
是非常不健康的一种状态
所以
我认为Meta在做的这件事情很重要
对吧就是它这个Llama
一直在坚持open source构建
这样让所有的AI的开发者
都可以做自己的应用
对吧虽然Llama并没有把这个应用
直接给你做完
他给你提供了一个foundation
foundation顾名思义
它其实就是一个地板对吧
你可以在这个地板之上
你可以构建你所想要构建的这种应用
但是呢它其实把90%的任务给你做好了
我认为更好的
这样的foundation
其实对于整个生态
是非常非常重要的
OpenAI下大功夫来优化的一些能力的话
他依然会有这样的优势
但是
我们也不希望这个市场上只有OpenAI
那对于所有的人来讲
可能都是一个不利的一个消息
还有一个问题是
DeepSeek他们
是怎么把API接口的价格给降下来的
因为我看了一下他的R1官网
写的是每百万输入的Token
缓存命中的是一块钱
然后缓存未命中的是4块钱
然后每百万输出的token是16块钱
然后O1的价格
我整体算了一下
差不多
每个档位都是它们的26-27倍之高
它是怎么把这个API的成本
给降下来的
它等于是从上到下
做了整个的一套优化
从PTX这块怎么调用底下的GPU
到MOE的架构的loade balance整个的它都做一套优化
然后我觉得这里面可能最重要的一点
就是它可以降低了对芯片的要求
就是你本来可能非得在H100上
A100上跑
然后你现在可能可以用稍微低端一些
或者你甚至可以用Groq啊
你可以用国内的那些阉割版的H800
或者H20啊这些卡去跑
那这样它其实就已经大幅度的
降低了每个token的成本
然后它里头如果再做优化
比如切割GPU
virtualize GPU啊这方面东西
它其实可以降下来很多
而且OpenAI内部其实也说不定
人家早就降下来
他只是不想降Retail的价格
这也不确定
我觉得主要就是这两个吧
一个是架构上
一个是芯片可以降级
嗯
那芯片降级
未来会成为全行业
一个比较普遍的事情吗
啊我觉得也不会
因为英伟达的老芯片全都停产
所以市面上其实有限的
就比如你虽然可以说啊
我这个能在V100上跑
但是V100早就停产了
而且每年它要折旧
所以你可能过两年市面上就没有V100
英伟达它只会产最新的芯片
那它的成本还是低的吗
如果你在新的芯片上做一些优化
比如像我们做这种切割GPU
那就有可能会变低
因为它这个模型变小了嘛
就我们最近跑它那个7B的模型
其实就是20个g左右
那我们就拿一张H100把它切了1/3
然后就跑这个DeepSeek
那你成本直接就降了1/3呗
可能我觉得后来会是更多的虚拟化GPU
来降低成本
因为如果只是基于老卡和游戏卡的话
首先游戏卡英伟达是Blacklist
你不能用游戏卡去正规的Host
这些模型
然后你用老卡
就是刚刚说的老卡停产
而且老卡有很多维护啊这些问题
所以
我并不觉得它会成为一个主流的现象
嗯所以
其实现在
你们是提供给大家去做芯片优化
然后来去节省成本的
这样的一个工作的
那你最近客户应该是暴增
你觉得这个是受益于DeepSeek
还是说你们一直在做这件事情啊
我们从去年开始就在搞这件事情
我们也是一直在赌
后面会有更多的小模型
然后刚好DeepSeek出来以后
DeepSeek刚才说就是有带来的一个趋势
也是它会蒸馏出更多的小模型
那大家如果跑更多小模型的话
其实就需要不同型号的芯片
如果每次都去用物理芯片的话
可能是比较难弄的
嗯刚刚其实我们有提到DeepSeek
它让它的整个的API成本降低了吗
你刚也分析过它的这个研究方法
就它的这套研究方法
未来你觉得它们有可能会用到更多的
比如说你们在做GPU的分片
跟客户的一些模型中吗
就是它的这个研究方法
会不会带来整个行业的一次
大家对GPU成本更低的一次节省
你就说它reinforcement learning的那些方法吗
对
应该是吧
就它这个出来了
应该是给行业证明了
现在有更优的RL的一个方法
我觉得
后面肯定会有很多人用相同的方法
去做这
个事情而且
尤其是他自己去调用库的这一块儿
以前可能没有人有勇气去试这件事情
当然他们证明了
就我们这么几个博士生毕业
也可以很快弄一个绕过你们CUDA
那后面可能很多的这种模型
公司都会去效仿
那这样的话应该是大家都这么搞的话
成本肯定会下降
所以我理解训练成本降低了
推理成本也大幅的下降了
对所以
你们现在帮客户
去部署这种GPU的时候
客户的主要需求是什么
简单便捷
很快的部署上来
价格弹性价格低
这个价格低指的是前面部署的
还是说整个后面的一套的解决方案
就所有地方价格低他都是开心的
但是我们只能解决他部署这一块的
这个成本
其实是有很多浪费的
所以我们在做这个技术
就是你比如拿一张A100 H100他都是80个g
但你要蒸馏出来一些小模型
或者就是你就用现有的什么snowflake啊
databricks这种模型
那也就是个10个g
有的还更小
那其实你在80G上
不属于一个10个g的东西
你就等于大部分的GPU全部浪费了
但是你还是要付整个GPU的钱
就假如你用H100
你其实是想用它的那个速度
你想要它那个4纳米那个速度
所以你还是要整张卡租
然后你在inference的时候
你的workload其实是一个弹性的
就是有时候你客户就增了很多
有时候就减少了
那如果你一张卡上
浪费了很多的space的话
你扩的时候
其实每张卡上都浪费了很多
那现在我们在做的这个事情
也等于说是我把它虚拟化了以后
你就完全没有浪费
就等于比较简单粗暴的
解决了很多GPU部署成本的问题
这个领域其实还有一个有意思发现
就是说在过去的6-8个月吧
我觉得觉得这种小模型的能力
进展非常之快
这带来一将来一个变革
就是说我之前一开始说到了
全世界有99%的算力是对大家不可见的
大家不会觉得一个arm的芯片里
一个高通的芯片里面
它有这个AI的能力
那么未来的话
如果有大量的这种小语言模型
然后有各种各样的这种VLM
有Audio intelligence等等的这些能力
可能会越来越多的出现
在曾经不会被用到的这种平台上
那现在特斯拉的车上已经用到了很多
但是越来越多的时候
你会发现手机里耳机里
眼镜里哎
眼镜里这个也是一个火爆的一个单品
现在出来很多眼镜的公司
但越来越多的这些设备里边
也会出来这种on device的AI
他们对于降低成本
提高AI的可用性
我其实觉得未来是有巨大的机会的
小模型好用吗
小模型其实在很多的领域
有很多的基本的应用
你可以发现
当你把小模型给到足够的training以后呢
他其实最终和大模型的性能
其实差不多
说一个具体的应用场景
就比如说咱们现在正在录制这个节目
咱们用到这个话筒
话筒里面会有降噪的这些功能
然后你这个降噪的功能
你可以做出来极限小的neural network
这神经网络
它其实可以就放在话筒里边
你把模型放大10倍
放大100倍
然后你会发现它们的性能差不太多
就是最后的这SNR
其实没有太大的变化
那这个时候
你就可以把它放到这里边了
以后所有的话筒里面
都会跑一个AI的模型
然后它已经把降噪的这个东西做完了
所以越来越多这样的功能会集成进来
比如说小语言模型
我们可以放到一个手表上
那它可以做一些基本的问答
发表回复