他们参与的
或者说
他们团队有联系和合作的一些公司
他们也是作为主要的
顾问也好
成员也好
就是参与的公司
那反正参与我就不说了
嗯
我观察到
现在整个在人工智能的这个方向
从学术或者研究向工业的转换
这个链条已经越来越短了
就比如说我们以前在科研跟工业之间
它可能还存在着一个学界
研究得非常非常前沿
但是你要把这个东西拿来应用
它可能是需要花很多年的时间的
但是我觉得在人工智能这个方向
尤其是OpenAI出来之后
特别是大模型出来之后
研究向工业的转换就变得越来越短了
提一个假设性的问题
因为现在整个清华叉院
他的人才密度也很高
同时
你们也有非常多的研究在同时进行
你觉得有没有可能
清华独立研究的大模型
他能够冲出来
因为我知道现在很多美国的高校
他们也在跟美国国会有说
如果我们这个事情
只任由工业界去发展
因为他们是能募集到最多的钱的
那你不给学术界支持的话
其实整个学术圈在这一块
他的研发实力就会变得差一些
所以我是在想
有没有可能未来的一些突破
可以从学术圈先开始
或者说学术圈能做一个媲美工业圈
同样质量
或者更好的大模型
对这有几个角度啊
我不想一上来就给个答案
首先第一个角度是
为什么这个周期变短了
我觉得其实不是转化周期变短了
而是在这个阶段的AI
或者AI的发展趋势
导致AI的发展特别重工程
并且成本越来越高了
导致很多的规模化的研究
不再是一两个研究员可以独立完成的
所以他必须用一个更高效的
或者更强大的运营实体和团队
来完成这样的工作
所以公司会更合适
所以导致很多的工程化的研究工作
移交到了公司
或者说在学校里面很难开展
这是第一个
第二个事情是说
有没有可能在国内取消里面
做出一个媲美工业界的大模型
单说这件事情不太可能
这个就是一个纯成本的问题
就比如说我们就讲训练对吧
我们现在讲大模型就是万卡集群
不说别的
我们要训个大模型要1万张卡
然后我们要多少parabits的数据
好 洗数据谁去洗
我们把那个系统搭出来
要让1万张卡运营一个月的时间
会报错 对吧
谁去搭建这个系统
这都不是几个博士生的方式
可以做完的
那学校的这个运营体制
就是一个以博士生为主
博士生每个人都有自己的课题
这样的大课量的工程
比较像欧洲的那种量子对撞机一样
他就是在这个环境下
是很难指望一个由博士生组成的这个团体
去完成这样的一件事情
当然你说欧洲量子对撞机
是不是也是
由一堆博士生和研究员做成的
其实它也是
但是这个就在于
你需要拨那么多钱
它的成本也很高
但是我就说它不光是钱的问题
你就想是不是我们对于AI的发展速度
允许像量子对撞机一样
花那么长的时间研究一个科学问题
AI其实它的时针要求比那个高
我们客观的说
比如说我们想验证引力波
其实引力波的项目也很大
也养活了无数代的PhD
但是你是不是真的允许我们花30年
花20年的时间去研究引力波这一个东西
一个命题
AI其实不允许
AI这个迭代周期比它快多了
我们如果想象AI的迭代周期的话
他的投入和他到底在多少年
多少短的时间里面
完成的这样的投入
他的组织度是要求非常非常高的
引力波当时花了多少钱
钱也很多
但是他确实做了20年的时间了
当时韦伯望远镜
他的数字是花了100亿美元
其实我们来看的话
我们投入这么多钱去研发AI
它可能也是可以的
这理论上是的
所以我没有说他不可能
我只是说
大家是不是会允许我投100亿美元
30年之后我做出一个AI了
嗯
就大家会嫌太慢了
但产业发展的更快
对产业发展的更快
所以这就是我的观念
就是说在AI
一个它本身是有极大经济价值的
这么一个领域内
你一定非要研究的体制
去完成这么一件事情
其实是很低效的
就如果你让学界去完成
以他的组织形态和周期来看
那么他可能就是会需要3-5年的时间
就3到5倍的时间
才能完成这么一个项目
他不是不可能
因为我们看
我们可以参照所有的这种天文啊
重大科研问题
他是怎么来做的
他是他是可以的
但他就是组织度会更慢
这商业就是一个
如果你有商业机会
他就是组织度更快的
一个更惨烈竞争的一种模式
所以我就想说有没有可能做呢
我觉得是不太可能
因为他没有必要
这是一种很大的浪费
哈哈
理解
还是效率上
它不是一个最高的承载的形式
对
就像特别简单
就是为什么NASA要把它的一些项目
转移到SpaceX
其实是一个逻辑
就是如果他能产生商业价值的话
那商业可能就是效率最高的一种行为
我觉得是没有必要
那么再回到研究本身来说
研究本身他本身在做一件什么事情呢
他其实在做的是一个好的研究
需要以10年为尺度去观看
我们大家可能想的事情都是啊
我们现在做
个研究它在两年之后可以产生AGI
但其实不是的
因为我们去看AGI是怎么来的
它最早最早要提到Hinton
开始做back propagation
把它调work
back propagation的
nature的paper大概是80年代
然后到90年代有Yann LeCun
然后90年代的2000年左右
开始做概率语言模型
然后到AlexNet
之后再到OpenAI Scaling Law
落到Ilya
开始说我们一定要把大模型
用最大的网络
最多的数据
中间得多少年
80年代 90年代
2,000年才有概率语言模型
就神经网络
基于神经语言网络的概率语言模型
就是要需要班主任拿奖的文章
到attention一几年
然后再到Ilya
用一种极其偏执的方式
把大数据这件事情演绎到极致
这个中间
从到GPT3的这个时间点
中间得过了80年代到20年40年
40年的时间
所以我觉得Yann LeCun前段时间说了一句话
我觉得他某种程度上是对的
当然他是经常会跟现场的一些主流唱反调
啊就是他说的话不一定都对
但他有句话说的是
如果你读PhD
那不应该做大于原模型
这句话本身
我觉得对于大部分PhD来说
是不公平的
因为你不能总说你为了Hinton
而让大部分的学生
都不去做这些研究
对吧
大部分的学生99.9%的人还不是Hinton
但是从培养Hinton的角度
如果你想去做一个颠覆式的
最重量级的创新的话
那确实你不应该看现在最火的东西
你应该bet the next big thing
他其实这么说没错
只是说那美国有那么多PhD
你都按你这个来
那一将功成万骨灰啊
对吧
但是某种程度上
科研是应该有人去做
这样自由的探索的
所以我会觉得这个事情没有关系啊
就是如果你想去做大模型
那么现在来看
最合适的体质就是在公司里
在商业竞争环境下他才能前进的最快
如果你想去做的话
就去找一些这样的机会
因为我觉得很多公司也是很开放的
比如说我在Berkeley的时候
很多大公司都跟Berkeley合作
然后在清华的时候
其实你也可以跟很多公司有合作
如果是学术研究的话
我就会觉得还是回归学术研究的本质
你去做一些有意思的事情
做一些有创新的东西
做些大家没有想到的角度
它是回归学术本质的一件事情
什么合适的体制和机制
去做一件什么样的事情
大家没有必要又既要又要
嗯 非常理解
讲得很好
特别有意思
我上一期采访了陈羽北
你应该也认识
嗯我认识北哥
对因为他是Yann的学生嘛
他在节目里面说了跟你一样的
Yann说的这句话
如果你是博士的话
不应该去研究大模型
然后表达了跟你相似的观点
哈哈
很有意思
对 然后你刚刚其实开始的时候
就是你有提到你早期在OpenAI实习
他其实也是一个项目组
一个项目组的
然后他以这种项目制的方式来进行
当时你在的时候
我知道你是在研究智能体的方向吗
2020年他其实是有一篇GPT3的论文出来
就你当时有注意到那个方向吗
因为我记得他还有机器人的项目
对吧
GPT3 其实内部2019年就已经看到了
所有的论文里写的东西
19年的上半年其实大家都已经看到了
当然
这是公司内部非常重要的一个方向啊
那个时候的OpenAI还比较像个研究院
他当时有个
就是对外有个说AGI要怎么去做
他就说那逻辑也特别简单
就是那AGI的话
他肯定要有视觉能力对吧
所以他有个视觉team
有语言能力
有个语言team要决策能力
所以个强化学习team
然后呢他有交互的能力
所以叫多智能team
然后呢
他有一个本体
所以有机器人team
然后呢当然还有安全性啊
解释性啊这些东西
所以就大概这么多个team
所以
它基本上确实是从AGI是怎么来的
方向来定team的
但是呢
所有的这个team有个比较标准的principle
就是我们希望scale up
这个也是OpenAI
其实能跑出来的一个原因
是因为scale up这件事情
这么笃定的坚信的人
其实很少
直到确的GPT
大家发现what
scale up可以出确的GPT
啊哈
那大家一起scale up
就是一个人告诉你他可行的时候
和你根本不知道的时候是不一样的
所以OpenAI是一个知道
他的几个创始人非常笃定的坚信
其实就是Ilya
带给OpenAI带来最大的财富
就是他真的很坚信这件事情
矢志不渝的践行
所以最后排除万难做成啊
就发现真的有这样的效果
所以那个时候
不管是做强化学习也好
还是做大模型也好
还是语言模型也好
就是语言模型嘛
那时候还不叫大模型
就语言模型或者是视觉也好
大家都是采取scale up的路线的
现在不在小规模计算上去做文章
这是统一的
因为我们OpenAI内部是有很多交流
然后有all hands
会每个团队去分享做什么
所以很早的是19年的时候
就看到大模型
然后看到内部去使用
就会发现这个东西有点厉害
哈哈哈只是在那个时候
你得非常懂行的人才能意
识到这个模型很厉害
因为那个时候的GPT它不好用
普通人去用的话
会觉得咦
你为什么老说胡话
你为什么老重复我的话
它不好用
这就是后来做对齐啊
去做chat
叫他们叫alignment
或者叫instruction
following
就是要让遵从人类的指令嘛
就是人说一个什么话
比如说你帮我写个文章
他就得写个文章
而不是好呀
哈哈举个例子
对
所以他是直到这些东西都做好之后
是刚好那个点是chat GBT
所以它突然就爆了
但之前这些能力
其实19年的时候大家就都已经看到了
所以我确实是很早就看到了这个东西
但是我确实也没有那么笃定
哈哈不然我回国今年20年就应该做
在中国做一个对吧
当时我也没有那么笃定
你当时为什么不那么笃定
我的几个方向啊
就是我自己的兴趣
可能还是做交互
所以呢
我一直觉得语言加上决策
是一种非常好的交互的方式
那我还是从强化学习角度去出发的
所以我回来之后做的事情是
我首先从头搭了一套
跟OpenAI类似规模的
一套强化学习的训练系统
但我确实没有去做语言模型
只是我觉得没有人可以预测到
ChatGPT的成功
因为即使OpenAI自己也没有预测到
就内部的人也没有预测到
就是那个时候
大家虽然看到了一些科学上的进展
但是他的进展不那么明显
他没有到一个质的飞跃
就是那个点是很奇怪的
我问过我的同事啊
的确的GPT
可能欧巴只做了一个周
只做了一个礼拜ChatGPT
没有人是说我知道他一定可以成功
然后就是一定可以
就是有这么大的社会影响力
GPT3其实它有很强的影响力
它是当时是best paper
然后在整个学术圈是很轰动的
但是没有真的扩散到这么大
我当时可能也是对AI到来的速度
可能也是没有做好那么强的准备
那可能跟疫情有关系
大家想的问题都确实没有那么笃定
所以现在回头来看
OpenAI能够那么笃定的坚持一个方向
坚持那么多年
确实也是挺难得的
是的是的
Ilya为什么那么笃定
他就是这么一个很偏执的人
你就想一个正常人是不会这么笃定的
只有一个非常偏执的人
才可以这么笃定
当然这个事是在于他最后成功了
所以我觉得这个事是
大家不能总是回头看
这个最成功的人是怎么样的
因为所有成功的人
都能找出一万个理由
但在同时
我想跟大家说的事情就是
在OpenAI同时期
其实有很多创业公司
做AI的创业公司
甚至是做AGI的创业公司
也不止OpenAI一家
比如说有一家公司叫
他们的路线
当时我伯克利有个我同组的师兄
还有个人去了那里
差不多也是做AGI
但他的路线就是逻辑推理
他觉得需要去把逻辑的东西
放在AI里边去
最后一个公司被DeepMind收购了
大家可能不知道这个公司
但是我就想说
同时期在美国做AI的公司
不是OpenAI一家
是OpenAI跑出来了
当然你现在可以回过头去分析
它有好多好多的原因
对吧一它有毅力啊
可能Sam在合适的时候
引入了投资
然后大家做这个scale的路线
又是正确的
它也有别的公司啊
甚至也有NGO的公司
比如说Alan two Institute
当时比如说做语言做对话的
也不只有朋友家有一家叫Semantic machine
Semantic machine后来被Microsoft收购
然后当时也是Stanford的faculty
和Berkeley最好的faculty
一起做的一个公司
大家用相对来说
传统对话模型的巅峰吧
能做出的最好的巅峰
他们是把编程语言和对话模型
放在了一起
做了一个
最后应该是被合并到微软产品里面去的
一套系统
所以就有很多这样的公司
最后只是OpenAI大成了
对
所以我觉得是
大家看问题可能稍微辩证一点
也有人在get别的东西
然后他失败了
对吧哈哈
当然他们有个共性
就是所有成功的人都get了一个东西
对对对
而且你刚刚其实提到
OpenAI里面有非常多的项目组
比如说需要有AI的眼睛
所以就做视觉什么的
我之前一直知道
OpenAI里面有非常多的研究项目
但是其实我自己是没有想到
它的这些研究项目之间
是有这么完整的一套逻辑的
我听你讲了
才觉得
它的整个的研究架构非常的清晰
但是即使在这么多的
非常清晰的研究架构中
它也是一个非常小方向的
一个小的点跑出来了
对确实是这样
他在早年的时候是有个比较大的章程
这章程也会调整
然后在那个时候的话
大家会按照这样组织的方式去看AI
看AGI
但是确实是
语言模型和视觉投入是挺多的
这我们得承认
像强化学习组就会人很多
然后我们组大概6个人左右
强化学习组或者机器人组的
会人多一点
然后语言模型也会人稍微多一点
但是人的规模也就是说小几十号人
因为公司一共才100人嘛
而且确实最后这个东西跑出来
他最后是语言上
当然你可以回头说
这里有特别多的evidence
发表回复