就比如说人类的智慧
其实就是语言对吧
你可以现在这么说
哈哈哈
你要是OpenAI早就知道这件事情的话
嗯对
但是在迷雾里面再往前走
对
我其实注意到你的整个经历啊
不管是在姚班
然后在微软研究院的实习
Mata的实习
包括你还去过头条
然后后来的OpenAI的工作经历
跟现在做清华叉院的助理教授的经历
我觉得你一直是在整个领域里面
跟最顶级的人才一起合作的
如果让你总结的话
就是你觉得非常顶级的人才
他们有一些什么样的特质呢
我知道这个问题也非常非常的大
或者说就是
你非常容易
被一些什么样的特质所打动跟吸引
我觉得说一些共性吧
因为我觉得不同人的风格
其实差别挺大的
这些聪明的学生
首先我觉得一个共性是
大家都会有很强的自驱力
因为这个世界就是这样
所有的所谓的成功也好
或者说你取得了一些成绩也好
其实就是在你到了大学之后
就没有人再会逼着你做什么事了
大部分的事情是你自己想去折腾
这个是个底线
你在到了社会上更明显
那学校里面还好一些
你还有成绩啊
甚至你在学术圈里面都还好一点
大家就是每年都会有paper啊
做research还比较regular
比较routine
但你到社会上的话
没有人会教你啊
所以最后所有的事情
是你自己想做一件事情
所以最后我会觉得
所有这些人都会有比较强的自驱力
他知道自己想做什么
所以我会给大家的建议
还是看看自己想做什么
找一个自己适合的事情
并且你会愿意为他花很多时间的事情
嗯这是我的感觉
而且一般来说
你会发现你觉得最钦佩的这些人
他们都会对很多事有自己的看法
自己的看法和理解是他自己想出来的
那他追根到底是因为他自己愿意去想
有哪些是大家普遍认为都对
但是你有自己看法的事情
这可能是一个投资人
特别喜欢问的问题
就是我会觉得我自己看问题
我回顾我过去12年
因为我就后来
因为最近我们看了一些报道
我就特别想起很多人
想起我可能12年前
在硅谷遇到的一些事情
然后就会想
最近12年
我自己的很多观点会发生变化的
就随着你自己的认识
会发生很多的变化
我其实觉得不在乎对不对
关键是你自己也一定要有
不断的有自己的想法
并且会自己调整自己的想法
因为你就是会想的不对嘛
我20岁的时候为
凭什么能够看明白这个世界
为什么能看明白
Facebook未来会成为一家很伟大的公司
凭什么我能看出来就不对了
哈哈哈都是事后总结
这一定是你没有经历过
没有踩过坑
你凭什么会知道一个非共识的事情呢
只是我现在来看
会有一个小的经验
就是如果在一个时间点
所有人都觉得你是对的
那你可能再想想
哈哈哈哈对
就是一旦有个时间
你会觉得你说的所有话
别人都觉得好对啊
一般都
你再想想就是
尤其你还不是亲历者
你就再想想
对对
因为人是很容易在一个舒适圈里面的
就是你觉得自己说的很对
然后你朋友觉得你很对
这些人觉得你很对
你会觉得自己是对的
但往往其实世界上没有绝对的东西
都会有一些你没有看到的面
但是
由于你碰到的所有人都觉得你说的对
你可能就没有这个动力
再去寻找
到底他哪里是不是不对劲的地方
这是我的建议
就是第一件事就是
正面说就是永远不要too confident
一般都有点问题
第二件事情是
也不要太焦虑
因为反正你想的所有东西
都是有问题的哈哈
哈哈哈好
这两句总结很经典
对然后这第二件事情也是嘛
就是一般这些比较有自取力的人
还比较能折腾的人
一般心态都比较好
因为折腾等于受挫
折腾等于失败
因为你不折腾不会失败
就永远不会失败
对吧你只要做了
就有可能会失败
就会踩坑
就会遇到一些不顺心的事情
那一个人能一直折腾下来
一般都心态好一点
都比较好
哈哈哈他要么自己特别自洽
有可能比较淡然
都有可能
但一般心态比较好
所以我就说这是两面的
一个
就是能折腾的时候多折腾一点
其实人是怕的
待在自己的舒适圈里面待太久了
你可能会丧失你的一些敏锐的感觉
就像我说的
很多人说你对的时候你可能有问题
第二件事情就是心态好一点
因为如果你要折腾的话
那你要折腾好久了啊
如果你天天心态不好
那就可能就熬到那个时候
对所以很多时候
考验的最后是大家的心力值
啊
确实是这样
我得说的回到姚班这个事情啊
确实会给人挺多打击的
就印象特深刻
我那时候大一刚进学校的时候嘛
我那时候还是搞竞赛
我自己心里觉得
我这个人应该挺厉害的
去学校之后
我们当时做一门课的作业
记入门的作业
当时是一个美国来的老师
给我们的作业
做的巨难无比
我也其他有些课会比较划水嘛
我就在宿舍里天天就盯着题做
我就做一天做两天
还不会做
然后我就怎么办
我就上楼那时候脸皮比较厚
我就上楼敲我一个同学的门
他说他在打游戏
就叫他
我说你作业做了吗
他说没做
说你要不帮我看看这题怎么做
他人还很好
就他在那打CS
然后他还真能暂停
我也不知道他是队友怎么容忍他的
然后就说还好的我来帮你看看
然后他就你知道我做了两天的作业
他就说好的我帮你看看
然后就开始拿着这笔在那写
写吧写吧
就写完了
他说来这样拿走
然后我就
哈哈瞬间感受到了智商被碾压
对对对
真是好离谱
这好离谱
对就是这冲击是很大的
你会觉得自己怎么
我就说人和人的智商
真的就是跟动物差距还要大
就这种感觉
对
其实很多小孩进姚班的时候
会有这样的挫败感
所以我们也是
很多时候会希望能帮大家调整过来
因为这个路很长嘛
对吧
就是你回头看这些我们混的还不错的
其实都挺缺的
啊哈哈对对
对吧
然后我有一个现在五个同学的CMU
当faculty后来他去了那个沙特当faculty
跳槽了
他就天天在宿舍里用触摸板打dota
哎对对对
就很多这种
就是大家没有特别焦虑
然后我们的时候还天天踢球啊什么的
就是大家关系都挺好的
反而天天焦虑的人
一般坚持不到10年之后
嗯
说的特别好
由此我又衍生出来一个新问题啊
其实我注意到很多学校
他在培养人的时候
他在学术上是有一套培养方法的
就是你刚刚讲的很多事情
其实尤其是你步入社会之后
很多时候是心态
你觉得清华窑班
会注重对大家心态的培养吗
有这几方面
一个是姚先生自己的个人魅力
他确实会给我们很多high level的
比较大师的一些指导
这些话呢
我觉得
反正年轻的小孩肯定都听不懂啊
这肯定的很正常
因为我自己经历过这10年嘛
我就知道那个话
反正我现在看就会觉得
哎呀老板说的好对
但我放在10年前我不可能听懂的
甚至可能现在也没有完全听懂
也有可能
所以肯定是姚先生自己的个人魅力
能给大家带来一些启发
但我觉得更多的事情
还是学生自己相互之间的啊
我觉得总体来说
姚班大家这个相互互相帮助的气氛
还是不错的
尤其在比如说像我们班
或者像我们13级的那一届
比如说这一届刚毕业的零字班
其实都是整个班级氛围非常非常好的
好的班级大家会相互帮助
真的会不是大家独立作战的就是大家
我记得13级毕业的时候
特有经典的一个事
他们当时毕业的时候也要先送个礼物
是他们班里面发的论文
当时发了40多篇论文
那个班里面
然后好像大家他们画了下
他们那个CO also的图
就是他们
好像班级里面
两两之间都会合作过论文
关系会非常非常好啊
但不是每一届学生都这样了
就是
我只能说姚班有这样的一些传承
但是呢很多引导其实是潜移默化的
他也不是刻意的
像我们班这种关系特别好的
或者13级关系特别好的
可能也不是每一集都这样
这种化学反应的事情也不可控
尤其现在姚班有七八十个人了之后
其实不可控的因素会变得更大
那只能说
可能这就是我们这
代人想做的事情
我们就希望能让这些学生心态好一点
能够让他们更平和的去做
他们想做的事情
那可能是就我们这一代人的
回到学校之后的命题吧
所以每代人确实命题不一样
对特别好
特别好你要不要简单介绍一下
你现在自己的公司
边塞科技
是做什么的
对这是我们2023年的时候
从上海
就是姚先生在上海成立了一个研究院
叫上海骑士研究院
我们院的很多教授
会在上海骑士研究院有自己的项目
然后有自己的团队
研究院是一个NGO嘛
他会有一种更灵活的方式
开展科研项目
所以我们在上海就有一个自己的团队
然后我们做强化学习
大规模训练的一些方向在2023年
去年的时候呢
我们就因为整个大模型的浪潮吧
然后我们就孵化出来整个团队
从器质研究院孵化出来
成立一家公司的变色科技
然后在上海主要是做大模型agent
最早的时候做的一些电子表格助手
然后做过一些财会的助手
做过一些简历啊招聘的助手
很多这样的AI agent
这也是用AI来做一些自动化
和决策的相关的事情嘛
也跟我们自己做的研究
一直都比较相符
所以是这么一家
以强化学习和大模型技术为核心
然后做大模型智能体的这么一家公司
然后也是一个小团队吧
有没有什么我没有问到
但是你想补充的点
在早期的窑班招生
其实是以数学竞赛为主
因为窑班最早的时候
是以理论计算机科学为主
嘛所以他的很多选拔和招生
是比较偏向物理和数学的
所以我那一届计算机竞赛进入窑班呢
其实只有4个人
我们班30个人嘛
就只有4个人是计算机竞赛进校班的
然后因为我跟我室友是国家队嘛
然后任吴家俊是考进来的
还有另外一个同学
也是最后面试进来的
很长一段时间都是以数学为主
因为总体的培养比较偏理论
大家觉得数学基础比较重要
然后慢慢慢慢开始
就随着人数比较多了
之后对我们现在七八十个人的话
基本上就招生命会比较广
30个人的时候其实竞争还挺激烈的
所以那时候我也是
因为我最后确实进了国家队
我在进入国家队之前
我都不知道我能不能进小班
但是你开始的时候是很想去的
是不是就已经有一个目标了
确实大家都想去
但是你你就很担心
最后你别真给我考数学
然后没考进
但是我后来发现
这帮小孩也都很聪明
他们一般保送了之后
就在家刷半年数学物理
然后考试都考得很好
也能气能进也能进
对
因为我现在我带的这个班里的学生
我就说你们当时怎么搞
他说就知道考物理和数学
我们在家就专门学了
学了半年哈哈
嗯
最后还有一个问题
你觉得好的人才他是筛选出来的
还是培养出来的
当然我知道这两者都很重要
但是我更想知道
是这些人他本来就很聪明
还是说他可以以一种好的方式
把他培养的更好
我有一本书啊
叫做the greatest can not be planned
就是讲伟大的事情是不可能被计划的
所以我想说它确实是被培养出来的
但它不是被计划出来的
首先它需要选拔
因为我觉得
精英教育和普世教育是不太一样的
因为精英教育其实是蛮残酷的
精英教育我自己
会有这样的感觉吗
比如说本来我们是在高中的时候
我们做搞竞赛
然后你在全国搞竞赛
然后你到了摇摆
然后再到Berkeley
你每一次的这样的选拔和竞争
都是非常非常残酷的
所以选拔是不可避免的
因为
你如果希望最后培养的是最顶尖的人
他就是在竞争中产生的
其实企业也是
然后研究也是
人也是所以选拔是不可避免的
培养
要不要培养是需要的
比如说你需要给这些人足够的空间
然后呢
你也需要给他们足够的适度的压力
不能没有压力
还要给他们
让他们天上看
这个是培养的一部分
很重要对
培养是很重要的
因为在大家没有习惯于往上看的时候
你老师是需要做这样的引导
让大家能够去往天上看
但是这是培养和选拔
但他是不是可以确定
一定能够出来谁呢
不知道这个是不可预测的
你只能说按这么做
大概率10年之后应该会有人成功吧
但是会是谁呢
你不知道
所以选拔很重要
培养很重要
但是你也要做好
确实就有可能很多人就没有成功
比如说姚班
30多个人
像我们班
算是当老师非常非常高的一届了
我们可能就1/3的人在当教职
那剩下2/3个人呢
所以我就想说他是培养和选拔
但是没法被计划
说的非常好
非常好我觉得今天收获特别多
好谢谢吴老师
那这就是我们今天的节目
如果大家喜欢我们的节目
欢迎在你所收听的音频渠道
来订阅我们
中国的听众可以通过小宇宙
苹果播客喜马拉雅荔枝FM
网易云音乐来订阅我们
海外的听众可以通过苹果播客
还有Spotify来收听我们
当然
你也可以用YouTube搜索硅谷101播客
来找到我们
我是泓君
感谢大家的收听
分类: Uncategorized
-
E162_清华姚班如何培养天才_给最有挑战性的问题和足够的自由度(4)
-
E162_清华姚班如何培养天才_给最有挑战性的问题和足够的自由度(2)
我就跟HR说
Facebook在中国也没有office呀
我说我去哪实习
他说你来美国呀
我说咦这个好
然后就面试
面试了就去了
第一次去美国的时候
还不知道美国的签证很麻烦
然后还被关了小黑屋
反正有很多很好玩的事情
那就20岁嘛
第一次去美国也挺有意思的
现在回想也是
我前两天还回想
12年过去了
其实中间有很多很有意思的时间点
比如说我12年的时候我在Facebook嘛
是我师兄帮我介绍
然后我就有了Facebook的机会
其实16年我还在字节
我当时是字节跳动AI lab的
可能前几号团队成员
当时也是我另外一个师兄
但他不是姚班的
但他一个师兄
然后介绍我说哎
国内有特别好的机会
你回来看一看
然后呢我在OpenAI的时候
也是因为我有一些Berkeley的师兄
也是朋友吧
然后我刚好去OpenAI有些合作
然后就去了OpenAI
所以就会发现
其实过去12年还是有很多人在帮我
我确实踩到了一些这样的时间点
然后在每个时间点
都能以比较inside的角度
去见证一些事情
但是也确实是每个事情
也不能完全说是我自己
其实有很多人在帮我
所以我觉得姚班
其实这个团体也很感谢姚先生
因为有一个人
他有这样的号召力
或者说
他能愿意把这样最好的人聚在一起
并且给他们足够的自由度
如果没有这些人聚在一起
并且有这样的联系的话
其实一个人的能力是很小的
尤其在一个时代的大势下面
很多事情都是随机的
那他就是因为人和人的碰撞
才能碰撞出些火花
是
那接下来你要不要跟大家介绍一下
姚班有哪些非常厉害的科技公司的创始人
或者说有哪些非常顶级的学者
还真不少
我能说上一些名字啊
因为我确实跟这些人关系还挺好的
比如说四字班比较有名的楼天城
四字班是指2004年
OK
我们从早往后说嘛
04年其实有最有名的业界的人
其实就是楼天城
就小马智行的CTO
也是竞赛出身
第一届姚班
然后学界的话
其实四字班有鬲融
鬲融是清华计算机
因为那个时候我们还没有独立建院
所以还是在计算机系在一起
计算机系历史上非常传奇的一个人物
就基本上门门功课考第一的那种
鬲融现在在杜克大学
他也是斯隆研究奖
五字班当时有周源
好多基本都是竞赛出身的
有很多这个faculty
像周源是最近也是原来的UIUC当faculty
然后最后回到清华
像我们六字班就要到唐文斌
唐文斌是旷视科技
旷视科技当时是杨沐
唐文斌 印奇
六字班七字班姚班的我们的同学
比如说到七字班的
我们有就开始有很多人开始当教授了
比较有名的其实八字班
八字班是出了好多人
比如说八字班的陈丹琦
是在Princeton做自然语言处理的助理教授
然后她的老公俞华程
也是八字班的同学
也在Princeton
然后八字班还有在斯坦福任教的
马腾宇
马腾宇应该最近也开了自己的公司
Voyage AI
马腾宇和陈丹琦应该都是斯隆研究奖
然后九字班的话
比如说到我们班
我们班可能比较有名的吴佳俊
在斯坦福当faculty
我们班可能有七八个faculty吧
就七八个在高校任教的
然后最有名的肯定是吴佳俊啊
斯坦福当faculty
吴佳俊是当时我隔壁宿舍
我们这届其实也有不少开公司的
我自己开了一个小公司嘛
也是做大模型agent相关的公司
再往后
比较年轻的也有最近三字班
Liu zhuang应该是刚去普林斯顿当教授
最近应该是三字班
应该是开始在找教职的这么一个状态
然后一字班应该也有一些去当教师的
所以基本上你看到那个分界线
在八字班左右
基本上每一届都能数出来好几个
在顶级高校
top ten university
甚至我说top five
top six university任教的
就每一届都会有
所以基本上这个开花结果其实也很快
很快从他们基本上任教开始
也就是说
从姚班成立
到第一批学生
可以在美国最顶级的高校任教
可能花了10年
产业还挺有意思的是
刚好都和人工智能相关
你像自动驾驶
其实楼天城小马智行是最早的公司
然后上一波人工智能
其实也挺有意思的
就是face++
旷视科技嘛
就是唐文斌印奇
杨沐
上一代人工智能
创业到还真的是大模型
这一代的
这些创业公司里面
其实叉院的老师参与的会非常多
就是我自己肯定是一个例子
大模型像杨植麟
其实也在我们院
之前任教过很长一段时间
他做的月之暗面
其实也是国内第一梯队的
做大模型基础能力的公司
最近的具身智能这一波
其实也好多公司
都有我们院老师的参与
或者团队参与
其实我觉得也很有意思
是
因为姚班确实是不管是汇聚老师也好
还是汇聚学生也好
他是把中国相当一部分最好的人才
聚集在一起
而这几波创业浪潮来看
他恰好也都是技术驱动的
这些创业浪潮
那么他对人才的要求就会比较高
所以很巧的事情就是
创业的趋势
恰好和姚班的特点比较匹配
所以我们也得说
确实赶上了这样一些好的时间
能够参与进去
嗯
我觉得一个是时机
还有一个是不是
因为首先是有姚期智先生牵头
同时你们是一个非常年轻的院系
他没有历史的包袱在里面
所以他能发展得很快
如果看院系发展的话
我同意他确实是个年轻的院系
首先我觉得这是肯定的
就是他的包袱会少一点
比如说我们在做课程改革的时候
我们在不管是人事还是招聘
还是说在教学方案培养上
变化都可以变得很快很灵活
这是一方面
但我确实觉得跟姚先生自己
他花的时间和他投入的
不管是自己的声誉
还是自己的经历都是很有关系的
比如说最早期的时候
为什么在清华
还没有是任何世界一流计算机研究命题的时候
他能吸引到一批国际学者
和最好的学者
来给姚班上课
他在最早期的时候
我们其实有很多的课
是微软亚洲研究院的老师来上课的
这些其实都是靠姚先生自己的个人光环
当他在做完这一步启动之后
开始能够吸引到更多的海外的老师
回来任教的时候
再往后面的工作
其实就比较顺其自然了
比如说到现在
我觉得姚班的发展就很正轨了
比如说基本上我们所有的老师
都是美国top four CS PHD program回来的老师
那基本上这种情况下的话
姚先生就不太用操心每个课到底谁开
对吧就是他基本上每个课
每个方向都知道有最好的老师去教授
都不太用管这些事情了
但在早期的时候
每一门课其实都需要花很多心思的
就去找谁
姚先生会自己
去写教材
他自己也会上课
然后真的会
姚太太其实也给我们上过课
亲自给我们上一些前沿的课程
然后去请人回来也很重要
因为这个其实就是卖面子
而且很扩展大家的视野
对不对
就是你那个时候
在大家看不到外面的世界的时候
是需要有你看到最好的人长成什么样的
这件事情是没有姚先生牵这个头
并且他愿意亲自去卖这个面子
是做不到的
所以万事开头难
最早的永远是最困难
你现在觉得姚班的传奇可以复制吗
比如说清华或者北大其他院系的老师
能够找到一个足够重量级的教授
来去复制姚班的这套模式
看能不能打造成一个综合实力
非常强的一个研究院
你觉得有可能吗
我觉得这个话呢
我们首先得承认
有相当多的地方
都在复制这样的培养方式
然后我觉得其实对学生来说
是件非常好的事情
大家都发现
姚班原来给予优秀的学生最好的资源
他们是可以涌现出最高
最好的教学成果
这是很多高校其实都在模仿
当然我们先且不说
这个时候能不能模仿出来
当然我觉得因为他们的模仿
对于姚班来说
姚班也在往前走啊
所以嗯不是姚班
就是停在原地
大家会来模仿
所以我觉得
再加上人才的密度和培养的模式
他总是需要累积和时间的
一个班级的惯性也好
还是他的培养体系及他师资的团队
以及他的研究的整个氛围
是一步一步往前走的
那么其他学校我觉得是可复制的
如果他能找到同样的资源和时间
并且大家真的可以凑出这样的人
但是他也是需要时间的
对
姚班到现在也是有24年
对不对
哦 20年对
第二个角度呢
是我觉得不能以现在的标准来看
我们想的是
在2004年或者2005年那个时间点
是不是有可能有别的人
把这件事情做成
就像我们总说
比如说我们说百度搜索现在用的不好
但是回到2000年那个时间点
有人能比百度做的更好吗
到2010年左右
甚至也没有人可以比百度做的好
所以我们是不能抛开那个时间点
来看这样的事情的
在那个时间点
清华甚至没有一节计算理论课
清华我们也得客观的说
计算机科学是在会议发论文吗
那个年代是没有人能够在顶级会议
或者几乎没有人
能够在顶级会议上发论文的
现在大家都知道了
那清华的这个数量对吧
就是你要是跟美国的高校比
也完全不落下凡的
但是那个年代是没有的
所以我们不能跳脱那个时代来看这个问题
在那个年代
我觉得是不可复制的
甚至即使在现在
我觉得依然不太可复制
但有没有可能在未来的10年
大家慢慢能够有一个新的集体出现
但我觉得是好事
因为出现得越多
我觉得这对中国的教育也是一件好事
嗯对
因为你现在也在叉院做助理教授嘛
就是从你来看
你觉得你们目前还有哪些挑战
是没有被解决的
我觉得不能叫没有被解决
就是我的观察
会发现每一代人真的很不一样
你会有种很强烈的感觉
一代人做一代人的事情
我还挺有意思的
是因为我刚好跟04、05的人
就是十年前的人很熟
比如说我跟楼天城私交很好
然后我跟当时一些我的大师兄们
就是私交也就很好
我自己呢又属于一代人
然后我自己又当班主任
所以我会观察到
后面一代人是很不一样的
比如说我
你去采访一个04、05届的大师兄
你说你当年为什么要选这个方向
所有人的回答
基本都是姚先生的个人魅力
大家当时看到的就是
哇这个世界原来是这样的
大家原来可以做计算机理论科学
所以当时04、05
或者早年的这些师兄师姐们
是有大量的人去做理论计算机科学的
这完全是极强大的个人魅力
但到我们这届开始的时候
我们开始知道
我们去看看AI
看看别的方向
然后自己想去寻求机会
然后我们自己也很多同学是做理论的
但是大家会开始说
哎是不是可以去做做AI
去做做机器学习
去做一做别的什么东西
会开始想
哎我们是不是要去海外去看一看
但是总体来说
我们是处在一个
我很想去找机会的一个地方
我知道外面的世界是更大的
我自己想去寻找这样的机会
但是你看现在的小孩的心态
就完全不一样
就现在的小孩
就会发现啊
我有好多选择
哈哈哈我要去
我要去MIT了
现在经常小孩跟我说
吴老师
我这个项目做完了就不想做了
我说哎你后面什么计划
他说我想去MIT看看
我说好的
哈哈哈对
然后他们也会更自信
就比如说
在我那个年代
我们其实更多是那时候
是没有太多的选择
那时候清华已经有不少的团队
能发顶级会议论文了
但是还是很少
比如说
我想我第一次发NIPS的时候 2012年
那个时候可能NIPS只有60篇论文
可能清华有几个老师能发一两篇论文
但现在不一样了
现在你可能去找
清华能发非常多论文
但是还没有
所以那时候还是想的是
有没有一个地方能够给我一个机会
让我去证明自己
现在的小孩就是
这个世界我都去看看
我有这么多个选择
他们会比我们更自信一些
发自内心的自信一些
对然后他们也确实有更好的资源
但是这个事情就是一代一代的
先有姚先生的个人魅力
能够让一些学生开始走向世界一流
就是他们都是在比较偏理论的方向
然后他们会再回来
吸引到一批不同方向的老师
有了这些老师之后
会培养出新的一批学生
然后这一批学生
成为世界上可能可以站得住脚的
研究的学者
之后再培养出的学生
他们就会更有第一视角
他是一代一代人
所以
这种每一代人的使命不一样的感觉
会很有意思
所以你回答你的问题
就是说有没有什么未解决的问题
我会觉得很难说
我知道有什么问题没有解决
因为你其实不知道下一代人会变成
长成什么样
我们不太能够预判说
下一个时代长成什么样
但是你知道的事情是这个时代在
一定在往前走
就大家的想法不太一样了
对不对
对 更加多元化
它应该是这样
所以我很难说
我会预判到后来有什么新的结果
我觉得只能说
那我这代人也只能做我这代人的事情
嗯嗯对
你现在会自己带博士生吗
对我有
我只要培养好的人才就可以了
我觉得不同的老师可能不一样
风格不一样
嗯你呢
我觉得我的风格
其实会非常不能叫偏产业
我觉得我的风格是相对特殊一点
我的风格更像是带startup
哈更像
更像创业团队
所以就可能我的个人风格有关
可能跟OpenAI当年早期的风格有关
可能跟我自己读PhD
我自己就经常做一些大的项目
也有关系
所以导致我的风格就会特别偏向
我们要做一个完整的项目
我觉得我不会以这种
最后他是当老师还是去工业界
来判断到底是怎么培养人才
所以我会按照我的风格和我的想法
跟他们做沟通
那么最后到底是做老师还是去公司里
他们自己决定
嗯
现在清华叉院
他在哪些方向
他的科研实力特别强
就是你刚刚其实也提到了
有很多之前毕业的学生
他们成长起来了
也回校了
首先我们叉院还是理论做的非常好
计算机理论
对
理论计算机科学
这也是传统方向吧
就是每一年都有非常非常好的学生
他们现在开始
本科生都可以去发表一些
最佳论文级别的成果了
非常非常厉害
所以理论一直都是非常非常前沿的
然后我们系统方向
其实有几个非常强的老师
几个老师吧
从芯片到系统
其实都是在美国可以拿到很好教职的老师回国
我们院也有一个
专门做芯片的公司
北极雄芯
还有一家
专门做一些加密计算的芯片的公司
也有一些硬件的公司
所以这也挺强的
那当然我还得说呢
就确实AI方向
是这几年确实非常非常强的
一个大模型
和具身智能
尤其具身智能
可能我们永远算是具身智能这个方向
人才密度最高的一个学院了
你刚刚提到
具身智能的几家特别厉害的公司
是哪三家
我们院自己是有一个孵化出去的
是陈建宇老师
陈建宇老师有一个叫星动纪元
是做人形机器人的公司
这也是清华自己的项目
还有就是我们院的
像高洋老师啊
许华哲老师啊
赵行老师 -
E162_清华姚班如何培养天才_给最有挑战性的问题和足够的自由度(3)
他们参与的
或者说
他们团队有联系和合作的一些公司
他们也是作为主要的
顾问也好
成员也好
就是参与的公司
那反正参与我就不说了
嗯
我观察到
现在整个在人工智能的这个方向
从学术或者研究向工业的转换
这个链条已经越来越短了
就比如说我们以前在科研跟工业之间
它可能还存在着一个学界
研究得非常非常前沿
但是你要把这个东西拿来应用
它可能是需要花很多年的时间的
但是我觉得在人工智能这个方向
尤其是OpenAI出来之后
特别是大模型出来之后
研究向工业的转换就变得越来越短了
提一个假设性的问题
因为现在整个清华叉院
他的人才密度也很高
同时
你们也有非常多的研究在同时进行
你觉得有没有可能
清华独立研究的大模型
他能够冲出来
因为我知道现在很多美国的高校
他们也在跟美国国会有说
如果我们这个事情
只任由工业界去发展
因为他们是能募集到最多的钱的
那你不给学术界支持的话
其实整个学术圈在这一块
他的研发实力就会变得差一些
所以我是在想
有没有可能未来的一些突破
可以从学术圈先开始
或者说学术圈能做一个媲美工业圈
同样质量
或者更好的大模型
对这有几个角度啊
我不想一上来就给个答案
首先第一个角度是
为什么这个周期变短了
我觉得其实不是转化周期变短了
而是在这个阶段的AI
或者AI的发展趋势
导致AI的发展特别重工程
并且成本越来越高了
导致很多的规模化的研究
不再是一两个研究员可以独立完成的
所以他必须用一个更高效的
或者更强大的运营实体和团队
来完成这样的工作
所以公司会更合适
所以导致很多的工程化的研究工作
移交到了公司
或者说在学校里面很难开展
这是第一个
第二个事情是说
有没有可能在国内取消里面
做出一个媲美工业界的大模型
单说这件事情不太可能
这个就是一个纯成本的问题
就比如说我们就讲训练对吧
我们现在讲大模型就是万卡集群
不说别的
我们要训个大模型要1万张卡
然后我们要多少parabits的数据
好 洗数据谁去洗
我们把那个系统搭出来
要让1万张卡运营一个月的时间
会报错 对吧
谁去搭建这个系统
这都不是几个博士生的方式
可以做完的
那学校的这个运营体制
就是一个以博士生为主
博士生每个人都有自己的课题
这样的大课量的工程
比较像欧洲的那种量子对撞机一样
他就是在这个环境下
是很难指望一个由博士生组成的这个团体
去完成这样的一件事情
当然你说欧洲量子对撞机
是不是也是
由一堆博士生和研究员做成的
其实它也是
但是这个就在于
你需要拨那么多钱
它的成本也很高
但是我就说它不光是钱的问题
你就想是不是我们对于AI的发展速度
允许像量子对撞机一样
花那么长的时间研究一个科学问题
AI其实它的时针要求比那个高
我们客观的说
比如说我们想验证引力波
其实引力波的项目也很大
也养活了无数代的PhD
但是你是不是真的允许我们花30年
花20年的时间去研究引力波这一个东西
一个命题
AI其实不允许
AI这个迭代周期比它快多了
我们如果想象AI的迭代周期的话
他的投入和他到底在多少年
多少短的时间里面
完成的这样的投入
他的组织度是要求非常非常高的
引力波当时花了多少钱
钱也很多
但是他确实做了20年的时间了
当时韦伯望远镜
他的数字是花了100亿美元
其实我们来看的话
我们投入这么多钱去研发AI
它可能也是可以的
这理论上是的
所以我没有说他不可能
我只是说
大家是不是会允许我投100亿美元
30年之后我做出一个AI了
嗯
就大家会嫌太慢了
但产业发展的更快
对产业发展的更快
所以这就是我的观念
就是说在AI
一个它本身是有极大经济价值的
这么一个领域内
你一定非要研究的体制
去完成这么一件事情
其实是很低效的
就如果你让学界去完成
以他的组织形态和周期来看
那么他可能就是会需要3-5年的时间
就3到5倍的时间
才能完成这么一个项目
他不是不可能
因为我们看
我们可以参照所有的这种天文啊
重大科研问题
他是怎么来做的
他是他是可以的
但他就是组织度会更慢
这商业就是一个
如果你有商业机会
他就是组织度更快的
一个更惨烈竞争的一种模式
所以我就想说有没有可能做呢
我觉得是不太可能
因为他没有必要
这是一种很大的浪费
哈哈
理解
还是效率上
它不是一个最高的承载的形式
对
就像特别简单
就是为什么NASA要把它的一些项目
转移到SpaceX
其实是一个逻辑
就是如果他能产生商业价值的话
那商业可能就是效率最高的一种行为
我觉得是没有必要
那么再回到研究本身来说
研究本身他本身在做一件什么事情呢
他其实在做的是一个好的研究
需要以10年为尺度去观看
我们大家可能想的事情都是啊
我们现在做
个研究它在两年之后可以产生AGI
但其实不是的
因为我们去看AGI是怎么来的
它最早最早要提到Hinton
开始做back propagation
把它调work
back propagation的
nature的paper大概是80年代
然后到90年代有Yann LeCun
然后90年代的2000年左右
开始做概率语言模型
然后到AlexNet
之后再到OpenAI Scaling Law
落到Ilya
开始说我们一定要把大模型
用最大的网络
最多的数据
中间得多少年
80年代 90年代
2,000年才有概率语言模型
就神经网络
基于神经语言网络的概率语言模型
就是要需要班主任拿奖的文章
到attention一几年
然后再到Ilya
用一种极其偏执的方式
把大数据这件事情演绎到极致
这个中间
从到GPT3的这个时间点
中间得过了80年代到20年40年
40年的时间
所以我觉得Yann LeCun前段时间说了一句话
我觉得他某种程度上是对的
当然他是经常会跟现场的一些主流唱反调
啊就是他说的话不一定都对
但他有句话说的是
如果你读PhD
那不应该做大于原模型
这句话本身
我觉得对于大部分PhD来说
是不公平的
因为你不能总说你为了Hinton
而让大部分的学生
都不去做这些研究
对吧
大部分的学生99.9%的人还不是Hinton
但是从培养Hinton的角度
如果你想去做一个颠覆式的
最重量级的创新的话
那确实你不应该看现在最火的东西
你应该bet the next big thing
他其实这么说没错
只是说那美国有那么多PhD
你都按你这个来
那一将功成万骨灰啊
对吧
但是某种程度上
科研是应该有人去做
这样自由的探索的
所以我会觉得这个事情没有关系啊
就是如果你想去做大模型
那么现在来看
最合适的体质就是在公司里
在商业竞争环境下他才能前进的最快
如果你想去做的话
就去找一些这样的机会
因为我觉得很多公司也是很开放的
比如说我在Berkeley的时候
很多大公司都跟Berkeley合作
然后在清华的时候
其实你也可以跟很多公司有合作
如果是学术研究的话
我就会觉得还是回归学术研究的本质
你去做一些有意思的事情
做一些有创新的东西
做些大家没有想到的角度
它是回归学术本质的一件事情
什么合适的体制和机制
去做一件什么样的事情
大家没有必要又既要又要
嗯 非常理解
讲得很好
特别有意思
我上一期采访了陈羽北
你应该也认识
嗯我认识北哥
对因为他是Yann的学生嘛
他在节目里面说了跟你一样的
Yann说的这句话
如果你是博士的话
不应该去研究大模型
然后表达了跟你相似的观点
哈哈
很有意思
对 然后你刚刚其实开始的时候
就是你有提到你早期在OpenAI实习
他其实也是一个项目组
一个项目组的
然后他以这种项目制的方式来进行
当时你在的时候
我知道你是在研究智能体的方向吗
2020年他其实是有一篇GPT3的论文出来
就你当时有注意到那个方向吗
因为我记得他还有机器人的项目
对吧
GPT3 其实内部2019年就已经看到了
所有的论文里写的东西
19年的上半年其实大家都已经看到了
当然
这是公司内部非常重要的一个方向啊
那个时候的OpenAI还比较像个研究院
他当时有个
就是对外有个说AGI要怎么去做
他就说那逻辑也特别简单
就是那AGI的话
他肯定要有视觉能力对吧
所以他有个视觉team
有语言能力
有个语言team要决策能力
所以个强化学习team
然后呢他有交互的能力
所以叫多智能team
然后呢
他有一个本体
所以有机器人team
然后呢当然还有安全性啊
解释性啊这些东西
所以就大概这么多个team
所以
它基本上确实是从AGI是怎么来的
方向来定team的
但是呢
所有的这个team有个比较标准的principle
就是我们希望scale up
这个也是OpenAI
其实能跑出来的一个原因
是因为scale up这件事情
这么笃定的坚信的人
其实很少
直到确的GPT
大家发现what
scale up可以出确的GPT
啊哈
那大家一起scale up
就是一个人告诉你他可行的时候
和你根本不知道的时候是不一样的
所以OpenAI是一个知道
他的几个创始人非常笃定的坚信
其实就是Ilya
带给OpenAI带来最大的财富
就是他真的很坚信这件事情
矢志不渝的践行
所以最后排除万难做成啊
就发现真的有这样的效果
所以那个时候
不管是做强化学习也好
还是做大模型也好
还是语言模型也好
就是语言模型嘛
那时候还不叫大模型
就语言模型或者是视觉也好
大家都是采取scale up的路线的
现在不在小规模计算上去做文章
这是统一的
因为我们OpenAI内部是有很多交流
然后有all hands
会每个团队去分享做什么
所以很早的是19年的时候
就看到大模型
然后看到内部去使用
就会发现这个东西有点厉害
哈哈哈只是在那个时候
你得非常懂行的人才能意
识到这个模型很厉害
因为那个时候的GPT它不好用
普通人去用的话
会觉得咦
你为什么老说胡话
你为什么老重复我的话
它不好用
这就是后来做对齐啊
去做chat
叫他们叫alignment
或者叫instruction
following
就是要让遵从人类的指令嘛
就是人说一个什么话
比如说你帮我写个文章
他就得写个文章
而不是好呀
哈哈举个例子
对
所以他是直到这些东西都做好之后
是刚好那个点是chat GBT
所以它突然就爆了
但之前这些能力
其实19年的时候大家就都已经看到了
所以我确实是很早就看到了这个东西
但是我确实也没有那么笃定
哈哈不然我回国今年20年就应该做
在中国做一个对吧
当时我也没有那么笃定
你当时为什么不那么笃定
我的几个方向啊
就是我自己的兴趣
可能还是做交互
所以呢
我一直觉得语言加上决策
是一种非常好的交互的方式
那我还是从强化学习角度去出发的
所以我回来之后做的事情是
我首先从头搭了一套
跟OpenAI类似规模的
一套强化学习的训练系统
但我确实没有去做语言模型
只是我觉得没有人可以预测到
ChatGPT的成功
因为即使OpenAI自己也没有预测到
就内部的人也没有预测到
就是那个时候
大家虽然看到了一些科学上的进展
但是他的进展不那么明显
他没有到一个质的飞跃
就是那个点是很奇怪的
我问过我的同事啊
的确的GPT
可能欧巴只做了一个周
只做了一个礼拜ChatGPT
没有人是说我知道他一定可以成功
然后就是一定可以
就是有这么大的社会影响力
GPT3其实它有很强的影响力
它是当时是best paper
然后在整个学术圈是很轰动的
但是没有真的扩散到这么大
我当时可能也是对AI到来的速度
可能也是没有做好那么强的准备
那可能跟疫情有关系
大家想的问题都确实没有那么笃定
所以现在回头来看
OpenAI能够那么笃定的坚持一个方向
坚持那么多年
确实也是挺难得的
是的是的
Ilya为什么那么笃定
他就是这么一个很偏执的人
你就想一个正常人是不会这么笃定的
只有一个非常偏执的人
才可以这么笃定
当然这个事是在于他最后成功了
所以我觉得这个事是
大家不能总是回头看
这个最成功的人是怎么样的
因为所有成功的人
都能找出一万个理由
但在同时
我想跟大家说的事情就是
在OpenAI同时期
其实有很多创业公司
做AI的创业公司
甚至是做AGI的创业公司
也不止OpenAI一家
比如说有一家公司叫
他们的路线
当时我伯克利有个我同组的师兄
还有个人去了那里
差不多也是做AGI
但他的路线就是逻辑推理
他觉得需要去把逻辑的东西
放在AI里边去
最后一个公司被DeepMind收购了
大家可能不知道这个公司
但是我就想说
同时期在美国做AI的公司
不是OpenAI一家
是OpenAI跑出来了
当然你现在可以回过头去分析
它有好多好多的原因
对吧一它有毅力啊
可能Sam在合适的时候
引入了投资
然后大家做这个scale的路线
又是正确的
它也有别的公司啊
甚至也有NGO的公司
比如说Alan two Institute
当时比如说做语言做对话的
也不只有朋友家有一家叫Semantic machine
Semantic machine后来被Microsoft收购
然后当时也是Stanford的faculty
和Berkeley最好的faculty
一起做的一个公司
大家用相对来说
传统对话模型的巅峰吧
能做出的最好的巅峰
他们是把编程语言和对话模型
放在了一起
做了一个
最后应该是被合并到微软产品里面去的
一套系统
所以就有很多这样的公司
最后只是OpenAI大成了
对
所以我觉得是
大家看问题可能稍微辩证一点
也有人在get别的东西
然后他失败了
对吧哈哈
当然他们有个共性
就是所有成功的人都get了一个东西
对对对
而且你刚刚其实提到
OpenAI里面有非常多的项目组
比如说需要有AI的眼睛
所以就做视觉什么的
我之前一直知道
OpenAI里面有非常多的研究项目
但是其实我自己是没有想到
它的这些研究项目之间
是有这么完整的一套逻辑的
我听你讲了
才觉得
它的整个的研究架构非常的清晰
但是即使在这么多的
非常清晰的研究架构中
它也是一个非常小方向的
一个小的点跑出来了
对确实是这样
他在早年的时候是有个比较大的章程
这章程也会调整
然后在那个时候的话
大家会按照这样组织的方式去看AI
看AGI
但是确实是
语言模型和视觉投入是挺多的
这我们得承认
像强化学习组就会人很多
然后我们组大概6个人左右
强化学习组或者机器人组的
会人多一点
然后语言模型也会人稍微多一点
但是人的规模也就是说小几十号人
因为公司一共才100人嘛
而且确实最后这个东西跑出来
他最后是语言上
当然你可以回头说
这里有特别多的evidence -
E161_聊聊大模型如何思考与深度学习科学家Yann LeCun(5)
如果我们说要通向AGI的过程中
应该还会有这种完全从0到1的
一些比较大的一些转变
嗯就是既要有科学上的进展
然后工程上
我们还有很大的空间可以去提高
对
嗯对
这个总结非常好
好谢谢羽北
感谢感谢
好了那这就是我们今天的节目
如果大家喜欢我们的节目
欢迎在你所收听的音频渠道
来订阅我们
中国的听众可以通过小宇宙喜马拉雅
苹果播客蜻蜓FM
网易云音乐
荔枝播客和QQ音乐来关注我们
海外的听众
可以通过苹果播客和spotify
来关注我们
另外呢
大家也可以在YouTube上搜索硅谷101播客
来关注到我们
那我们的搜索词是 硅谷101播客
如果大家在搜索的时候
出现了我们硅谷101的视频
大家也可以一起关注
好感谢大家的收听谢谢 -
E162_清华姚班如何培养天才_给最有挑战性的问题和足够的自由度(1)
hello,大家好,我们的听众中有朋友可能听说过JJ Lake
这是一个位于硅谷中心 Mountain View 的创新空间加孵化器
也是硅谷 101 的公司所在地
我们的很多节目就是在JJ Lake 的会议室里诞生的
JJ Lake正在招募创业团队,申请他们的孵化器项目
主要关注在先进制造、生物医药等硬科技领域
特别适合希望利用好亚洲的生产制造、供应链市场等优势的创业者
JJ Lake 可以给创业者提供最高价值 600 万美金的创业支持
在过去的 5 年里,有 450 多家团队申请了他们的孵化器
108 家团队入选,总融资额超过 4 亿美金
此外,JJ Lake 也向创业者提供虚拟办公室、共享工位、独立办公室等各种服务
不管大家对租用 JJ Lake 的办公空间感兴趣,还是对孵化器项目感兴趣,
都可以联系JJ Lake 的负责人柳一夫,他的邮箱是 yliu@jjlaker.com
那我也会把他的微信号和邮箱放在我们的 shownotes 中
需要的小伙伴可以直接联系他
下面就请收听我们今天的节目
欢迎收听硅谷101
我是泓君
我们今天来聊一聊中国AI顶级人才的黄埔军校
他们很多都来自清华姚班
在过去的20年里 姚班出了很多独角兽公司的创始人
比如说小马智行的楼天城
旷视科技的唐文斌、印奇等
包括现在很火的月之暗面
他的创始人杨植麟
在过去几年也是姚班的任课教师
除此之外姚班也培养出了一群顶级的AI学者
他们相继进入斯坦福大学、普林斯顿大学、杜克大学、清华大学等国内外知名大学任教
这个传奇的计算机实验班是图灵奖得主姚期智先生于2005年在清华成立的
如果说进入清华很难 那进入姚班的本科生更要经过严格的选拔 由姚先生亲自制定培养计划
姚班成立至今已经20年了
我非常好奇姚班经历了怎样的发展过程
而号称打造一流本科生的姚班又是怎样培养这样一群天才的
那么我们今天邀请到了2010级的姚班本科学生
同时现在也选择回姚班任教的吴翼老师
吴老师现在也任清华大学交叉信息研究院助理教授
hello
大家好
吴老师本科也是在清华姚班
博士在UC Berkeley
之前还在OpenAI的时候做过研究员
那现在同时也是边塞科技的创始人
整个背景是非常厉害的
谢谢谢谢
我是2010年的
2014年的时候在姚班读本科
然后在Berkeley读PhD
19年的2月份一直到20年的7月份
在OpenAI工作
然后20年8月份
就回到清华姚班重新当老师了
所以现在也是在姚班当老师
嗯对
那吴老师我是非常好奇啊
2020年的时候
当时你是为什么
会辞去OpenAI研究员的工作
回到清华交叉信息研究院的
开玩笑的说就是
肯定是那个时候
不知道有ChatGPT这样的东西
哈哈哈嗯
其实我是在2018年的时候
就决定回叉院当老师
然后当时也签了这个offer
我当时应该是整个姚班历史上
第一个回姚班当老师的
自己毕业出去的学生
所以我去找OpenAI工作的时候
其实那个时候就已经确定
我2020年的8月份要回国
所以其实是入职之前就确定了
所以导致那个时候我没有拿股票
哈哈哈现在后悔吗
也还好也还好
哈哈哈对
其实你刚刚有提到
您是在这批清华姚班出去的学者里面
相当于是第一个回学校任教的
那在你之后
还会有其他的之前的学生学成归来
回到姚班来任教
大家现在在研究的一些整体的方向
是什么可不可以给我们介绍一下
还挺多的吧
我回去之后我也帮我们院代言啊
因为我在姚班还算人缘挺好的
所以上下的都还认识
所以我也劝了不少人回来
就比如说我们院
我是零字班的
就回来了
现在我们院三字班有一个人回来
然后可能五字班也有人回来
所以现在可能我们院本科是姚班毕业的
得有3个人
清华毕业的就更多了
那我们现在把时间拉回到2010年
你是2010年到2014年再姚班
你在上学期间
在清华姚班的期间
你觉得他们的学习方法跟学习体验
有什么特别之处
有哪些让你印象深刻的地方
因为我们知道
姚班其实是有两类学生嘛
一类就是竞赛类的学生
可以说也是海选的天才中的天才
还有一类是从清华的
应该是其他的本科生中选的一些
感觉都是非常优秀的人啊
就我很好奇
他们是怎么去培养一群极为优秀的人的
姚班其实有些阶段了
我们说一下当时那个时候
当时的话姚班大概是30个人
只有一个班
现在其实挺多了
现在可能有七八十个人
然后也有不同的方向
我觉得姚班基本上分个三个阶段
我觉得第一个阶段
就是姚先生刚回来的时候
姚先生刚回来的时候是2005年
第一次开始搞这么一个实验班
当时是一个
我觉得受姚先生个人风格影响
特别特别强烈的一个阶段
04年05年 比如说当时楼天城
现在这个Pony AI的创始人楼教主
楼教主就是当时四字班
04年第一届姚班的学生
他们那个年代的姚班
就是以理论计算机科学为主
因为这是姚先生自己的老本行
当时有一个客观的原因
也是姚先生觉得
理论计算机科学
是整个计算机科学的基础
但是为什么在国内
没有好的理论计算机培养体系和课程
所以当时姚先生回来
专门以理论计算机科学为中心
设计了一套培养方案
那么基本上是到了10年左右
在我们这几年
这一届学生呢
基本上开始
因为姚班也运行了一段时间
开始有新的老师回来
比如说像我们院
现在刚评上正教授的一些老师
基本上都是我在读本科的时候
从海外陆续回来的
比如说我们院的许葳老师
也是Berkeley毕业的
然后有黄隆波老师 李建老师
这些都是我在读书的时候
从海外回来的
从那个时代回来之后呢
我们永远是开始有各种各样的别的课程
比较广泛的课程开始设置
这是一个时间段
然后再到可能就是我回来前后
这个时间段
那么整个院里面
基本上像我们10年左右
这一批本科生开始有人回国
整个院基本上
我认为
和美国的一流高校基本上接轨了
课程体系也好
培养体系也都好
也都非常前沿非常全面了
所以是这么一个发展阶段的
基本上不变的事情是
一 姚班非常重视理论
就是计算机理论
所以确实有不少的理论课
第二件事情呢
是姚班的课程确实非常难
就总体上非常难
像我们那个时候理论课就非常多
非常重
也难度非常大
像现在的话
因为他们的课程特别多了啊
每一门课
都是像我们这种海外回来的老师
新开的所以难度也非常大
所以比较偏重理论
比较难第三呢
是姚班学生确实培养自由度非常大
这也是不变的
举个例子
比如说我们读书那会
我们的总体要求的学分或者学识数量
比起其他院系是少的
就客观上说是少的
你说课程少还是什么少
课时数少
但是我们需要坐在课堂里面的时间
会比别的学生少一点
但这个原因也是因为我们课程难
所以呢
他就认为你课后需要花更多的时间
所以呢就把有一些学生放在了课后
但事实上
导致我们需要在课堂上坐在那的时间
是少的或者说
我们必须要花的一些
非自主安排的时间
是比别的院系要少的
并且更灵活
就导致什么呢
导致我们院的学生
有更多的自主支配时间
自主支配时间
他可以自己做科研
还可以去实习
还可以去访问
其实我那个年代
2010年左右
当时最好的科研的机构
是微软亚洲研究院
因为当时中国没有那么好的AI嘛
所以你想做AI的话
需要去微软亚洲研究院
那是最好的地方
但是去实习需要花时间
大部分的院系其实是
你不可能有学生能够抽出时间去实习
我们院如果你真的把课排好
你是可以一周真的做到
有两到三天时间没课
大家就是在研究所里面待着了
比如说我们院
现在基本上能够做到
大三的一个学期可以不排课
出去实习
对 他们就会选择出去实习
会选择去美国访问
这些事情院里面都非常非常鼓励
当然他是有个发展流程的
但是总体上姚先生是能够做到
重视理论培养
然后课程难
给大家足够的空间
我想说的是
这些人其实不是培养出来的
而是涌现
智能的涌现嘛
其实姚班这个班也比较像涌现这些人
他们做的研究
比如说我那个时候做的一些研究
我也不是院里面老师带的
像我们班里很多的这些研究啊
我现在
我们班里有很多做教授的同学嘛
当时我们也有些做的比较好的同学
他们做的研究
其实也不是跟院里面的老师特别相关
嗯但是没有关系
你只有给了他们足够的
让他们知道这个世界是这么大
然后把很多好的人传在一起
然后呢你再给他们时间
他就会自动的涌现出来
所以姚先生做的事情
都是把这些最好的人
把它聚集起来
聚集起来之后呢
给他们时间和空间
并且告诉他们这世界上有很难的问题
然后大家就会自己探索
所以有的时候也会说
姚班比较卷嘛
那确实可能有一点卷
对我听下来就感觉是
把全中国最聪明的一群人
首先先聚集起来
然后给他们足够有挑战的问题
再让他们有足够的自由度去探索
对
我今天还看了一个姚先生的采访
我觉得挺有意思的
他里面有一段话是说
如果你有一门课
就是你拿到的分数并不高
他说这是一个好事
至少你知道你以后的事业方向
就可以不用选这个方向了
所以我看得出来啊
他其实是一个非常鼓励大家
去找到自己擅长的东西
跟热爱的东西的一个学者
挺有意思的
我觉得
你说的这个话确实我还有印象啊
就姚先生自己本身也是挺风趣
很幽默的
而且姚先生也是大家嘛
他讲的很多话其实挺深刻的
有些话是我读书的时候其实不觉得
但回头看的话
其实他讲的话是很深刻
但这个深刻呢
我可能在我读书的时候也不一定知道
还其实也会讲一些玩笑话
但是其实想想蛮有意思的
比如说我们当时
我们院会经常组织一些讲座
其实我们院的讲座密度
是非常非常高的
也会鼓励本科生去听讲座
我们那个年代的姚先生
还会每年请我们吃一次饭
给我们做一些对话
然后我们就问他
我说我们班里有个同学问说姚先生
这个talk都是前沿talk
我们听不懂怎么办
对吧你还要让我们去听讲座
但我们都听不懂
姚先生说没有关系对吧
听你听不懂的讲座
可以培养科学家的气质
哈哈
其实也挺对的
因为大部分时候你就是听不懂嘛
有时候都是听不懂
那听着听着可能就听懂
或者
你大概从里面能够收获到一点东西
就能对你有用的
读书的时候很容易
大家会觉得你所有的东西都要搞懂
但可能本来摇摆
你就会发现
上来你就会发现咦
怎么这些人是这个样子的啊
这个东西怎么这么难
你很快就会意识到
哈哈哈
反正有很多东西你都是不懂的
有很多讲的一些话吧
就是你那个时候可能印象挺深刻的
但他确实对你产生了很多的影响
嗯
你大学的时候你的主要经历
跟你怎么去设定自己的目标的
我属于班里成绩一般的那一种啊
就我自己是搞竞赛的
可能你高中的时候
还觉得自己挺厉害的
然后你到了姚班之后
就会发现
周围都是些什么人啊
卷不过所以我当时其实知道
自己反正GPA应该卷不过这些人
我就想
我把我一些我喜欢的课就好好上
不喜欢的就拉倒就算了
哈
然后呢
我当时也确实在微软亚研院花了很多的时间
然后我当时也去Berkeley访问
所以当时也是非常感谢院里面
给了我们一个机会
我当时是后来是拿到了院里的资助
当然我去伯克利访问的时候
其实并不知道院里面有这样的政策
然后最后也是院里面觉得
哎发现这些小孩
自己还能去找到一些海外的机会
能去访问呢
去做出一些科研的成绩
所以呢
也把访问这件事情
变成一个制度性的固定下来
也是表班
大三学期
有一个学期可以资助大家去海外访问
也是基本上从我们那一届
我跟我的几个同学自己探出了一些路
然后姚先生觉得很不错
然后呢 21年开始就一字班开始试点
到基本上二字班开始就固定下来形
成一个传统
这个也是从我们那届开始的
所以我们那届的人
就是属于大家都比较能折腾
但是折腾的客观原因是
我们确实比别人闲一点
我当时还算比较能折腾吧
因为我其实大二就去微软亚研院实习
大二的暑假
其实当时我去了Facebook
我当时是Facebook历史上
第一个从大陆过去的本科实习生
当时也去了解了一下
就是当时硅谷啊湾区以及当时的很多
反正看到了那样的一个事件嘛
然后到了大三的暑假
我又去UC Berkeley访问
然后后来就跟着我的导师继续读PhD
所以我基本上属于我们班还比较能折腾
朋友比较多的那种
但肯定不是成绩最好的我
我当时应该是排30%的样子
我们30个人
我好像排第10这样
肯定就是属于成绩一般的那一挂
在这样一个环境里也很好了
我跟大家介绍一下
吴翼其实是在你高二暑假的时候
就拿到了IMO竞赛中的金牌
然后是被清华交叉信息学院保送去的要办对吧
不完全对
我是搞信息学竞赛的嘛
所以我是高一暑假保送了清华
然后高二全国比赛拿了金牌
然后高三进的国家队嘛
在我们那个年代
因为姚班只有30个人
当时按照惯例
是信息学只有国家队才能进姚班的
所以我其实一直不知道我能不能进姚班
直到我高三确实进了国家队
哈哈哈OK
然后你刚刚提到
其实你是第一个
自己去找到这种海外的访问机会
包括是当年应该还叫Facebook
我是Facebook第一个直接从大陆招过去的实习生
你是怎么样
去发现这样一些新机会的
跟探索出来这条路的
其实挺有意思的
这个都是阴差阳错
我可以分享一下当时是怎么回事
首先呢
我当时比较能折腾
我当时就特别想去实习
我实习的时候呢
我也脸皮比较厚
我去找我的师兄
所以我找了6字班的
我的一个师兄叫唐文斌
唐文斌是现在旷视科技的CTO
当时他也是搞竞赛的
然后呢他创业也是很成功了
上一代人工智能企业里面
很成功的例子
然后我找唐文斌
我说师兄你帮我想想办法
我想去Google
因为当时12年的时候
Google中国还是很好的一个地方
现在Google就几乎撤出中国了嘛
他就找了他的师兄
然后呢他以为那个师兄在Google
结果那个师兄刚好刚跳槽去了Facebook
然后唐文斌帮我找的时候
也没说想干嘛
他就说哎
这个师弟帮我推荐一下
唐文斌的师兄
我们一个那个二字班的师兄
就随手就内推了
于是呢到我这就会发现
有一天突然我在我的邮箱里面
收到一封来自Facebook的邮件
说想不想来了面试一下
然后我就打电话去跟他家面试 -
E161_聊聊大模型如何思考与深度学习科学家Yann LeCun(3)
就是说我们在研究大语言模型
研究这些工程模型的过程中
我们可以产生了一些经验
然后我们可以对它进行一些可视化
这个我认为就是一种流派
Anthropic最近啊OpenAI啊
他们也参与在做的这些事情
然后对它进行可视化
之前就做了一些
然后现在又做了更多
这是其一
那么其二的话就是计算神经科学这边
神经科学这边
我们要尝试对人脑进行理解
然后在人脑里面
比如找到了
视觉和语言的它们交叉的一些区域
找到了一些记忆
可能的存在的一些方式
找到一些层次化表示的一些迹象
这是一种流派
还有一种流派
是从比较数学的角度来出发
比较统计的角度出发
哎我们问的一个问题
就是信号的基本的结构是什么呀
大家研究的
甚至我们会追问
比如3*3的一个像素空间
它长什么样子
它的形状是什么样的
然后去追问这个信号本身
背后的这个结构
这是三种吧
然后在这个之间呢
还会产生很多的交叉
嗯你属于哪一派
其实这三派
我都或多或少的有受到一点影响
因为之前在伯克利的时候
跟我的导师
然后以及马毅老师
他们都属于
多少有点像是计算神经科学
和数学统计的这个流派
然后在Yann这边呢
是工程这边受的训练多一点
所以这三种方法我也觉得都可以接受
因为它最终
都会让我们往同样的一个方向前进
嗯
同样的方向是哪个方向
现在有阶段性结果嘛
那最终就是理解这个模型嘛
那之前有一些阶段性成果
就比如说我们能不能做出一些
哪怕是两三层的一个网络
然后他还能表示
把这些比较高层的这些概念学出来
那每一层我们都可以
看他学的是什么东西
最后你发现真的可以做到一个数字
你要想表示他
你会把他一个一个的笔画全都学出来
笔画之间呢
这些相似的笔画
他们可以把它联系在一起
在这个之上呢
你就可以构建出来
下一个层次的一个表示
就像这样的
一层一层的
最后找到了数字的这样的一个概念
有意思那你现在的这些研究
会继续
有真正的对黑盒模型产生优化吗
黑盒模型优化的话
也会有一个是
就是说当你对它的理解加深了以后
你可能会比如优化这些黑盒模型
让它的效率变高
第二个是说可以让不同的黑盒模型
你可以把它们统一起来
这样的话你就是减少了
很多不必要的浪费
同时呢我觉得
还有一个涉及到我这个实验室的
另外一个植入性的工作
就是要给研究不仅仅是感知
但是还有控制
就是当你给了这些大语言模型也好
给这些不同的model
他能够和世界交互的这个能力的时候
这个过程
能不能让他的整个的学习的效率变高
然后之前
我们做过一些很好玩的一些尝试呢
就是比如说在控制系统里边
你能否获得同样的泛化能力
但是这个是什么意思呢
就是说在感知系统里面
你会发现哎
我学了苹果
我学的梨
然后来一个桃子
由于我之前学了一个相似的
苹果和梨的概念
你可以很快就学会桃子的这个概念
那么在控制的领域的话
你能不能达到相似的性能
比如说我现在这个机器人
他学会了向前走
然后我学会了原地跳跃
那我能不能很快一变
就把它变成一个向前
一边跳一边走的一个机器人
就是有这样的一种控制的泛化能力
这是我们之前做的
一个比较好玩的一个工作
那综合来说
如果让你给一个结论的话
你觉得白盒模型的研究到
我们现在去解开这个大模型
它是怎么运作的这个秘密
它大概是一个什么样的进度条
它的进度条到哪里了
它的进度条
我都不知道这个进度条有多长
我感觉我们距离这个目标其实很远
就可能是还在one PERCENT
它其实有的时候发展
它不一定是一个线性的对吧
它可能是一个这种比较像
量子的这种跳跃
当你有一个什么东西
你一个新的一个认知出来以后
你可能会马上往前走一大步
我倒是觉得
我们有可能能够做出一个比较强的
这种模型
完全可理解的
但是它浮现当时的这个
像比如AlexNet这样的表现
或者说
这还是要看你的阶段性目标是什么
对看你的阶段性目标是什么
如果你想做一个白盒的ChatGPT
我认为这个还挺远的
但是你如果说
我们要是想做出来一个
还不错的这种模型
我觉得这个还是非常有可能的
就是根据我们说
还不错的白盒模型
还不错的白盒模型
比如说它可以用来干嘛
它可以就做这种ImageNet的这种识别
然后我们可以理解它里边的每一步
它是怎么做的
然后它是如何一步一步的
变成了一个猫和狗
然后这个猫和狗
它的这个结构是怎么产生的啊
就ImageNet的识别
它算是白盒还是黑盒
就我们还没有发现
它的工作原理是什么
我们还没有完全发现它的工作原理
但是我们之前
比如从Matthew Zeiler和Rob Fergus
他们做的一些早期的Visualization
后期又有很多的研究者
他们做的这些Visualization就是观测嘛
可视化还是有一定理解
但是没有人能够创造出来这样的一个模型
然后每一步我们都可以理解
然后他还能工作的不错
所以我觉得可能这目标就分阶段
第一步
我们先解释这个ImageNet是怎么工作的
这个谜底揭开以后
我们可以再来解释
比如说一些小模型是怎么工作的
就像用GPT-4去解释
GPT-2是怎么工作的
然后再慢慢的来解释
这个大模型是怎么工作的
对 所以这个过程
我觉得还是有相当的一个过程的
而且
也需要更多的人来投入到这个方向上
因为毕竟工程上面的话
现在主要是进展
所以导致大部分的工作也就集中在这
那么如果我们放到学校来做的话
那你其实需要有一些
原创性的一些想法
而不是说你去scale
我也去scale
那大家都是scale
那最后其实是没有区分度
就看谁的机器最好了
和谁的数据最多了
那倒也是对
那接下来
我想跟你讨论一下你博士后的导师
Yann LeCun
在开头的部分其实我没有介绍过Yann
但是我还是想给不太了解的听众
来去介绍一下
Yann的背景
Yann他的中文名字叫做Yann LeCun
是一名法国计算机科学家
那因为他在深度神经网络
概念和工程上的突破
他和Geoffrey Hinton以及Yoshua Bengio一起
获得了2018年的计算机学界最高奖项图灵奖
他们三个人呢
被称为是深度学习三巨头
可以理解成
现在我们在人工智能上的巨大突破
跟他们的科学研究成果
跟他们的推动是有很大的关系的
Yann在2013年
他是成为了
Facebook人工智能研究院的第一任主任
当时Facebook是专门为了他
在纽约成立了一个研究院
现在呢他还是Meta AI的首席科学家
可不可以给我们不懂技术的朋友
稍微解释一下
Yann主要的科学研究成果
跟他为什么这么知名
Yann LeCun他相当于从80年代的时候
就开始研究神经网络
AI这个领域
它经过了很多次的高峰和低谷
高峰低谷也有不同的学派出现衰落
Yann的话
他从早年他就选定了这样的一个方向
他坚持深度学习网络
他相信这个一定能做成
不管他的高峰低谷
他走过黑暗的人
所以也就是说
他们经过了当年2,000年的时候
但因为有不同的学派起来
然后衰落
在2,000年的时候
曾经有一个非常有意思的一个小故事
他们发文章的时候
你会发现非常的困难
困难到什么程度呢
如果你的文章里边存在neuro这个词
就神经
或者说你存在network这个词之一的话
你的被拒稿的概率就很大了
但是如果你存在neural network的话
基本就一定会被拒稿
所以当时对于他们来讲
是一个至暗时刻
对吧
但是他们那个时候可能经费也受影响
但是他们能在这种黑暗当中
他们能坚持不放弃
最后能走出这个黑暗
一直坚持他们所相信的这条道路
到今天
神经深度网络也确实改变了世界
对吧
我觉得这个其实也是他们得图灵奖
对他们当年早期作为前期的先锋
的一种记忆吧
嗯对
我对你的个人经历也挺感兴趣的
就比如说我知道
其实你在博士后的时候
你是选了Yann LeCun的组
你当时是为什么会选他的组
这是一个比较有意思的奇遇
我当时其实挺迷茫的
我甚至没有想过那个学期去毕业
因为我当时觉得
我在博士的工作其实没有做好
当时我博士
当时的决心是说
我在博士期间
就要做出一个白盒的模型
而且要和AlexNet它的性能要可比
当时我觉得就差一点
我就想好
那我再拖一拖再毕业
但是呢我那年去开NeurIPS嘛
反正也在温哥华
然后同学们就说
你做博士后
反正也是做
做博士也是做
你也不用说
非得说博士把所有东西都做完
他们说嗯
你不如就这个学期毕业
我同学他们说的对吧
就是那年很有意思
很多事情都不是我自己决定的
我以前事情都是我自己决定
那一年我感觉我是在被推的
很多啊
基本上就是他们说什么哎
我想一想有也有道理
然后我就好
我就那时候决定毕业
然后决定毕业10天
基本就把毕业论文写完
当时我就想
那要毕业的话我要找博士后
那要找博士后的话我去找谁呢
我本来想的是给别人发邮件
同学他们说你都在NeurIPS在开会
大家都在这开会呢
你为什么不当面聊呢
我觉得很有道理啊
那对
然后我就当时去当面去聊
当时我想到的
其实第一个想到的人是Eero Simoncelli
如果你这么看的话
他有点像是一个东海岸的
我的导师这个风格
我们在西海岸嘛
Eero Simoncelli也是
计算神经科学领域的一个领军人物
他在东海岸那边
所以我第一开始想到的是他
但是他那一年呢
刚好他要去有个Simons foundation
就是James Simons开创了一个Simons foundation
是一个研究机构
他要去那个地方
去筹建
他们的一个计算神经科学的研究所
他就非常忙
然后我其实跟他聊也没有聊出来一个
说要约meeting
约一些会啊
然后我们也聊一聊
聊挺好但是也没有得到一个结论
对吧是不是要一起工作呀等等的
然后在会场上就碰到了Yann
那我当时想的话是说
大家肯定都想找Yann去做博后嘛
我不想是
我其实不是特别投机的一个人
所以当时碰到他的时候
我其实主要想的是聊一下
他对我工作的一些看法
以及对未来方向的上的一些
大家可以谈一谈这个观点嘛
比较有意思的时候
当时在会上聊
聊的又非常好
当时哎觉得非常的
至少我们相信的这种方向
以及我想的一些问题呢
他曾经也都想过
只不过是从neural network
就是从这种神经网络的这个角度来想
这些问题
以及最终追求的一些方向的话
我觉得也很切合
所以当时他就问我招postdoc
你有没有兴趣申请一下
那我说那我当然申请了
那所以就是当时就是这样一拍即合啊
有意思
所以我最后博士后也就只申请了他
Yann是一个什么样风格的导师
他是属于非常多的
给学生自由空间探索的
还是属于
他其实就是实地上来跟大家一起讨论
帮忙很多的
首先是后者的话
他现在这个情况下已经不可能了
他现在太忙了
我觉得这个事情比较多
指的他太忙了
是比如说Mata那边的事情很多
研究的事情也很多
嗯当你变得很有名的时候啊
你自然就变忙了
很多人都需要他的时间
从这个角度来讲
他能够分给每一个人的时间
也相对来讲就没有那么多
我觉得Yann呢
相对来讲呢
我认为是相当放羊的
他其实和我的博士的导师相似
就说在一些大面上是非常放羊的
但是
我认为他们有另外一点相似的事情
就是说对于他们所相信的事情呢
他们会有坚持
就是他可能会给你说往这个方向走
那么具体怎么走
你走哪条小路
你是乘船还是乘车
这都没有关系
但是这个大的方向
我认为他会有自己的一些品味吧
我会觉得
另一方面呢
我认为他对不同问题的直觉
还是非常不错的
其实他会给你指一个大方向
他不会去控制这些细节
然后我们会有一个比较大的一个愿景
或者说一个目标吧
mission在这个mission下面
那我们就会要坚持的沿这个方向走
嗯它的大方向是什么
其实很多年也没有变过
让他想什么实际上是非常透明的
因为他会出去给不同的地方给演讲
然后他讲的这些东西
基本上都是他坚持的这个大方向
在过去的这些年里面
我觉得他坚持的这个方向
一直是自监督学习
然后自监督学习的话
其实分两部分
一个部分是我做感知
感知上面的话我可以做自监督
但是更重要的一点的话是
当有具身的时候
我如何用具身的方式来做自监督
或者我们现在给它一个名字
叫做世界模型
world model
我认为这是他believe in的一个方向
这个名字呢
其实还是我安利给他
但是因为我当时读了David Ha
和Jurgen Schmidhuber的那篇文章
然后他们起了一个名字叫world model
然后我觉得这个名字挺酷的
虽然是一个传统的想法
就是以前也有这种model
predictive control啊
然后forward model啊
就是有各种各样的名字
对吧但是这个world model我感觉挺酷的
所以我们当时强烈的安利了一波
嗯你觉得样它的研究方向跟脉络
跟OpenAI的这一套
Anthropic的这一套会有什么不一样吗
如果说真要说什么不一样的话
我觉得Yann可能想要的是模型
它需要有几件事情
第一件事情
它要有具身的能力
我觉得他要是可以在这个世界里
不是只是堆数据
而是说这个模型
最终
他可能会可以自己去探索这个世界
这个有什么不一样呢
大家都希望最终达到这样的一个结果
但是你如果说看它的执行的方式的话
我觉得每一个地方它执行的时候
它的最坚持的
我其实觉得是
比如说在OpenAI
我认为它是scaling law
对对对
对吧就是我认为
这个其实是OpenAI一直做的比较
相对来讲是他们做的很对的一个东西
那我要更多的数据
更好的数据
然后更多的计算
更大的模型
更真正的模型
对吧
基本上坚持这个对于Yann来讲的话
它其实还是比较科学化的
他会说如果我们想真正通向
比较像人这种level的智能的话
那你到底需要什么
而不是说我就把数据给你堆上去
只是做这样的事情
那我可能会觉得只是堆数据是不够的
这是它的不同点
所以它其实也是相当于你说的
黑盒白盒
一起研究就是它
对对
对于Yann来讲的话
甚至我认为它没有那么在意这个
是否它发展成一门科学
目前我认为它的观点是
它还停留在经验性和工程上面
然后让这个系统可以工作的更好
我认为这个的话
在短期之内是会走的比较快的
对吧
也是他其实一直非常擅长的一个东西
因为当年其实在开会的时候
在会场上他就会带着他当年做的剪辑 -
E161_聊聊大模型如何思考与深度学习科学家Yann LeCun(4)
神经网络去授给别人看
你看这个可以做数字的识别啊等等的
他其实很擅长这个工程的
这种让这个系统可以工作起来
嗯对
我好奇的是
在OpenAI证明了scaling law
可以达到很好的效果的时候
你觉得让他在科研方法跟他的思维上
他会有转变吗
还是他非常坚持的还是原路线
我其实觉得他并不反对scaling law
对
就更多的数据
更好的数据和更多的计算
我觉得大家在这件事上并没有冲突
但真正的可能分歧就是说
比如说在OpenAI
很多工作其实还是要以产品为导向的
对不对
一样的研究组来讲
我其实觉得OpenAI的很多东西
一个是工程上执行的极致
另外一方面也是产品上的一些突破
对 比如说对话的形式的最先的引入
对这个
还是需要一点商业上的天才
来做这样事情
然后我觉得对于yann自己的组呢
它其实更是一个科学形式的一个组
他想这些问题的时候
想的就是
里面不太涉及到产品的这些问题
他只想的只有一个问题
就是说我怎么能实现这样的智能对吧
那到底是需要什么
因为他在这个领域已经太久了
已经不像是我们
我们进入这个领域
其实也有一段时间了
对吧 但是他八几年的时候
就在这个领域在深耕了
所以他可能看这些问题的时候
他还是坚持自己的理想
说我怎么能获得更强的
像他看到的这种方式
来让这个智能的能力提升
嗯对
你刚刚一个说的是
Yann这个智能自主的学习
这是第一个观点
就是Yann他的一些大方向啊
其他的还有一些方向是什么
对还有一个方向的话
Yann一直相信的一个东西呢
我其实觉得这个是一个有意思的问题
这个问题就是说
他一直在谈的是JEPA
joint embedding Predictive Architecture
这个结构呢
它其实表示一个观点
就是说我当然要有具身能力对吧
我当然要有自主学习的能力
但是比这个更重要的一点呢
是说它其实不仅仅是一个压缩的一个问题
他是当你在学习数据的时候
你是希望把数据中的一些
比较高层次的一些规律
学习出来
那就是两派
一派是说那好
我学到的这些东西
我要能够对数据进行完全的重建
你可以认为是一个挺压缩的一个思路
但是Yann说的这个东西呢
他认为说他说数据中呢
所具有一些高层次的规律呢
你不希望它完全的
去回到这个图像当中
因为你如果要还能重建这个图像的话
你就带有了太多的细节
而这些细节
并不是对你的这个系统做判断的时候
最重要的一些信息
所以在这点上的话
我认为是他也一直在坚持的一个东西
嗯
这点他跟你伯克利的导师马毅
老师的观点是不一样的吗
我其实觉得我严格来讲啊
他们是很好的朋友
OK所以我其实觉得
这个观点上并没有本质的冲突
只不过是表述的方式
我自己看这个问题的话
比如马老师觉得
这个世界的规律是简洁的
让你觉得说这些细节
其实对你做下游的这个任务
或者做一些很多的判断是不利的
所以你要把那些高层次的规律找到
但如果你仔细想
这两个东西实际上是一样的
对吧因为高层次的规律它是简洁的
但只是说当我们想这个问题的时候
我们可以把这个
完全看成一个压缩问题
对吧
马老师经常说所有的东西都是压缩
如果你拿一样的这个观点来看的话
你会发现哎
没错所有的东西都是压缩
但是呢这个数据的
它的这种层次的结构有不同
对吧因为是现实世界是复杂的
那么现实世界
如果你深入到这些细节里边
你会发现有大量的东西
它其实是低层次的一些结构
不是说这些规律不存在
只是说这些规律呢
并不像我们人类
比如说咱们人类知识的高峰
就像万有引力
对吧
我们找到的这样万有引力的几个公式
可以基本上在我们可观测的范围内啊
都是对的
或者说
在我们常规的物理的可观测范围
都是对的
那这个可能只是很小的一段信息
但是如果我们去看外面的
这个森林的树叶的样子的话
那它这里边很多的结构是局部的
那这些局部的是什么意思呢
当我们在谈压缩的时候
数据中有结构
任何存在结构的东西
都是从噪声偏离的
一个反应
就说完全没有结构的东西就是噪声
任何离开噪声你就是有结构了
对吧然后我们要学习的本质
要学习这些结构
但结构有不同的层次
低层次的话
比如地毯它的样式
当你上升这个层次
在更大的一个尺度的时候
你会发现这个东西呢
这个结构其实已经不重要了
它甚至已经没有更高级的结构了
那它在那个层次来看的话
这些东西就已经变成相对来讲
像噪声一样的东西了
所以样的一个观点是说
我们需要有这样一个层次化的学习
能学习出来越来越高的几个结构
所以我如果我们做压缩的话
就对我们做出了一个挑战
我们要压缩式
没错我们要学习信号中所有的结构
不同层次的结构
但是最高级的结构呢
它往往对于压缩的整个的
所占的这个比啊
它不大
在优化的过程中可能会丢失对吧
就是因为你大量的东西
都是在低层次的
这些像噪声一样的东西
这个信息量是最大的
越往上走
越往上走
越往上走
就越难发现这样的结果
为什么呢
因为在你的优化的lost function
就是你的目标函数里面
你找到这个规律和找不到这个规律
可能对你的lost影响不大
我觉得主要就是这么几点吧
他一个是对这种世界模型
一个是对于这种层次化的表示
你觉得他们身上有哪些特质
是特别打动你的
我觉得他们身上特别打动我的特质呢
可能就是他们做事情的那种
专注和纯粹吧
对因为我跟Yann有一次吃午饭
然后我觉得我们聊一个事情
我觉得他说的一句话很有意思
他说
你们在年轻时候想要的所有的东西
我都有了
但是我已经没有太多时间了
所以他只能用自己剩下的时间
做自己真正相信的事情
啊我觉得
当你跟这样的一些科学家工作的时候
你可能会被他们身上的这种气质
所影响以至于你
即便你还没有达到
他们现在所在的这个地位
以及他们所拥有的这些东西之前
你也能以他们的视角来看待这个世界一点
所以你在做选择或做事情的时候
你可能会超出你现在
完全你所在的这个位置
可能会想一些哎
我如果我有一天也都像他一样
全都拥有了
以后我会做什么
对吧 那这样的话
你在选择一些研究的问题的时候
以及事业的这种方向的时候
你可能会被他们的这种气质
经过长时间的这种气质所影响
我觉得这个可能是
我觉得收获挺大的一个东西
嗯
所以他有改变你的哪些决定吗
有啊他会让我做很多的选择的时候
会想到这个事情
其实这点的话
我在读PhD的时候
就读博士的时候也会被我的导师影响
本身他们几个人都是朋友
对所以就是学术圈子很小
对学术圈子很小
那他们以前也是有合作
那么我读PhD的时候
第一天其实我的导师
他讲了两件事情
他说希望你不用发很多的文章
哎后来他不承认这件事情了
哈哈哈对对对
就是出不来结果
还是要说对
他后来我跟别人讲的时候他也在场
我说他说不需要我发很多的文章
他说他没说过这个
但是他有一个他承认他说过
他就说他希望你能发出来这种文章
能够穿越时间
就是说在20年以后
看到这篇文章依然不旧啊
我后来觉得这个很难
因为很多的工作
他带有鲜明的时代感
但是真正一些深邃的思想
他可能穿越了100年
穿越了几十年
他依然看起来还不是很老
那这样是高质量的工作
那你那个20年还不旧的工作
那至少是能推动人类往前前进20年的
一年补救就是推动人类前进一年
对这个是一个很高的目标
而且短期无法被验证
只有在你退休的时候
他可能才能被验证
当你快要退休的时候
我们才能重新审视这个人
但是他至少提出了一个灵魂的拷问
对吧就是你能否坚持去做一些
能够与时间共存的工作
我觉得这个要求很高
第二个是呢
他希望说
一个学者应该具有自己的一种态度
如果你觉得一件事情呢
是a可以做
b可以做
c可以做
你也可以做
你就不要做
就说当你做这件事情的时候
你会发现并不是这个工作需要你
而是你需要这个工作
这是一种投机的心态
就是我其实觉得他们身上有相似的
这种气质
就可能就是说他希望你做一点
不要随大流
能有自己的态度
寻找到自己的一些voice的一些东西
所以在你在选这些研究的方向的时候
你也会自己时不时的判断一下
我现在做的这个工作
到底是一个投机的
还是一个真正的中流砥柱的工作
对吧
有的时候你还是会做一些投机的工作
但是你自己心里要有一个判断
对我觉得这个就是独立思考
且坚持自己的热爱
对
而且就是说我觉得他们尤其是像Yann
他们比较伟大的一点
就是说
你可以穿越这种几乎是绝望的过程中
然后迎来曙光
因为我觉得没有经历过低谷的人
沉淀的可能还是不够
当你经过至暗时刻
你还能走出
在至暗时刻没有改变方向
走出来
当然你不是说不撞南墙不回头
就是完全错了
而是说你
你的眼光可以穿越短期的这个时间
你可能真正有一些坚持的东西
而且你是证明他是对的
我觉得这个是挺有意思的
一种气质
嗯
有哪些Yann在科学上的看法
是你不同意的吗
比如说Yann的观点
会有点挺鲜明的一些特点
他有的时候会铁口直断
比如说最近他有可能说
如果你是PhD的话
那你就不应该研究大语言模型
那他认为什么阶段应该研究啊
不
他就是说你如果作为一个研究者的话
你在读博士的话
就不应该研究这个东西
这他有很多种理解
从他字面上意思理解的话
你就会很多人就会不同意
就包括我可能会觉得哎
大语言模型
可能它里面有一些结构
是值得被理解的
去研究一下的
当然他可能他真正想说的
我有的时候听他的这个话
他背后想说的可能是
你不要去做就像刚才说的这种
a可以做
b可以做
c也可以做这种投机性的工作
而是说你真正有自己的一点坚持
找到一些比较原创性的贡献
如果是这样的说的话
我其实觉得我会更同意一些
但是我其实觉得
有的时候他表达的是这种意思
可是呢由于他是大v
如果说这个
所以认同他的理念
不认同他的表达话术
他有的时候这个话讲出来会吓你一跳
嗯 什么意思 对吧
很可爱很可爱
对我觉得这是他比较有意思的地方
但是他有话题性
这样的好处是说大家看完了这个以后
大家觉得哎
你就瞎说
然后然后我觉得挺好玩的啊
嗯对
因为你也在Meta工作过嘛
你觉得Yann对Meta最大的贡献
在哪几块
哦
Yann对Meta最大的贡献
我觉得首先它应该算是帮助
筹建了Meta AI
当时他筹建Meta AI的时候
首先是Mark找到了他
第二个是说他自己也有一个理想
因为他早年是贝尔实验室的
他很向往
当年的贝尔实验室的那个状态
所以他其实想在Meta
在工业复制这样的一个
对
他秉承这样的一个理念做了Meta AI
也招了一批非常不错的人
结果呢
其实也是给这个领域做了很大的贡献
我认为
这个可能是他真正比较大的一个贡献
在Meta AI然后借助这样的一个平台呢
把这样的一个理念给贯彻出去
这也是他现在
推动整个领域发展的一个方式
如果你只是自己一个人研究的话
可能不如能搭一个摊子
然后让大家这些聪明的人一起
在这样的一个框架下一起推动
一起玩
嗯OK
对我觉得
开源
应该也算是他的很重要的一个贡献
比如说Meta Llama
之所以走了开源的路线
跟整个样的思想应该也是非常一致的
对
对这个说开元的话
我认为这是样所坚持的
至于将来在商业上
因为商业上他总是有一些竞争嘛
这条理想主义的道路到底还能走多远
我也不知道
将来Meta是不是会一直开源下去
就是所有的东西都开源
还是说因为毕竟Meta也会面临竞争
它作为一个公司来讲
它要发展的话
它会面临它那个层面的竞争
比如OpenAI啊
Google啊什么
这些公司的竞争
那在这样的一个竞争情况下
你是否还能以一个比较现实的方式
一直坚持这种开源的这种理念
我其实不知道
但是我觉得这是Yann的一个理念
最终能执行到多好
能走多远
其实也要看整个的这个群体community
它的发展吧
嗯那你觉得现在整个大模型的研究
它是一个必须是一个科学家驱动的吗
还是
它会慢慢变成一个工程驱动的事情
我觉得它已经变成一个工程驱动
早期是科学家驱动的
对就是当东西它不太work的时候
就是它还不太好用的时候
这个就它没有做出来的时候
它是科学家驱动的
对你需要有一些belief
就是说你要有一些坚持
但是在过去的这些年里面
我感觉这一两年里面
我觉得主要的这个进展
都来自于工程的执行
执行的极致程度对吧
数据的质量是不是变高了
数据是不是变多了
它的distribution是不是变丰富了
计算是不是能够并行
就一个一个的
这种工程的非常重要的细节导致的
嗯
就感觉现在大家都是在做优化
早期从0到1的时候
是科学家在带着大家
从无到有去创造这件事情
对他的发展吗
他前期是从0到1
他需要这种突破性
然后从1到100
他其实需要工程的严格性和执行能力
他也是不同人在不同阶段
他的角色的变化
反正要让他发展的话
可能需要不同角色的人一起来推动
那大家现在都在期待GPT5
你觉得如果GPT5就是
下一个这样
非常大规模的大模型出来了
它更多是一个科学问题
还是一个工程问题呢
我觉得工程上面可走的路是很远的
还是有相当的一段路可走的
甚至我们可以认为Scaling Law
他有相当的路可走
他完全没有到尽头
就是数据
还有很多数据
还有很多算力
还有很多算力可以扩展
那你的数据的质量
以前大家光说量
其实质也很重要
这些我觉得都能走相当的一段时间
但是我认为不够的
Scaling Law肯定不是it’s not enough
就我们这很多
现在大家喜欢说的是什么
is all you need
我觉得更好的一个方式
我们都觉得是什么东西is not enough
即便我们现在找到了最robust
最鲁棒的一条路
就像Scaling Law这样的东西
我认为it’s not enough
那么我们还需要什么呢
我其实觉得需要的就是类人的
这样的efficiency
就是这样的高效的效率
那这个效率如何实现这样的一个效率
那么有可能是数据出发
有可能是data追问的
对吧完全是数据驱动的
但也可能是还有其他的一些东西
所以我觉得 -
E161_聊聊大模型如何思考与深度学习科学家Yann LeCun(1)
欢迎收听硅谷101
我是泓君
从ChatGPT到特斯拉V12自动驾驶
神秘的大模型
一次又一次的在工程界
给人们带来惊喜
当人们输入一个数据
大模型就能直接输出一个答案
但整个中间过程是怎么样的
没有人知道
我们把这个过程称为黑盒
也正是因为黑盒的不可解释性
所以AI的安全问题
在当下受到了很多大佬的质疑
有一群科学家
他们在尝试去解开这些秘密
业内呢称之为白盒研究
今天我们邀请到了
加州大学戴维斯分校的助理教授
陈羽北
他博士师从加州大学伯克利分校
计算机神经科学家Bruno Olshausen
博士后呢
师从纽约大学的深度学习专家
Yann LeCun教授
也是2018年的图灵奖得主
被业内称为卷积网络之父
同时他也是Meta的首席科学家
今天我们就来和羽北聊一下
黑盒模型的拆箱进展
以及与之相对的白盒模型
也许不用所有的人都了解黑盒的秘密
但是总要有人打开它
hello羽北你好
你好
然后今天跟你聊这个话题呢
其实我主要是想聊一聊白盒模型
所以你现在是在研究这一块
这个方向
其实它的一个比较大的目标
就是把我们现在看到的这种深度学习
从一门纯经验性学科
向一个科学学科来推动
或者说工程变成科学
其实主要的一个动力
是来自于这种工程上的一些进展
而它的科学发展相对来讲又缓慢
嗯对
那在你自己做这个白盒模型研究的过程中
你有没有发现一些
我们怎么去解释GPT它的输入输出
它到底是怎么推动
已经出来的一些研究成果
我自己的工作呢
早期做过一些
以前有一个模型叫做词的嵌入吧
Embedding
他可以学到一些语言的一些表征
大家当时其实就有一个疑问说 哎
我们做任务的这些性能变好了
可是是什么导致这个性能变好了
所以我们当时做过了
一个非常早期的一个工作
就尝试打开词汇的这些表示
当你把它打开的时候
你会发现一些很有意思的现象
比如说苹果
苹果这个词
苹果这个词
它有一个机器学习出来的一个表示
当你把它打开的时候
你会发现
你可以找到里面的一些元意思
比如其中的一个意思
可能就是代表一个水果的一个意思
然后另外一个意思呢
它代表甜点的一个意思
然后你再往下挖下去
你会找到
哎 有一个意思是技术和产品
那当然
它就指的是现在这个苹果公司的
这些iPhone啊
这些产品
所以你会发现在所有的这些意思里边
你能找到这些元意思
那么顺着这条路呢
你就可以去把这样的方法
延伸到大语言模型里边
当我们学完一个大语言模型以后
我们也可以尝试
在这种大语言模型里面
去寻找它里面所带有的一些元意思
然后尝试去打开
当你做这些事情的时候
你会发现
哦一个大语言模型它有很多层嘛
在初级的这些层里面
它会出现一个现象
是说词语的消歧
比如说像在英文里面有个词叫做left
left这个词呢
它既有可以当做是向左转的这个意思
也可以说我离开的一个过去式
那么具体它是什么意思呢
在当前这个语境下呢
要取决于前后的这种上下文
所以它语言模型你会发现
它在初期的几层里面
它就把这个词语的消歧就做了
在中期呢
你会发现有一些新的意思也可以产生
当时我们觉得很好玩的一个意思是
它就做一件事情
它就做单位转换
一旦你说多少的公里变成英里
这个转换
然后一旦你说多少的温度
从f就是华氏变成摄氏度的时候
它就会被激活
就是这个意思会被打开
所以当时我们觉得这就很有意思
你可以顺着这个路
找到很多相似级别的这种元意思
然后你可以再往上走
再往上走的时候
你甚至会发现有一些这个元意思
它只检测一种规律
这种规律就是说
当你的这个上下文里面
出现了一个重复的一句话的时候
或者重复的一个意思的时候
他就会被激活
比如说在星空联盟的这个广播里面
当你说广播播放了两遍
你就发现这个意思他被激活了
然后或者说你说在歌词里边
我重复了一句歌词
他也会被激活
所以就说
你会用这样的方式
可以去打开大语言模型
以及小语言模型
对吧那么当然这些思路呢
也并不完全是新的
它在视觉的模型里边
其实已经有相当的历史了
就比如说从Matthew Zeiler开始
就是有一些这样的探索
那顺着这个思路
是不是
如果我们知道了它部分是怎么运作的
我们可以从工程上对它有很多的优化
对这个是一个非常非常好的问题
我其实觉得理解的比较高的标准
或者是说做任何的理论
它的一个比较高的要求
是可以指导实践
所以在我们当时做这种语言模型啊
还有词汇的表征的时候
其实当时也有一个目标
就是说当我们理解以后
我们能不能反过来优化这些模型
其实是可以的
就比如说举个例子
如果你在这种大语言模型里面
你找到的一个元意思
这个元意思
可能当它看到某一种元意思的时候
它就会激活那这个东西
它这一个神经元
它就可以被作为一个判别器
你就可以用这个东西来做一些任务
当你找到了这么多元意思以后呢
你可以通过对这些元意思的改变
改变之后呢
你就会说
我这个模型
以前他有一些这样的一个bias
或者说这样的一个偏见
然后
你可以通过对这些偏见的一些调整
如果我能发现它的话
那我可以调整它
最近Anthropic他们做了一个工作
他们能找到这种语言模型
里边的一些可能存在的一些偏见
然后对它进行一些改变
可能是可以使这个模型
变得更加的公平
更加的安全
然后我看到去年open AI
它还有一项研究
它的那项研究
就是用GPT-4去解释GPT-2
看GPT-2到底是怎么工作的
比如说GPT-2的神经元
在回答所有跟美国历史
1800年前后的事情的时候
是第5行的第12个神经元会被激活
再回答中文的时候
是第12行的第13个神经元会被激活
那如果说
我们把它回答中文的这个神经元
关闭的话
它对中文的那个理解能力
就会大幅的下降
包括我们去看
它说到跟加拿大有关的信息的时候
就是第21排的这个神经元
但是我们就看它越往后的这个神经元
比如说它的神经元
到了2,000排左右的时候
那它整个的可信度就已经下降了很多
你有没有观察到这样一篇论文
具体这些数字
我好像没有读到这篇文章
不过这个方法呢
我觉得
其实你如果要仔细想这件事情的话
它非常像是给大脑的神经元做手术
就是相当于
我现在如果有了一个神经的网络
如果这些网络的它的意思
从某种意义上
它能找到一个局部的一个存在的话
对吧它不是完全分散的
然后它是相对能够找到这个意思的话
那么我就可以相对来讲
对它进行一些操作
比如说我把这个神经元切掉了
那你就可以认为它这块的能力
相对来讲就损失掉了
就是人其实也是一样的
就比如说人如果是有癫痫
然后有的时候做完手术了以后
可能会出现某一些语言的一些障碍
对吧但是其他的功能不受损失多少
我觉得是从原理上看起来是相似的
嗯OK
那你觉得你的研究跟OpenAI
包括Anthropic它们
大家都在研究这个大模型的可解释性
它们之间有什么区别呢
就说白盒模型的研究呢
是否我们将来能成功
这件事情我不知道
因为在这件事情上
实际上我也跟我的导师
我们也都讨论过
大家一致的看法呢
是说这件事值得尝试
但是是否会成功
我们都不知道
如果我们回到这块的话
我们其实是想理解这个人工智能
并且通过我们的理解重构它
对吧
构建出来一些从根本上不一样的东西
那么观测就是说从解释性
这个我觉得只是一种手段
就说打开这种模型也好
我做这些实验也好
我尝试去根据我打开的这些东西
来对我的这些模型进行一些调整也好
我认为这都是我们在理解过程中
所谓的一些尝试的一些手段
但是我觉得真正重要的一个
白盒模型的
它的本质呢
实际上要回到这个信号的本身
因为不管是人脑也好
还是机器也好
他们学习的本质呢
是因为这种信号
我们这个世界中存在一些结构
他们也要通过这些结构来进行学习
学的也正是这些结构
那么我们是否可以找到这些结构
背后的规律
以及表示他们的一些数学工具
然后把这些东西进行重组
构建出来一个不一样的模型
如果这件事可以完成的话
我想可能可以带来的一个期望是说
我们可能会提高
我们的系统的鲁棒性也好
安全性也好
可信度也好
但是还有一点
其实我觉得是
如果我们看历史的话
最重要的一点可能它的efficiency
也就是说它的效率会提高
就是这个例子
多少有点像是一个
以前
我们一开始是这种蒸汽机先出来了
后来的才有了这些热力学
这种理论出来了
才能支撑
把它从一门完全的工匠的学科
变成了一门科学
同理到今天来讲的话
我们现在就好像我们第一次在数据上
有了我们的蒸汽机一样
我们从以前不理解我们的数据
终于可以开始做出来
一些AI的这些算法
把数据中的规律给抓出来
所以它会更节能
你要说到节能的话
我可以给你几个有意思的例子
第一个是说肯定是节能
因为大脑呢
它相当于一个
基本上20瓦功耗的一个灯泡
那我们现在的超级计算机呢
它可能要超过百万瓦
那它这样的一个功耗
首先这是节能对吧
第二点是说
如果我们看自然界的
各种各样的这种生物
大自然进行演化的时候
它演化出来的这个生物
它其实效率非常非常的高
比如说我们举个例子
像有一种生物叫做jumping Spider
它是一种特殊的蜘蛛
这个蜘蛛它只有几百万个神经元
但是你如果看它的
在世界中的这些行走的话
它其实是可以做出非常复杂的
三维的曲线
去捕捉它的猎物
比如你在一个很复杂的一个草丛
然后这边是它的猎物
它可能要分析整个的结构
然后它发现哦
我应该先从这下去
然后再走这块
走过来再上去
对吧它要能理解这种三维的结构的
然后到达它的猎物
那它有这么强的这个能力
还要控制自己的话
它只有几百万个神经元
那么我其实觉得最有意思
最有意思的一件事呢
实际上是人对于数据使用的效率
我觉得这个很有意思
你看我们现在AI
在过去其实不长的时间
对吧就是大概也就12年这个样子
12年是从哪一年开始的
呃 14年吧
我们就我觉得从ImageNet
我觉得可以作为一个分水岭
因为ImageNet
多少可以认为是一次对数据scaling
大范围的一次尝试
就是数据
对对对对
对是的
呃
很多人说把AI的发展的这个年
断到叫AlexNet
就是AlexNet出来那一年
也就是说ImageNet
它的性能提高上去了
但是我其实更倾向于看到的是说
在这之前
2010年的时候
这个数据其实从原来的小数据
变成大数据了
这个是一个分水岭
那么在这短短的十几年里面
它取得的进展其实是巨大的
到今天来讲
我们的这种大语言模型
比如说Llama3
我印象中
它现在可能也变得数据量更大了
这应该是13万亿的这个TOKEN
但是如果你想人在自己的一生当中
就在你成年之前
你到底能接受多少的数据呢
不管是图片也好
还是文字也好
我认为比较神奇的
这个数字呢
是10亿
就是你假想这样
我每秒钟都可以获得30帧图像
那么这30帧图像的话
你一个小时有3,600秒
你每天假设你这样做12个小时
然后你做20年
那你得到的大概就是10亿
同样的话
我可以不间断的在做阅读对吧
我每秒钟我可以阅读30个TOKEN
大概10个词这个样子
那我阅读也是像刚才那样
阅读20年的话
我得到的也是10个billing
那问题来了
就是说
人是如何通过如此少量的一个数据
看似少量的数据
跟大模型比是已经很少了
对吧
这样的一个数据
获得如此强的一个泛化的能力呢
我觉得这又是一个efficiency里面
最让我觉得神奇的一点
嗯那你觉得
我们去揭开大模型到底是怎么运作的
跟揭开人脑是怎么运作的
哪个更难
我听起来都很难
这两者他各有各的难法
我觉得他们方法上是相似的
对吧就是不管是人脑也好
大语言模型也好
我都是哎
我尝试去观测他
看他对什么产生了响应
这个方法我其实觉得从David Hubel和Torsten Wiesel就是
当时他们得诺贝尔生理学奖
他们是研究在视觉皮层里边的
这种叫做simple cell
就是人的这种视觉皮层
大概就是在后脑的时候这个地方
然后从眼睛过来
经过中间
然后再传到后边的这个颞叶
他们找到了这样的这种simple cell
并且尝试研究人看到什么东西的时候
这些神经元会产生冲动
然后他就可以分析
我让你看不同的东西
看你有的时候
完全不响应
有的时候呢
他非常高兴这个神经元
然后呢我就想知道
你看到什么东西能
让他兴奋
他们就找到了这个神经元的receptive field
那我们今天来研究
这种大语言模型的话
其实也是相似的
我们来找这种不同的输入
让我们的大语言模型
那我们尝试理解它内部的哪些神经元
是对哪些输入感兴趣
对吧其实是相似
只不过它有个区别
第一个区别呢
我认为是对于大语言模型
我们的优势是
我们其实所有东西我们都可以观测
并不是受限于我们的观测手段
对于人脑呢
你就有很多的受限手段
你以前是可以插一个电极
然后后来呢
你可以插一个电极
上面可变成12个电极
再后来呢
转到脑机接口的那一套是吧
对对对是的
然后现在你可以
比如插上几百个这样的
上千个的这种
但是你毕竟你的观测手段是受限的
不管你是用fMRI
还是用不同的这种Neuropixel啊
这种侵入式的
非侵入式的
他们各有各的局限
所以大语言模型给你一个天然的好处
就是说你的观测手段不再受限了
如果你有更好的方法
你就可以尝试去分析
甚至你还可以
整个模型还是可微的
对吧你可以通过一些微分的方法
进一步的分析
但他的缺点是大语言模型的能力呢
我认为还远远不及大脑
尤其是这种大语言模型
如果我们给他一个例子的话
他只从这种语言里面来学习这个世界
他的对世界是理解是不完整的
就好像是说一个人
他没有了其他的感官
只有语言
大脑处理的是更多维的信号 对不对
它除了语言还有嗅觉
非常多维
对
听觉
对
就是说它的这种感官的丰富的程度
它对世界的理解呢
很多的时候
甚至有的时候我们可能会想一个问题
就是说语言是否是完备的
如果没有其他感官的支撑的话
语言里边是不是所有的概念
都可以独立的存在 -
E161_聊聊大模型如何思考与深度学习科学家Yann LeCun(2)
还是说他一定需要其他感官作为支撑
你才有可能说来
最终理解那一部分的意思
就比如说举个例子
我说在语言里边
我可以说哎
冰箱这个东西呢
你如果不和现实的这种世界构成一个
这种冷热呀等等的
当然你可以通过冷热的这种方法
它有门的这个东西来描述这个冰箱
通过它这种统计特征
但也许这种描述永远是不完备的
但具体是不是完备的
我也不知道
我感觉是不完备
但是我也没有办法
去把它完全的用数学证明
所以说
其实现在整个大模型跟大脑相比
它还是欠缺非常非常多层的
但是因为我们可以看见的更多
可以把它拆开来研究
所以我综合你的观点
就你觉得
它还是会比揭开大脑的秘密的
这个野心
稍微更近一步的
嗯理解大语言模型
它的难度当然就在于你观测的手段多
你可能能对它理解的更加多一点
我的感觉是这样
对吧有两台机器
一台机器你完全可观测
一台机器部分可观测
那我从直觉上来讲
是一些完全可观测的
这台机器更容易被理解
当然他有一些能力是这台机没有
所以不能取代对人脑的一些理解
对我跟听众简单介绍一下
羽北之前是学neuroscience的
所以
也是懂非常多神经科学相关的知识
其实我挺好奇
就是你觉得之前你学的这个学科背景
包括我们对整个神经科学的研究
对现在你来做AI方向的研究
会有什么帮助吗
或者说会不会有一些跨学科
可以相互借鉴的研究方法在里面
对 我学过一些计算神经科学
但是我是个半吊子
我其实
一直也不是专业学计算神经科学的
我本科的时候在清华电子系
在伯克利的时候
其实也是电子工程计算机系
然后还有一些纯数学的一些背景
然后呢
我当时我所在的那个研究的研究所
他是一个理论神经科学的一个研究所
所以我导师自己是计算神经科学的专家
那么刚才的这个问题
说计算神经科学也好
神经科学也好
对于我们研究AI有什么不一样的帮助
我的感觉是说
对于我来讲的话
这种帮助呢
通常来讲是一种启发
因为当你知道自然界的这些系统
有的时候
你知道它可以做到什么的时候
或者是它面临的一些情况
是什么样的时候
你可能会有不一样的想法
会重新看待我们眼前的这个问题
我可以举几个例子
这几个例子很好玩
就是说我们现在习以为常的一张图片
这张图片的话
它是一个像二维的一个输入信号
它有很多的Pixel像素
这个像素呢
它会分有横向的
有纵向的
然后它形成一个网格
但如果我们看人眼的话
你看人眼的视网膜的话
它不是长这样的
首先
它的这种不同的感知的这种接受器
感受器是以非常密集
但又不是非常规则的方式排布的
而且它中间非常的细密
向两边的时候会变得稀疏
当时你面对这样的一个输入信号的时候
你会想首先一个问题
说我们习以为常的这些卷积
神经网络什么的
这些东西
所有的这些东西都失效了
因为连卷积在这里都没有定义
所以当你看到生物系统
它所面临的这样的一种情况的话
你会重新去想
我们所谓的这些卷积到底从何而来
所以你会重新去想
你的方法是不是对的
是不是一定要以这种方式来实现
对假设你第二天你醒来的时候
所有的神经元都打乱了
然后你还能再去理解这个世界吗
就是你因为你已经看到的
已经不再是一张图片了
你也不能再用卷积
神经网络来做这件事情了
那你怎么去理解这个世界呢
你需要什么样的方法
其实还是可以的
我们没有完全解决这个问题
但是我觉得做了一步
挺有意思的
这个是怎么做的呢
你就可以说哎
虽然我的所有的神经元都打乱了
就是我们的感受器
图像里面的这些像素打乱了
可是相邻的这些像素呢
它们有一些关系
比如说我们看图像里面的话
我会发现如果一个像素是红的
那周围的像素也更可能是红的
这是它们统计上的一些关系
那么通过这种关系呢
你就可以去让这些像素
他们重新去找朋友
然后你就可以把相似的这种像素呢
让自己自组织成一些关系这样东西
然后这个时候
你再加上我们的大语言模型的
这里面的这种Transformer啊
这样的结构
你就可以重新的
对这种图像做出一个表示
而且这个表示的最后
它的性能还不错
这个就是一个具体的一个例子
就是说完全是从一个自然的一个启发
那我们重新去审视
我们现在一些工程上的一些做法
然后提出来一些不同的方法
嗯对
感觉整个研究AI大模型
跟看人脑跟神经科学是怎么运作的
还是有很多相似之处的
我好奇会有神经科学家
从他们的这个角度来研究
跟你们产生这种跨领域的合作的吗
其实有很多的神经科学家
以及统计学家
然后数学家
他们想要理解自然信号中的一些结构
同时呢也会关注大脑中的神经元
他们是如何运作的
然后把这两者结合在一起
尝试去提出一些极简的
对于信号的一些表示
举个例子
就是说在大脑里面啊
你会发现有一个现象
就是说这个神经元虽然很多
但是同一时间在工作的这些神经元
就是兴奋的
这些神经元他其实是非常非常的稀疏
也就是说比如我给你100万个神经元
可能几千个他们在工作
那么这里面的问题是说
那他们到底学了一个什么东西
其实早年的时候
神经科学这边就提出来一个方法
就是我当时导师他们参与研究
这个工作
叫做稀疏编码
那么稀疏编码
当然它不仅仅是一个
神经学方面的一些看法
同时它在统计学家也在同期
在提相似的一些思路
也就是说在这种高位信号中
那么我们能不能找出一些稀疏的
低维的一些表示
从这样的思路出发呢
你就构建出来这个算法
他也会学出一个一个神经元的
他的表示
然后你会惊奇的发现
你学出来的这个表示呢
他和你在大脑里面观测到的
这些神经元的
这些表示呢
非常非常的相近
所以这个是当时计算
神经科学的一个早期的
算是无监督的一个成功吧
我觉得照今天来讲的话
我们的整个的这一支
我管它一个名字
叫做自然统计信号的研究
叫做natural signal statistics
它的目标就是
揭示信号背后的一些基本结构
它的发展其实相对来讲挺慢的
你会和这种大模型它的进展来看的话
你会发现大模型的进展非常非常快
但相比之下呢
这种白盒模型啊
这类的神经科学结合
它相对来讲走的慢一些
我其实觉得一方面呢
可能是因为问题复杂
但另一方面
也是因为投入这个方向的人比较少
简单来说
就是研究白盒模型的人太少了
但是像我们之前研究的
比如说传统的机器学习的这种算法
线性回归决策术等
我们都可以理解它是白盒模型
简单来说在大模型出现以前
我可不可以理解成整个
传统的机器学习
它可能就是属于白盒模型的范畴
我觉得这个说法可以认为是对的
就是说以前的这些机器学习的模型
相对简单
你都相对来讲可以理解
它们类似于现在我们看到的这些大模型
包括扩散模型
它们其实是可以算作
属于是黑盒模型的
为什么说现在整个的黑盒模型
看起来它在研究跟进展
甚至在表现跟大家的观感上
对
白盒模型实现了一个弯道超车
就为什么它会降维打击
对对对对对
为什么它的速度可以快这么多
这个问题你问出来
我们就先是紧张一下对吧
然后再回答
那么为什么紧张这个问题
就是因为它很尖锐
其实这个问题就是说
那是不是白盒模型
或者说可以理解的这条路径
我们应该放弃了呢
就说我们是不是在AI的研究上
从我们这个时代开始
我们已经不再研究科学了
就说它从以后
全都变成一个经验性学科呢
我觉得还不是
但如果你回到你刚才这个问题
说到底发生了什么
在这个过程中
为什么现在这种黑盒模型往前跑的快
而白盒模型跑的不够快
那我认为首先一点呢
就是说黑盒模型的包袱少
你既要这个方法可以工作
可以work
然后你同时又要这个方法可以解释
你有两条要求
啊那它放弃了一条哎
放弃了一条我可以让它工作
那这一条是一个非常非常重要的一条
第二一个我认为一个很大的一个
被大家所忽视
相对来讲
甚至
被很多科学家所忽视的一个东西呢
我认为是数据的幂式增长
或者说规模扩大
那么我认为这个在过去的十几年来讲
甚至有一个
我记得Richard Sutton写了一篇博客文章
它就讲叫做一个痛苦的教训
它里面提到了一个事情
就是说在过去的20年里面
有一个一直没有被打破的一个东西
就是说当我们有更多的数据
当我们有更多的计算
你总是应该找一些
比较能够真正扩张的算法
它能够把所有的数据的这种规律
找进来我认为这个是黑盒模型里边
或者说我们现在的经验性的这种进展
里边很大的一条
就是说我们有更大的数据
更好的数据
更多的计算
更大的模型
然后我就能学的更多
但是我们回到这个问题的话
你可以想白盒模型
你说这个里面大家有一个追求
是说我想要做出来这个模型呢
它要简洁性
然后他要这个模型本身要简洁
为什么白盒模型要简洁性
我是不是可以理解成如果他过于复杂
你们要在中间加的东西会更多
然后他就很难被设计
对我其实觉得做理论
你可以只有简洁的东西才可以被理解
对吧你肯定是要做一次一次的简化
但是呢如果你考虑到
这种scaling law这件事情的话
你会有一个问题
就是说
当我们在追求模型的简洁性的时候
可能会做了一次又一次的
在英文里面叫做oversimplification
过度简化
就是一旦你出现这种过度简化的话
你的模型就无法完全的
刻画数据的形态
那么数据更多的时候
你的模型就更无法刻画它的形态
那你就会出现
将来这个模型就走不下去了
它的能力会被限制住
所以我认为
这是以前大家在研究白盒模型
在研究简单模型
相对来讲面临的一个困难
我不仅仅要带着那个包袱
我这个模型需要工作
同时我还需要它可解释
同时我还需要它简洁
当你把所有这些东西带上
你会发现这个包袱太重
有点走不动
然后你会引入错误
对吧当你做过度简化的时候
你就引入了错误
错误会积累
再后来就走不动了
嗯但是现在黑盒模型发展的很快了
然后我们又开始尝试去解决它
对这次如果我们在解决它的时候
你可能就会重新来审视这个问题
就说我们不一定需要让这个模型
完全的简化
到那个程度
它还是能够表示这个世界
比较复杂的一面
但是你还是要知道
我们的包袱还是很重要
希望它工作
同时希望它还是比较可以理解的
那么还是希望它有相对来讲简化
所以我认为
如果有一天
我们可以做到白盒模型的话
那么在此之前呢
我认为每一次的尝试
都是一次过度的简化
但是我们希望每一次简化呢
每走一步都往前走
我们甚至不需要
完全做出一个白盒模型
也许我们可以做出一个白盒的
但是没有大模型那么强的模型
但是也很强
做到一个相对来讲不错的模型
但同时它又相对来讲
非常简洁
非常简化
同时还要保证功能
对
部分功能
部分功能
部分功能
那它对于我们理解学习背后的本质
是有帮助的
同时这种理解可能能反过来
又让我们对大模型的训练什么的
它的效率又会上去
因为我们要回到这个效率这个问题
这个也是我跟Yann之前讨论过几次的事情
就说如果我们发展这个背后的理论
最后我们就可能可以
让我们的工程的这种实践呢
它以数量级的方式效率上升
嗯所以Yann LeCun他的观点是什么
他是更希望发展白盒模型
还是黑盒模型
如果是在我看来的话
我跟Yann聊过这个事情
我认为Yann他是一个科学家
但同时呢
他是一个以工程方面
所著成的一个科学家
所以他的很多的尝试呢
还是要走第一步
要让这个东西工作起来
但是作为白盒模型的话
我认为这件事情是一样支持
但是他也不知道能不能走通的一个方向
比如说我跟他讨论完
他会觉得这条路值得探索
但是是否能实现呢
他也不知道
就一个过于有野心的目标
呃总要有人做的吧
是的是的是的
而且感觉白盒模型
就像你说的黑盒模型
它是一个类似于工程问题
白盒模型
它是一个科学
你必须用科学解释它
感觉它对商业化或者应用它
在你真正能出成果以前
它看起来投入产出比不是那么高
但是呢
如果你最终能做出来这个东西
我觉得对AI的安全性
包括我们说最终对应到它的商业化
还是很有价值的
对商业化这件事情
其实我认为所有做基础AI研究的人
首先他工作的初衷
不是以任何的应用为初衷
它是一个对于智能这个问题
一个比较纯粹的一个好奇心来驱动的
紧接着你可能会发现
它有一些应用在这个之上
比如说这中间的一些过程
你所发现的一些规律
它反过来可能能帮到你在工程的实践
但你由于这个研究本身
它并不是为某一种应用所设计的
所以它并不是一个那种直接的关系
举一个例子
那你正常来讲做无监督学习的话
你可能会需要训练很多个
就是他训练一遍
一遍一遍
那我们现在就可以问
一个比较疯狂的问题
就说我们能不能所有的数据只看一遍
能学多少是多少
那么这个时候你会怎么办
如果你这时候不知道学习的背后的
他的一些基本的一个原理的话
那你可能就不容易
达到一个比较高的效率
我们当时也做过一些这样的尝试
你会发现
其实当你知道背后他在学什么的时候
你是有可能数据只看一遍
然后也学的非常好的
虽然他没有完全把这个区别消除
但是他其实可以比你正常
不了解这个原理的话
他的效率高了很多很多
他的区别是很大的
还有一点的话
我认为说
当我们在追求这种白盒模型
这个过程中
还是极致的这种效率的过程中的话
你会回来追问这个问题
就是说我们现在做的这个大语言模型
是不是只通过这种规模化或者scaling law
这一条路走下去就可以了
我认为其实还是不是的
因为人
他其实做不到接受这么大量的数据
那如何用少量的数据
还能获得比较高的泛化能力
这个也是我们在研究的
一个重要的问题
我觉得这个也是黑盒模型的学者
在研究的一个事情
对
大家都在研究
是 那现在白盒模型
它有哪些学者跟流派
在研究这个事情呢
白盒模型的话
我其实觉得就是看AI的三股力量
第一股力量的话 -
E160_重新理解信息茧房_为何科学研究与我们主观感受相反_(5)
所以短视频平台
图文平台在如今其实就解决了这个问题
因为我在抖音上我看到这个博主他说的好
他这个信息帮到了我
我会点赞
留言关注
甚至还会转发
对于他来讲
其实他为我赋能的同时
我在反向为他赋能
这形成了一个新的正向循环
所以社交媒体用作搜索引擎
我觉得是非常好的一件事情
但这里面又提出了一个新的要求
就你怎么能辨别这些信息的真伪
这里面其实是我觉得挺棘手的一个事儿
当然这个辨别性真伪的
我觉得是一个多责任主体的事情
首先从政策段对于所谓的信息它的质量的把控
然后第二个是平台端
第三是网红经济
它的创作者主体的自律
第四才是我们的媒介素养
我举个例子
比如说之前猫一杯
他告诉我们秦朗丢了作业本在法国
然后出现了各种各样的这个事情
在这个事情出现的时候
我个人作为一个可能网红经济的研究者
我大概能够猜测出这是编的
但是我不可能公开来说这个事儿
因为我没有任何的直接证据
在没有直接证据的前提下
我觉得公开来讲这个事儿可能是不太合适
后来我们发现
经过公权力的调查证明了他是假的
这时候我们会发现
首先政策端是有一个可以做的事儿
那平台端也有可以做的事儿
就在这个事情出现没几天
应该是五月底
抖音就出现了一个热点内容的核实机制的公告
就是所谓的这种剧本演绎内容
如果你是没有注明你是演绎的
你当一个真事发了
那这个我就要惩罚你
结果没几天有一个整容医生
就是姓陶
他就说自己怎么做手术
怎么着这还挺感动
拍的结果就是虚假的摆拍
好像是被平台无限期封建了
那再往前今年年初还有什么丈夫背着妻子送外卖
妻子知道之后又骂又爱之类的
然后家里有个摄像头
就是家庭摄像头是万能的是吧
就是开始摆拍
说什么送外卖什么这事儿后来也被证明是假的
然后他也被应该是也是抖音被封号了
所以平台在这里面也在行使他的权利和责任
除此之外
用户能够做的
其实我觉得有两点
第一点是在你看到一个新闻
如果这个新闻非常触动你的情绪的时候
并且这个新闻让你觉得非常不可思议的时候
那这时候你要静下来想一想
它是否真的会发生了
这是第一件事情
为什么要说这件事情呢
因为我觉得现在的社交媒体中的信息是高度情绪导向的
很多博主在试图去做你的嘴替
试图说出你不知道怎么说的话
试图让你梦想中的事情成真
这个时候我们就要明白一个东西
就是它到底是制作出来的
还是真实自然发生的那如果我们的情绪被点燃了
那这时候我们需要的其实不是猛烈的转发
点赞
关注
这些你当然可以做
但是之前你要做的第二件事可能就是信息核查
比如说这件事情有没有被多个主体在共同的去发表
那其中这些主体当中有没有官媒
那官媒是怎么样来说的
比如说他说的那个人能不能去把他的信息源给他挖掘到
如果这件事情对你来讲是重要的话
我觉得这些事是值得去做的
而大部分的信息你在做了这些事情之后
你会拥有一个更平衡的理解
当然如果你没有时间去做这些事儿
我觉得在社交媒体时代
你提高你的媒介素养需要做的一个最简单的事儿就是等待
换句话来讲就是让子弹再飞一会儿
你会发现反转几乎是一个常态
而非个例了
其实我们在互联网的信息上
我觉得还有一点就是大家可能怎么样关注哪些博主
如何去选择自己的关注信息源
就也挺重要的
就说到这儿
你有什么你自己特别倾向于关注的博主吗
你有什么相对你的标准存在吗
我觉得其实现在就是我做播客以后
我获取信息的方式发生了挺多的改变
第一个改变是我看书的时间反而变多了
第二类变多就是我看新闻弹窗
比如说搜狐
网易或者美国的这种apple news
google news
只看这种每天的短新闻变多了
就是只看当天发生了什么事儿
同时我的邮箱会有一个美国的
有点类似于微信公号的这个订阅
是邮箱订阅吗
然后我订阅纽约时报
华尔街日报the information加一些稍微垂直一类的媒体
我觉得基本上这些信息就构成了我能跟进我当天关注的一些热点事件的一个基本的信息需求
我觉得这就是你的媒体套餐对对对
在有了这样的一个媒体套餐以后
比如说像TikTok
抖音
小红书
youtube这些东西就变成了我的搜索平台了
他们对我来说是一个搜索工具
然后另外就比如说我在研究AI的时候
我就会去看AI领域的一些顶级学者的一些twitter
然后我会在他们的关注列表里面去看他们关注了谁啊
但你要小心
有人会说你陷入信息茧房
你都通过关注链接来去找
是这样的
对我就我自己而言
比如说具体一点
比如说我在用社交媒体的时候
抖音对我的意义是什么
我举个例子
我觉得两个意义
第一抖音是我非常重要的娱乐的工具
就是我特别喜欢看那些20分钟讲一电影
40分钟讲一个电视剧
因为我没有时间看电影和电视剧
所以我把它转化为一种对于剧情理解的一种非常便捷的娱乐方式
另外一个抖音对我的意义是优惠券
因为我发现好多优惠券还挺值的
比如吃饭的时候找个套餐
这可能是我对于抖音的使用
还有一点就是搜索
就比如我印象中我之前做过一个视频是关于中国音乐产业的
然后我想对于中国音乐产业的在平台社会中的一种新的发展趋势
我想有一个了解
我想知道音乐人会怎么去评价这个事儿
在抖音一搜就能搜一堆
这是一点
但是如果我要去想看更严肃跟长篇的东西的话
我觉得阅读仍然也是不可替代的
所以可能我会订阅一些公众号
这可能对我来讲是这方面的一个需求
微博对我来讲就是一个我碎碎念的地方
我很少用微博获取信息
除了社会热点事件我会看一看之外
但是微博更多是我一个输出我自己的观点和想法
还有生活的一个地方
其实我也会在不断的调节
这个调节其实我个人认为没有什么对错
就是我很不愿意去教育大家什么应该怎么用
这个不重要
就是什么怎么用是没有人可以规定的
但是你用什么平台完成什么目的
是你应该具有高度的自主性和在你的控制范围之内的
这个其实是更重要的事情
然后由此说白了
我想再补充一个我觉得特别逗的一事儿
就是我个人越来越感觉大家太在乎什么热点事件了
大部分的热点事件当下吵的跟热肴似的
我不知道这能不能听懂
就北京话就是方言了
吵得非常激烈
全网都在看这事儿
比如说如今那个女孩儿应该叫姜平是吧
就那个所谓的数学天才
大家会吵的各种各样的证据
但是请注意
全部都是间接性的证据和推测
在炒的如火如荼
但是一年之后你会发现这其实并不是一件很重要的事情
我们往往会被这种热点在不断的刺激当下的情绪
来去花费很多的时间
但是其实他并没有那么重要
或者换句话来讲