E161_聊聊大模型如何思考与深度学习科学家Yann LeCun(3)

就是说我们在研究大语言模型
研究这些工程模型的过程中
我们可以产生了一些经验
然后我们可以对它进行一些可视化
这个我认为就是一种流派
Anthropic最近啊OpenAI啊
他们也参与在做的这些事情
然后对它进行可视化
之前就做了一些
然后现在又做了更多
这是其一
那么其二的话就是计算神经科学这边
神经科学这边
我们要尝试对人脑进行理解
然后在人脑里面
比如找到了
视觉和语言的它们交叉的一些区域
找到了一些记忆
可能的存在的一些方式
找到一些层次化表示的一些迹象
这是一种流派
还有一种流派
是从比较数学的角度来出发
比较统计的角度出发
哎我们问的一个问题
就是信号的基本的结构是什么呀
大家研究的
甚至我们会追问
比如3*3的一个像素空间
它长什么样子
它的形状是什么样的
然后去追问这个信号本身
背后的这个结构
这是三种吧
然后在这个之间呢
还会产生很多的交叉
嗯你属于哪一派
其实这三派
我都或多或少的有受到一点影响
因为之前在伯克利的时候
跟我的导师
然后以及马毅老师
他们都属于
多少有点像是计算神经科学
和数学统计的这个流派
然后在Yann这边呢
是工程这边受的训练多一点
所以这三种方法我也觉得都可以接受
因为它最终
都会让我们往同样的一个方向前进

同样的方向是哪个方向
现在有阶段性结果嘛
那最终就是理解这个模型嘛
那之前有一些阶段性成果
就比如说我们能不能做出一些
哪怕是两三层的一个网络
然后他还能表示
把这些比较高层的这些概念学出来
那每一层我们都可以
看他学的是什么东西
最后你发现真的可以做到一个数字
你要想表示他
你会把他一个一个的笔画全都学出来
笔画之间呢
这些相似的笔画
他们可以把它联系在一起
在这个之上呢
你就可以构建出来
下一个层次的一个表示
就像这样的
一层一层的
最后找到了数字的这样的一个概念
有意思那你现在的这些研究
会继续
有真正的对黑盒模型产生优化吗
黑盒模型优化的话
也会有一个是
就是说当你对它的理解加深了以后
你可能会比如优化这些黑盒模型
让它的效率变高
第二个是说可以让不同的黑盒模型
你可以把它们统一起来
这样的话你就是减少了
很多不必要的浪费
同时呢我觉得
还有一个涉及到我这个实验室的
另外一个植入性的工作
就是要给研究不仅仅是感知
但是还有控制
就是当你给了这些大语言模型也好
给这些不同的model
他能够和世界交互的这个能力的时候
这个过程
能不能让他的整个的学习的效率变高
然后之前
我们做过一些很好玩的一些尝试呢
就是比如说在控制系统里边
你能否获得同样的泛化能力
但是这个是什么意思呢
就是说在感知系统里面
你会发现哎
我学了苹果
我学的梨
然后来一个桃子
由于我之前学了一个相似的
苹果和梨的概念
你可以很快就学会桃子的这个概念
那么在控制的领域的话
你能不能达到相似的性能
比如说我现在这个机器人
他学会了向前走
然后我学会了原地跳跃
那我能不能很快一变
就把它变成一个向前
一边跳一边走的一个机器人
就是有这样的一种控制的泛化能力
这是我们之前做的
一个比较好玩的一个工作
那综合来说
如果让你给一个结论的话
你觉得白盒模型的研究到
我们现在去解开这个大模型
它是怎么运作的这个秘密
它大概是一个什么样的进度条
它的进度条到哪里了
它的进度条
我都不知道这个进度条有多长
我感觉我们距离这个目标其实很远
就可能是还在one PERCENT
它其实有的时候发展
它不一定是一个线性的对吧
它可能是一个这种比较像
量子的这种跳跃
当你有一个什么东西
你一个新的一个认知出来以后
你可能会马上往前走一大步
我倒是觉得
我们有可能能够做出一个比较强的
这种模型
完全可理解的
但是它浮现当时的这个
像比如AlexNet这样的表现
或者说
这还是要看你的阶段性目标是什么
对看你的阶段性目标是什么
如果你想做一个白盒的ChatGPT
我认为这个还挺远的
但是你如果说
我们要是想做出来一个
还不错的这种模型
我觉得这个还是非常有可能的
就是根据我们说
还不错的白盒模型
还不错的白盒模型
比如说它可以用来干嘛
它可以就做这种ImageNet的这种识别
然后我们可以理解它里边的每一步
它是怎么做的
然后它是如何一步一步的
变成了一个猫和狗
然后这个猫和狗
它的这个结构是怎么产生的啊
就ImageNet的识别
它算是白盒还是黑盒
就我们还没有发现
它的工作原理是什么
我们还没有完全发现它的工作原理
但是我们之前
比如从Matthew Zeiler和Rob Fergus
他们做的一些早期的Visualization
后期又有很多的研究者
他们做的这些Visualization就是观测嘛
可视化还是有一定理解
但是没有人能够创造出来这样的一个模型
然后每一步我们都可以理解
然后他还能工作的不错
所以我觉得可能这目标就分阶段
第一步
我们先解释这个ImageNet是怎么工作的
这个谜底揭开以后
我们可以再来解释
比如说一些小模型是怎么工作的
就像用GPT-4去解释
GPT-2是怎么工作的
然后再慢慢的来解释
这个大模型是怎么工作的
对 所以这个过程
我觉得还是有相当的一个过程的
而且
也需要更多的人来投入到这个方向上
因为毕竟工程上面的话
现在主要是进展
所以导致大部分的工作也就集中在这
那么如果我们放到学校来做的话
那你其实需要有一些
原创性的一些想法
而不是说你去scale
我也去scale
那大家都是scale
那最后其实是没有区分度
就看谁的机器最好了
和谁的数据最多了
那倒也是对
那接下来
我想跟你讨论一下你博士后的导师
Yann LeCun
在开头的部分其实我没有介绍过Yann
但是我还是想给不太了解的听众
来去介绍一下
Yann的背景
Yann他的中文名字叫做Yann LeCun
是一名法国计算机科学家
那因为他在深度神经网络
概念和工程上的突破
他和Geoffrey Hinton以及Yoshua Bengio一起
获得了2018年的计算机学界最高奖项图灵奖
他们三个人呢
被称为是深度学习三巨头
可以理解成
现在我们在人工智能上的巨大突破
跟他们的科学研究成果
跟他们的推动是有很大的关系的
Yann在2013年
他是成为了
Facebook人工智能研究院的第一任主任
当时Facebook是专门为了他
在纽约成立了一个研究院
现在呢他还是Meta AI的首席科学家
可不可以给我们不懂技术的朋友
稍微解释一下
Yann主要的科学研究成果
跟他为什么这么知名
Yann LeCun他相当于从80年代的时候
就开始研究神经网络
AI这个领域
它经过了很多次的高峰和低谷
高峰低谷也有不同的学派出现衰落
Yann的话
他从早年他就选定了这样的一个方向
他坚持深度学习网络
他相信这个一定能做成
不管他的高峰低谷
他走过黑暗的人
所以也就是说
他们经过了当年2,000年的时候
但因为有不同的学派起来
然后衰落
在2,000年的时候
曾经有一个非常有意思的一个小故事
他们发文章的时候
你会发现非常的困难
困难到什么程度呢
如果你的文章里边存在neuro这个词
就神经
或者说你存在network这个词之一的话
你的被拒稿的概率就很大了
但是如果你存在neural network的话
基本就一定会被拒稿
所以当时对于他们来讲
是一个至暗时刻
对吧
但是他们那个时候可能经费也受影响
但是他们能在这种黑暗当中
他们能坚持不放弃
最后能走出这个黑暗
一直坚持他们所相信的这条道路
到今天
神经深度网络也确实改变了世界
对吧
我觉得这个其实也是他们得图灵奖
对他们当年早期作为前期的先锋
的一种记忆吧
嗯对
我对你的个人经历也挺感兴趣的
就比如说我知道
其实你在博士后的时候
你是选了Yann LeCun的组
你当时是为什么会选他的组
这是一个比较有意思的奇遇
我当时其实挺迷茫的
我甚至没有想过那个学期去毕业
因为我当时觉得
我在博士的工作其实没有做好
当时我博士
当时的决心是说
我在博士期间
就要做出一个白盒的模型
而且要和AlexNet它的性能要可比
当时我觉得就差一点
我就想好
那我再拖一拖再毕业
但是呢我那年去开NeurIPS嘛
反正也在温哥华
然后同学们就说
你做博士后
反正也是做
做博士也是做
你也不用说
非得说博士把所有东西都做完
他们说嗯
你不如就这个学期毕业
我同学他们说的对吧
就是那年很有意思
很多事情都不是我自己决定的
我以前事情都是我自己决定
那一年我感觉我是在被推的
很多啊
基本上就是他们说什么哎
我想一想有也有道理
然后我就好
我就那时候决定毕业
然后决定毕业10天
基本就把毕业论文写完
当时我就想
那要毕业的话我要找博士后
那要找博士后的话我去找谁呢
我本来想的是给别人发邮件
同学他们说你都在NeurIPS在开会
大家都在这开会呢
你为什么不当面聊呢
我觉得很有道理啊
那对
然后我就当时去当面去聊
当时我想到的
其实第一个想到的人是Eero Simoncelli
如果你这么看的话
他有点像是一个东海岸的
我的导师这个风格
我们在西海岸嘛
Eero Simoncelli也是
计算神经科学领域的一个领军人物
他在东海岸那边
所以我第一开始想到的是他
但是他那一年呢
刚好他要去有个Simons foundation
就是James Simons开创了一个Simons foundation
是一个研究机构
他要去那个地方
去筹建
他们的一个计算神经科学的研究所
他就非常忙
然后我其实跟他聊也没有聊出来一个
说要约meeting
约一些会啊
然后我们也聊一聊
聊挺好但是也没有得到一个结论
对吧是不是要一起工作呀等等的
然后在会场上就碰到了Yann
那我当时想的话是说
大家肯定都想找Yann去做博后嘛
我不想是
我其实不是特别投机的一个人
所以当时碰到他的时候
我其实主要想的是聊一下
他对我工作的一些看法
以及对未来方向的上的一些
大家可以谈一谈这个观点嘛
比较有意思的时候
当时在会上聊
聊的又非常好
当时哎觉得非常的
至少我们相信的这种方向
以及我想的一些问题呢
他曾经也都想过
只不过是从neural network
就是从这种神经网络的这个角度来想
这些问题
以及最终追求的一些方向的话
我觉得也很切合
所以当时他就问我招postdoc
你有没有兴趣申请一下
那我说那我当然申请了
那所以就是当时就是这样一拍即合啊
有意思
所以我最后博士后也就只申请了他
Yann是一个什么样风格的导师
他是属于非常多的
给学生自由空间探索的
还是属于
他其实就是实地上来跟大家一起讨论
帮忙很多的
首先是后者的话
他现在这个情况下已经不可能了
他现在太忙了
我觉得这个事情比较多
指的他太忙了
是比如说Mata那边的事情很多
研究的事情也很多
嗯当你变得很有名的时候啊
你自然就变忙了
很多人都需要他的时间
从这个角度来讲
他能够分给每一个人的时间
也相对来讲就没有那么多
我觉得Yann呢
相对来讲呢
我认为是相当放羊的
他其实和我的博士的导师相似
就说在一些大面上是非常放羊的
但是
我认为他们有另外一点相似的事情
就是说对于他们所相信的事情呢
他们会有坚持
就是他可能会给你说往这个方向走
那么具体怎么走
你走哪条小路
你是乘船还是乘车
这都没有关系
但是这个大的方向
我认为他会有自己的一些品味吧
我会觉得
另一方面呢
我认为他对不同问题的直觉
还是非常不错的
其实他会给你指一个大方向
他不会去控制这些细节
然后我们会有一个比较大的一个愿景
或者说一个目标吧
mission在这个mission下面
那我们就会要坚持的沿这个方向走
嗯它的大方向是什么
其实很多年也没有变过
让他想什么实际上是非常透明的
因为他会出去给不同的地方给演讲
然后他讲的这些东西
基本上都是他坚持的这个大方向
在过去的这些年里面
我觉得他坚持的这个方向
一直是自监督学习
然后自监督学习的话
其实分两部分
一个部分是我做感知
感知上面的话我可以做自监督
但是更重要的一点的话是
当有具身的时候
我如何用具身的方式来做自监督
或者我们现在给它一个名字
叫做世界模型
world model
我认为这是他believe in的一个方向
这个名字呢
其实还是我安利给他
但是因为我当时读了David Ha
和Jurgen Schmidhuber的那篇文章
然后他们起了一个名字叫world model
然后我觉得这个名字挺酷的
虽然是一个传统的想法
就是以前也有这种model
predictive control啊
然后forward model啊
就是有各种各样的名字
对吧但是这个world model我感觉挺酷的
所以我们当时强烈的安利了一波
嗯你觉得样它的研究方向跟脉络
跟OpenAI的这一套
Anthropic的这一套会有什么不一样吗
如果说真要说什么不一样的话
我觉得Yann可能想要的是模型
它需要有几件事情
第一件事情
它要有具身的能力
我觉得他要是可以在这个世界里
不是只是堆数据
而是说这个模型
最终
他可能会可以自己去探索这个世界
这个有什么不一样呢
大家都希望最终达到这样的一个结果
但是你如果说看它的执行的方式的话
我觉得每一个地方它执行的时候
它的最坚持的
我其实觉得是
比如说在OpenAI
我认为它是scaling law
对对对
对吧就是我认为
这个其实是OpenAI一直做的比较
相对来讲是他们做的很对的一个东西
那我要更多的数据
更好的数据
然后更多的计算
更大的模型
更真正的模型
对吧
基本上坚持这个对于Yann来讲的话
它其实还是比较科学化的
他会说如果我们想真正通向
比较像人这种level的智能的话
那你到底需要什么
而不是说我就把数据给你堆上去
只是做这样的事情
那我可能会觉得只是堆数据是不够的
这是它的不同点
所以它其实也是相当于你说的
黑盒白盒
一起研究就是它
对对
对于Yann来讲的话
甚至我认为它没有那么在意这个
是否它发展成一门科学
目前我认为它的观点是
它还停留在经验性和工程上面
然后让这个系统可以工作的更好
我认为这个的话
在短期之内是会走的比较快的
对吧
也是他其实一直非常擅长的一个东西
因为当年其实在开会的时候
在会场上他就会带着他当年做的剪辑

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注