E161_聊聊大模型如何思考与深度学习科学家Yann LeCun(4)

神经网络去授给别人看
你看这个可以做数字的识别啊等等的
他其实很擅长这个工程的
这种让这个系统可以工作起来
嗯对
我好奇的是
在OpenAI证明了scaling law
可以达到很好的效果的时候
你觉得让他在科研方法跟他的思维上
他会有转变吗
还是他非常坚持的还是原路线
我其实觉得他并不反对scaling law

就更多的数据
更好的数据和更多的计算
我觉得大家在这件事上并没有冲突
但真正的可能分歧就是说
比如说在OpenAI
很多工作其实还是要以产品为导向的
对不对
一样的研究组来讲
我其实觉得OpenAI的很多东西
一个是工程上执行的极致
另外一方面也是产品上的一些突破
对 比如说对话的形式的最先的引入
对这个
还是需要一点商业上的天才
来做这样事情
然后我觉得对于yann自己的组呢
它其实更是一个科学形式的一个组
他想这些问题的时候
想的就是
里面不太涉及到产品的这些问题
他只想的只有一个问题
就是说我怎么能实现这样的智能对吧
那到底是需要什么
因为他在这个领域已经太久了
已经不像是我们
我们进入这个领域
其实也有一段时间了
对吧 但是他八几年的时候
就在这个领域在深耕了
所以他可能看这些问题的时候
他还是坚持自己的理想
说我怎么能获得更强的
像他看到的这种方式
来让这个智能的能力提升
嗯对
你刚刚一个说的是
Yann这个智能自主的学习
这是第一个观点
就是Yann他的一些大方向啊
其他的还有一些方向是什么
对还有一个方向的话
Yann一直相信的一个东西呢
我其实觉得这个是一个有意思的问题
这个问题就是说
他一直在谈的是JEPA
joint embedding Predictive Architecture
这个结构呢
它其实表示一个观点
就是说我当然要有具身能力对吧
我当然要有自主学习的能力
但是比这个更重要的一点呢
是说它其实不仅仅是一个压缩的一个问题
他是当你在学习数据的时候
你是希望把数据中的一些
比较高层次的一些规律
学习出来
那就是两派
一派是说那好
我学到的这些东西
我要能够对数据进行完全的重建
你可以认为是一个挺压缩的一个思路
但是Yann说的这个东西呢
他认为说他说数据中呢
所具有一些高层次的规律呢
你不希望它完全的
去回到这个图像当中
因为你如果要还能重建这个图像的话
你就带有了太多的细节
而这些细节
并不是对你的这个系统做判断的时候
最重要的一些信息
所以在这点上的话
我认为是他也一直在坚持的一个东西

这点他跟你伯克利的导师马毅
老师的观点是不一样的吗
我其实觉得我严格来讲啊
他们是很好的朋友
OK所以我其实觉得
这个观点上并没有本质的冲突
只不过是表述的方式
我自己看这个问题的话
比如马老师觉得
这个世界的规律是简洁的
让你觉得说这些细节
其实对你做下游的这个任务
或者做一些很多的判断是不利的
所以你要把那些高层次的规律找到
但如果你仔细想
这两个东西实际上是一样的
对吧因为高层次的规律它是简洁的
但只是说当我们想这个问题的时候
我们可以把这个
完全看成一个压缩问题
对吧
马老师经常说所有的东西都是压缩
如果你拿一样的这个观点来看的话
你会发现哎
没错所有的东西都是压缩
但是呢这个数据的
它的这种层次的结构有不同
对吧因为是现实世界是复杂的
那么现实世界
如果你深入到这些细节里边
你会发现有大量的东西
它其实是低层次的一些结构
不是说这些规律不存在
只是说这些规律呢
并不像我们人类
比如说咱们人类知识的高峰
就像万有引力
对吧
我们找到的这样万有引力的几个公式
可以基本上在我们可观测的范围内啊
都是对的
或者说
在我们常规的物理的可观测范围
都是对的
那这个可能只是很小的一段信息
但是如果我们去看外面的
这个森林的树叶的样子的话
那它这里边很多的结构是局部的
那这些局部的是什么意思呢
当我们在谈压缩的时候
数据中有结构
任何存在结构的东西
都是从噪声偏离的
一个反应
就说完全没有结构的东西就是噪声
任何离开噪声你就是有结构了
对吧然后我们要学习的本质
要学习这些结构
但结构有不同的层次
低层次的话
比如地毯它的样式
当你上升这个层次
在更大的一个尺度的时候
你会发现这个东西呢
这个结构其实已经不重要了
它甚至已经没有更高级的结构了
那它在那个层次来看的话
这些东西就已经变成相对来讲
像噪声一样的东西了
所以样的一个观点是说
我们需要有这样一个层次化的学习
能学习出来越来越高的几个结构
所以我如果我们做压缩的话
就对我们做出了一个挑战
我们要压缩式
没错我们要学习信号中所有的结构
不同层次的结构
但是最高级的结构呢
它往往对于压缩的整个的
所占的这个比啊
它不大
在优化的过程中可能会丢失对吧
就是因为你大量的东西
都是在低层次的
这些像噪声一样的东西
这个信息量是最大的
越往上走
越往上走
越往上走
就越难发现这样的结果
为什么呢
因为在你的优化的lost function
就是你的目标函数里面
你找到这个规律和找不到这个规律
可能对你的lost影响不大
我觉得主要就是这么几点吧
他一个是对这种世界模型
一个是对于这种层次化的表示
你觉得他们身上有哪些特质
是特别打动你的
我觉得他们身上特别打动我的特质呢
可能就是他们做事情的那种
专注和纯粹吧
对因为我跟Yann有一次吃午饭
然后我觉得我们聊一个事情
我觉得他说的一句话很有意思
他说
你们在年轻时候想要的所有的东西
我都有了
但是我已经没有太多时间了
所以他只能用自己剩下的时间
做自己真正相信的事情
啊我觉得
当你跟这样的一些科学家工作的时候
你可能会被他们身上的这种气质
所影响以至于你
即便你还没有达到
他们现在所在的这个地位
以及他们所拥有的这些东西之前
你也能以他们的视角来看待这个世界一点
所以你在做选择或做事情的时候
你可能会超出你现在
完全你所在的这个位置
可能会想一些哎
我如果我有一天也都像他一样
全都拥有了
以后我会做什么
对吧 那这样的话
你在选择一些研究的问题的时候
以及事业的这种方向的时候
你可能会被他们的这种气质
经过长时间的这种气质所影响
我觉得这个可能是
我觉得收获挺大的一个东西

所以他有改变你的哪些决定吗
有啊他会让我做很多的选择的时候
会想到这个事情
其实这点的话
我在读PhD的时候
就读博士的时候也会被我的导师影响
本身他们几个人都是朋友
对所以就是学术圈子很小
对学术圈子很小
那他们以前也是有合作
那么我读PhD的时候
第一天其实我的导师
他讲了两件事情
他说希望你不用发很多的文章
哎后来他不承认这件事情了
哈哈哈对对对
就是出不来结果
还是要说对
他后来我跟别人讲的时候他也在场
我说他说不需要我发很多的文章
他说他没说过这个
但是他有一个他承认他说过
他就说他希望你能发出来这种文章
能够穿越时间
就是说在20年以后
看到这篇文章依然不旧啊
我后来觉得这个很难
因为很多的工作
他带有鲜明的时代感
但是真正一些深邃的思想
他可能穿越了100年
穿越了几十年
他依然看起来还不是很老
那这样是高质量的工作
那你那个20年还不旧的工作
那至少是能推动人类往前前进20年的
一年补救就是推动人类前进一年
对这个是一个很高的目标
而且短期无法被验证
只有在你退休的时候
他可能才能被验证
当你快要退休的时候
我们才能重新审视这个人
但是他至少提出了一个灵魂的拷问
对吧就是你能否坚持去做一些
能够与时间共存的工作
我觉得这个要求很高
第二个是呢
他希望说
一个学者应该具有自己的一种态度
如果你觉得一件事情呢
是a可以做
b可以做
c可以做
你也可以做
你就不要做
就说当你做这件事情的时候
你会发现并不是这个工作需要你
而是你需要这个工作
这是一种投机的心态
就是我其实觉得他们身上有相似的
这种气质
就可能就是说他希望你做一点
不要随大流
能有自己的态度
寻找到自己的一些voice的一些东西
所以在你在选这些研究的方向的时候
你也会自己时不时的判断一下
我现在做的这个工作
到底是一个投机的
还是一个真正的中流砥柱的工作
对吧
有的时候你还是会做一些投机的工作
但是你自己心里要有一个判断
对我觉得这个就是独立思考
且坚持自己的热爱

而且就是说我觉得他们尤其是像Yann
他们比较伟大的一点
就是说
你可以穿越这种几乎是绝望的过程中
然后迎来曙光
因为我觉得没有经历过低谷的人
沉淀的可能还是不够
当你经过至暗时刻
你还能走出
在至暗时刻没有改变方向
走出来
当然你不是说不撞南墙不回头
就是完全错了
而是说你
你的眼光可以穿越短期的这个时间
你可能真正有一些坚持的东西
而且你是证明他是对的
我觉得这个是挺有意思的
一种气质

有哪些Yann在科学上的看法
是你不同意的吗
比如说Yann的观点
会有点挺鲜明的一些特点
他有的时候会铁口直断
比如说最近他有可能说
如果你是PhD的话
那你就不应该研究大语言模型
那他认为什么阶段应该研究啊

他就是说你如果作为一个研究者的话
你在读博士的话
就不应该研究这个东西
这他有很多种理解
从他字面上意思理解的话
你就会很多人就会不同意
就包括我可能会觉得哎
大语言模型
可能它里面有一些结构
是值得被理解的
去研究一下的
当然他可能他真正想说的
我有的时候听他的这个话
他背后想说的可能是
你不要去做就像刚才说的这种
a可以做
b可以做
c也可以做这种投机性的工作
而是说你真正有自己的一点坚持
找到一些比较原创性的贡献
如果是这样的说的话
我其实觉得我会更同意一些
但是我其实觉得
有的时候他表达的是这种意思
可是呢由于他是大v
如果说这个
所以认同他的理念
不认同他的表达话术
他有的时候这个话讲出来会吓你一跳
嗯 什么意思 对吧
很可爱很可爱
对我觉得这是他比较有意思的地方
但是他有话题性
这样的好处是说大家看完了这个以后
大家觉得哎
你就瞎说
然后然后我觉得挺好玩的啊
嗯对
因为你也在Meta工作过嘛
你觉得Yann对Meta最大的贡献
在哪几块

Yann对Meta最大的贡献
我觉得首先它应该算是帮助
筹建了Meta AI
当时他筹建Meta AI的时候
首先是Mark找到了他
第二个是说他自己也有一个理想
因为他早年是贝尔实验室的
他很向往
当年的贝尔实验室的那个状态
所以他其实想在Meta
在工业复制这样的一个

他秉承这样的一个理念做了Meta AI
也招了一批非常不错的人
结果呢
其实也是给这个领域做了很大的贡献
我认为
这个可能是他真正比较大的一个贡献
在Meta AI然后借助这样的一个平台呢
把这样的一个理念给贯彻出去
这也是他现在
推动整个领域发展的一个方式
如果你只是自己一个人研究的话
可能不如能搭一个摊子
然后让大家这些聪明的人一起
在这样的一个框架下一起推动
一起玩
嗯OK
对我觉得
开源
应该也算是他的很重要的一个贡献
比如说Meta Llama
之所以走了开源的路线
跟整个样的思想应该也是非常一致的

对这个说开元的话
我认为这是样所坚持的
至于将来在商业上
因为商业上他总是有一些竞争嘛
这条理想主义的道路到底还能走多远
我也不知道
将来Meta是不是会一直开源下去
就是所有的东西都开源
还是说因为毕竟Meta也会面临竞争
它作为一个公司来讲
它要发展的话
它会面临它那个层面的竞争
比如OpenAI啊
Google啊什么
这些公司的竞争
那在这样的一个竞争情况下
你是否还能以一个比较现实的方式
一直坚持这种开源的这种理念
我其实不知道
但是我觉得这是Yann的一个理念
最终能执行到多好
能走多远
其实也要看整个的这个群体community
它的发展吧
嗯那你觉得现在整个大模型的研究
它是一个必须是一个科学家驱动的吗
还是
它会慢慢变成一个工程驱动的事情
我觉得它已经变成一个工程驱动
早期是科学家驱动的
对就是当东西它不太work的时候
就是它还不太好用的时候
这个就它没有做出来的时候
它是科学家驱动的
对你需要有一些belief
就是说你要有一些坚持
但是在过去的这些年里面
我感觉这一两年里面
我觉得主要的这个进展
都来自于工程的执行
执行的极致程度对吧
数据的质量是不是变高了
数据是不是变多了
它的distribution是不是变丰富了
计算是不是能够并行
就一个一个的
这种工程的非常重要的细节导致的

就感觉现在大家都是在做优化
早期从0到1的时候
是科学家在带着大家
从无到有去创造这件事情
对他的发展吗
他前期是从0到1
他需要这种突破性
然后从1到100
他其实需要工程的严格性和执行能力
他也是不同人在不同阶段
他的角色的变化
反正要让他发展的话
可能需要不同角色的人一起来推动
那大家现在都在期待GPT5
你觉得如果GPT5就是
下一个这样
非常大规模的大模型出来了
它更多是一个科学问题
还是一个工程问题呢
我觉得工程上面可走的路是很远的
还是有相当的一段路可走的
甚至我们可以认为Scaling Law
他有相当的路可走
他完全没有到尽头
就是数据
还有很多数据
还有很多算力
还有很多算力可以扩展
那你的数据的质量
以前大家光说量
其实质也很重要
这些我觉得都能走相当的一段时间
但是我认为不够的
Scaling Law肯定不是it’s not enough
就我们这很多
现在大家喜欢说的是什么
is all you need
我觉得更好的一个方式
我们都觉得是什么东西is not enough
即便我们现在找到了最robust
最鲁棒的一条路
就像Scaling Law这样的东西
我认为it’s not enough
那么我们还需要什么呢
我其实觉得需要的就是类人的
这样的efficiency
就是这样的高效的效率
那这个效率如何实现这样的一个效率
那么有可能是数据出发
有可能是data追问的
对吧完全是数据驱动的
但也可能是还有其他的一些东西
所以我觉得

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注