神经网络去授给别人看
你看这个可以做数字的识别啊等等的
他其实很擅长这个工程的
这种让这个系统可以工作起来
嗯对
我好奇的是
在OpenAI证明了scaling law
可以达到很好的效果的时候
你觉得让他在科研方法跟他的思维上
他会有转变吗
还是他非常坚持的还是原路线
我其实觉得他并不反对scaling law
对
就更多的数据
更好的数据和更多的计算
我觉得大家在这件事上并没有冲突
但真正的可能分歧就是说
比如说在OpenAI
很多工作其实还是要以产品为导向的
对不对
一样的研究组来讲
我其实觉得OpenAI的很多东西
一个是工程上执行的极致
另外一方面也是产品上的一些突破
对 比如说对话的形式的最先的引入
对这个
还是需要一点商业上的天才
来做这样事情
然后我觉得对于yann自己的组呢
它其实更是一个科学形式的一个组
他想这些问题的时候
想的就是
里面不太涉及到产品的这些问题
他只想的只有一个问题
就是说我怎么能实现这样的智能对吧
那到底是需要什么
因为他在这个领域已经太久了
已经不像是我们
我们进入这个领域
其实也有一段时间了
对吧 但是他八几年的时候
就在这个领域在深耕了
所以他可能看这些问题的时候
他还是坚持自己的理想
说我怎么能获得更强的
像他看到的这种方式
来让这个智能的能力提升
嗯对
你刚刚一个说的是
Yann这个智能自主的学习
这是第一个观点
就是Yann他的一些大方向啊
其他的还有一些方向是什么
对还有一个方向的话
Yann一直相信的一个东西呢
我其实觉得这个是一个有意思的问题
这个问题就是说
他一直在谈的是JEPA
joint embedding Predictive Architecture
这个结构呢
它其实表示一个观点
就是说我当然要有具身能力对吧
我当然要有自主学习的能力
但是比这个更重要的一点呢
是说它其实不仅仅是一个压缩的一个问题
他是当你在学习数据的时候
你是希望把数据中的一些
比较高层次的一些规律
学习出来
那就是两派
一派是说那好
我学到的这些东西
我要能够对数据进行完全的重建
你可以认为是一个挺压缩的一个思路
但是Yann说的这个东西呢
他认为说他说数据中呢
所具有一些高层次的规律呢
你不希望它完全的
去回到这个图像当中
因为你如果要还能重建这个图像的话
你就带有了太多的细节
而这些细节
并不是对你的这个系统做判断的时候
最重要的一些信息
所以在这点上的话
我认为是他也一直在坚持的一个东西
嗯
这点他跟你伯克利的导师马毅
老师的观点是不一样的吗
我其实觉得我严格来讲啊
他们是很好的朋友
OK所以我其实觉得
这个观点上并没有本质的冲突
只不过是表述的方式
我自己看这个问题的话
比如马老师觉得
这个世界的规律是简洁的
让你觉得说这些细节
其实对你做下游的这个任务
或者做一些很多的判断是不利的
所以你要把那些高层次的规律找到
但如果你仔细想
这两个东西实际上是一样的
对吧因为高层次的规律它是简洁的
但只是说当我们想这个问题的时候
我们可以把这个
完全看成一个压缩问题
对吧
马老师经常说所有的东西都是压缩
如果你拿一样的这个观点来看的话
你会发现哎
没错所有的东西都是压缩
但是呢这个数据的
它的这种层次的结构有不同
对吧因为是现实世界是复杂的
那么现实世界
如果你深入到这些细节里边
你会发现有大量的东西
它其实是低层次的一些结构
不是说这些规律不存在
只是说这些规律呢
并不像我们人类
比如说咱们人类知识的高峰
就像万有引力
对吧
我们找到的这样万有引力的几个公式
可以基本上在我们可观测的范围内啊
都是对的
或者说
在我们常规的物理的可观测范围
都是对的
那这个可能只是很小的一段信息
但是如果我们去看外面的
这个森林的树叶的样子的话
那它这里边很多的结构是局部的
那这些局部的是什么意思呢
当我们在谈压缩的时候
数据中有结构
任何存在结构的东西
都是从噪声偏离的
一个反应
就说完全没有结构的东西就是噪声
任何离开噪声你就是有结构了
对吧然后我们要学习的本质
要学习这些结构
但结构有不同的层次
低层次的话
比如地毯它的样式
当你上升这个层次
在更大的一个尺度的时候
你会发现这个东西呢
这个结构其实已经不重要了
它甚至已经没有更高级的结构了
那它在那个层次来看的话
这些东西就已经变成相对来讲
像噪声一样的东西了
所以样的一个观点是说
我们需要有这样一个层次化的学习
能学习出来越来越高的几个结构
所以我如果我们做压缩的话
就对我们做出了一个挑战
我们要压缩式
没错我们要学习信号中所有的结构
不同层次的结构
但是最高级的结构呢
它往往对于压缩的整个的
所占的这个比啊
它不大
在优化的过程中可能会丢失对吧
就是因为你大量的东西
都是在低层次的
这些像噪声一样的东西
这个信息量是最大的
越往上走
越往上走
越往上走
就越难发现这样的结果
为什么呢
因为在你的优化的lost function
就是你的目标函数里面
你找到这个规律和找不到这个规律
可能对你的lost影响不大
我觉得主要就是这么几点吧
他一个是对这种世界模型
一个是对于这种层次化的表示
你觉得他们身上有哪些特质
是特别打动你的
我觉得他们身上特别打动我的特质呢
可能就是他们做事情的那种
专注和纯粹吧
对因为我跟Yann有一次吃午饭
然后我觉得我们聊一个事情
我觉得他说的一句话很有意思
他说
你们在年轻时候想要的所有的东西
我都有了
但是我已经没有太多时间了
所以他只能用自己剩下的时间
做自己真正相信的事情
啊我觉得
当你跟这样的一些科学家工作的时候
你可能会被他们身上的这种气质
所影响以至于你
即便你还没有达到
他们现在所在的这个地位
以及他们所拥有的这些东西之前
你也能以他们的视角来看待这个世界一点
所以你在做选择或做事情的时候
你可能会超出你现在
完全你所在的这个位置
可能会想一些哎
我如果我有一天也都像他一样
全都拥有了
以后我会做什么
对吧 那这样的话
你在选择一些研究的问题的时候
以及事业的这种方向的时候
你可能会被他们的这种气质
经过长时间的这种气质所影响
我觉得这个可能是
我觉得收获挺大的一个东西
嗯
所以他有改变你的哪些决定吗
有啊他会让我做很多的选择的时候
会想到这个事情
其实这点的话
我在读PhD的时候
就读博士的时候也会被我的导师影响
本身他们几个人都是朋友
对所以就是学术圈子很小
对学术圈子很小
那他们以前也是有合作
那么我读PhD的时候
第一天其实我的导师
他讲了两件事情
他说希望你不用发很多的文章
哎后来他不承认这件事情了
哈哈哈对对对
就是出不来结果
还是要说对
他后来我跟别人讲的时候他也在场
我说他说不需要我发很多的文章
他说他没说过这个
但是他有一个他承认他说过
他就说他希望你能发出来这种文章
能够穿越时间
就是说在20年以后
看到这篇文章依然不旧啊
我后来觉得这个很难
因为很多的工作
他带有鲜明的时代感
但是真正一些深邃的思想
他可能穿越了100年
穿越了几十年
他依然看起来还不是很老
那这样是高质量的工作
那你那个20年还不旧的工作
那至少是能推动人类往前前进20年的
一年补救就是推动人类前进一年
对这个是一个很高的目标
而且短期无法被验证
只有在你退休的时候
他可能才能被验证
当你快要退休的时候
我们才能重新审视这个人
但是他至少提出了一个灵魂的拷问
对吧就是你能否坚持去做一些
能够与时间共存的工作
我觉得这个要求很高
第二个是呢
他希望说
一个学者应该具有自己的一种态度
如果你觉得一件事情呢
是a可以做
b可以做
c可以做
你也可以做
你就不要做
就说当你做这件事情的时候
你会发现并不是这个工作需要你
而是你需要这个工作
这是一种投机的心态
就是我其实觉得他们身上有相似的
这种气质
就可能就是说他希望你做一点
不要随大流
能有自己的态度
寻找到自己的一些voice的一些东西
所以在你在选这些研究的方向的时候
你也会自己时不时的判断一下
我现在做的这个工作
到底是一个投机的
还是一个真正的中流砥柱的工作
对吧
有的时候你还是会做一些投机的工作
但是你自己心里要有一个判断
对我觉得这个就是独立思考
且坚持自己的热爱
对
而且就是说我觉得他们尤其是像Yann
他们比较伟大的一点
就是说
你可以穿越这种几乎是绝望的过程中
然后迎来曙光
因为我觉得没有经历过低谷的人
沉淀的可能还是不够
当你经过至暗时刻
你还能走出
在至暗时刻没有改变方向
走出来
当然你不是说不撞南墙不回头
就是完全错了
而是说你
你的眼光可以穿越短期的这个时间
你可能真正有一些坚持的东西
而且你是证明他是对的
我觉得这个是挺有意思的
一种气质
嗯
有哪些Yann在科学上的看法
是你不同意的吗
比如说Yann的观点
会有点挺鲜明的一些特点
他有的时候会铁口直断
比如说最近他有可能说
如果你是PhD的话
那你就不应该研究大语言模型
那他认为什么阶段应该研究啊
不
他就是说你如果作为一个研究者的话
你在读博士的话
就不应该研究这个东西
这他有很多种理解
从他字面上意思理解的话
你就会很多人就会不同意
就包括我可能会觉得哎
大语言模型
可能它里面有一些结构
是值得被理解的
去研究一下的
当然他可能他真正想说的
我有的时候听他的这个话
他背后想说的可能是
你不要去做就像刚才说的这种
a可以做
b可以做
c也可以做这种投机性的工作
而是说你真正有自己的一点坚持
找到一些比较原创性的贡献
如果是这样的说的话
我其实觉得我会更同意一些
但是我其实觉得
有的时候他表达的是这种意思
可是呢由于他是大v
如果说这个
所以认同他的理念
不认同他的表达话术
他有的时候这个话讲出来会吓你一跳
嗯 什么意思 对吧
很可爱很可爱
对我觉得这是他比较有意思的地方
但是他有话题性
这样的好处是说大家看完了这个以后
大家觉得哎
你就瞎说
然后然后我觉得挺好玩的啊
嗯对
因为你也在Meta工作过嘛
你觉得Yann对Meta最大的贡献
在哪几块
哦
Yann对Meta最大的贡献
我觉得首先它应该算是帮助
筹建了Meta AI
当时他筹建Meta AI的时候
首先是Mark找到了他
第二个是说他自己也有一个理想
因为他早年是贝尔实验室的
他很向往
当年的贝尔实验室的那个状态
所以他其实想在Meta
在工业复制这样的一个
对
他秉承这样的一个理念做了Meta AI
也招了一批非常不错的人
结果呢
其实也是给这个领域做了很大的贡献
我认为
这个可能是他真正比较大的一个贡献
在Meta AI然后借助这样的一个平台呢
把这样的一个理念给贯彻出去
这也是他现在
推动整个领域发展的一个方式
如果你只是自己一个人研究的话
可能不如能搭一个摊子
然后让大家这些聪明的人一起
在这样的一个框架下一起推动
一起玩
嗯OK
对我觉得
开源
应该也算是他的很重要的一个贡献
比如说Meta Llama
之所以走了开源的路线
跟整个样的思想应该也是非常一致的
对
对这个说开元的话
我认为这是样所坚持的
至于将来在商业上
因为商业上他总是有一些竞争嘛
这条理想主义的道路到底还能走多远
我也不知道
将来Meta是不是会一直开源下去
就是所有的东西都开源
还是说因为毕竟Meta也会面临竞争
它作为一个公司来讲
它要发展的话
它会面临它那个层面的竞争
比如OpenAI啊
Google啊什么
这些公司的竞争
那在这样的一个竞争情况下
你是否还能以一个比较现实的方式
一直坚持这种开源的这种理念
我其实不知道
但是我觉得这是Yann的一个理念
最终能执行到多好
能走多远
其实也要看整个的这个群体community
它的发展吧
嗯那你觉得现在整个大模型的研究
它是一个必须是一个科学家驱动的吗
还是
它会慢慢变成一个工程驱动的事情
我觉得它已经变成一个工程驱动
早期是科学家驱动的
对就是当东西它不太work的时候
就是它还不太好用的时候
这个就它没有做出来的时候
它是科学家驱动的
对你需要有一些belief
就是说你要有一些坚持
但是在过去的这些年里面
我感觉这一两年里面
我觉得主要的这个进展
都来自于工程的执行
执行的极致程度对吧
数据的质量是不是变高了
数据是不是变多了
它的distribution是不是变丰富了
计算是不是能够并行
就一个一个的
这种工程的非常重要的细节导致的
嗯
就感觉现在大家都是在做优化
早期从0到1的时候
是科学家在带着大家
从无到有去创造这件事情
对他的发展吗
他前期是从0到1
他需要这种突破性
然后从1到100
他其实需要工程的严格性和执行能力
他也是不同人在不同阶段
他的角色的变化
反正要让他发展的话
可能需要不同角色的人一起来推动
那大家现在都在期待GPT5
你觉得如果GPT5就是
下一个这样
非常大规模的大模型出来了
它更多是一个科学问题
还是一个工程问题呢
我觉得工程上面可走的路是很远的
还是有相当的一段路可走的
甚至我们可以认为Scaling Law
他有相当的路可走
他完全没有到尽头
就是数据
还有很多数据
还有很多算力
还有很多算力可以扩展
那你的数据的质量
以前大家光说量
其实质也很重要
这些我觉得都能走相当的一段时间
但是我认为不够的
Scaling Law肯定不是it’s not enough
就我们这很多
现在大家喜欢说的是什么
is all you need
我觉得更好的一个方式
我们都觉得是什么东西is not enough
即便我们现在找到了最robust
最鲁棒的一条路
就像Scaling Law这样的东西
我认为it’s not enough
那么我们还需要什么呢
我其实觉得需要的就是类人的
这样的efficiency
就是这样的高效的效率
那这个效率如何实现这样的一个效率
那么有可能是数据出发
有可能是data追问的
对吧完全是数据驱动的
但也可能是还有其他的一些东西
所以我觉得
发表回复