还是说他一定需要其他感官作为支撑
你才有可能说来
最终理解那一部分的意思
就比如说举个例子
我说在语言里边
我可以说哎
冰箱这个东西呢
你如果不和现实的这种世界构成一个
这种冷热呀等等的
当然你可以通过冷热的这种方法
它有门的这个东西来描述这个冰箱
通过它这种统计特征
但也许这种描述永远是不完备的
但具体是不是完备的
我也不知道
我感觉是不完备
但是我也没有办法
去把它完全的用数学证明
所以说
其实现在整个大模型跟大脑相比
它还是欠缺非常非常多层的
但是因为我们可以看见的更多
可以把它拆开来研究
所以我综合你的观点
就你觉得
它还是会比揭开大脑的秘密的
这个野心
稍微更近一步的
嗯理解大语言模型
它的难度当然就在于你观测的手段多
你可能能对它理解的更加多一点
我的感觉是这样
对吧有两台机器
一台机器你完全可观测
一台机器部分可观测
那我从直觉上来讲
是一些完全可观测的
这台机器更容易被理解
当然他有一些能力是这台机没有
所以不能取代对人脑的一些理解
对我跟听众简单介绍一下
羽北之前是学neuroscience的
所以
也是懂非常多神经科学相关的知识
其实我挺好奇
就是你觉得之前你学的这个学科背景
包括我们对整个神经科学的研究
对现在你来做AI方向的研究
会有什么帮助吗
或者说会不会有一些跨学科
可以相互借鉴的研究方法在里面
对 我学过一些计算神经科学
但是我是个半吊子
我其实
一直也不是专业学计算神经科学的
我本科的时候在清华电子系
在伯克利的时候
其实也是电子工程计算机系
然后还有一些纯数学的一些背景
然后呢
我当时我所在的那个研究的研究所
他是一个理论神经科学的一个研究所
所以我导师自己是计算神经科学的专家
那么刚才的这个问题
说计算神经科学也好
神经科学也好
对于我们研究AI有什么不一样的帮助
我的感觉是说
对于我来讲的话
这种帮助呢
通常来讲是一种启发
因为当你知道自然界的这些系统
有的时候
你知道它可以做到什么的时候
或者是它面临的一些情况
是什么样的时候
你可能会有不一样的想法
会重新看待我们眼前的这个问题
我可以举几个例子
这几个例子很好玩
就是说我们现在习以为常的一张图片
这张图片的话
它是一个像二维的一个输入信号
它有很多的Pixel像素
这个像素呢
它会分有横向的
有纵向的
然后它形成一个网格
但如果我们看人眼的话
你看人眼的视网膜的话
它不是长这样的
首先
它的这种不同的感知的这种接受器
感受器是以非常密集
但又不是非常规则的方式排布的
而且它中间非常的细密
向两边的时候会变得稀疏
当时你面对这样的一个输入信号的时候
你会想首先一个问题
说我们习以为常的这些卷积
神经网络什么的
这些东西
所有的这些东西都失效了
因为连卷积在这里都没有定义
所以当你看到生物系统
它所面临的这样的一种情况的话
你会重新去想
我们所谓的这些卷积到底从何而来
所以你会重新去想
你的方法是不是对的
是不是一定要以这种方式来实现
对假设你第二天你醒来的时候
所有的神经元都打乱了
然后你还能再去理解这个世界吗
就是你因为你已经看到的
已经不再是一张图片了
你也不能再用卷积
神经网络来做这件事情了
那你怎么去理解这个世界呢
你需要什么样的方法
其实还是可以的
我们没有完全解决这个问题
但是我觉得做了一步
挺有意思的
这个是怎么做的呢
你就可以说哎
虽然我的所有的神经元都打乱了
就是我们的感受器
图像里面的这些像素打乱了
可是相邻的这些像素呢
它们有一些关系
比如说我们看图像里面的话
我会发现如果一个像素是红的
那周围的像素也更可能是红的
这是它们统计上的一些关系
那么通过这种关系呢
你就可以去让这些像素
他们重新去找朋友
然后你就可以把相似的这种像素呢
让自己自组织成一些关系这样东西
然后这个时候
你再加上我们的大语言模型的
这里面的这种Transformer啊
这样的结构
你就可以重新的
对这种图像做出一个表示
而且这个表示的最后
它的性能还不错
这个就是一个具体的一个例子
就是说完全是从一个自然的一个启发
那我们重新去审视
我们现在一些工程上的一些做法
然后提出来一些不同的方法
嗯对
感觉整个研究AI大模型
跟看人脑跟神经科学是怎么运作的
还是有很多相似之处的
我好奇会有神经科学家
从他们的这个角度来研究
跟你们产生这种跨领域的合作的吗
其实有很多的神经科学家
以及统计学家
然后数学家
他们想要理解自然信号中的一些结构
同时呢也会关注大脑中的神经元
他们是如何运作的
然后把这两者结合在一起
尝试去提出一些极简的
对于信号的一些表示
举个例子
就是说在大脑里面啊
你会发现有一个现象
就是说这个神经元虽然很多
但是同一时间在工作的这些神经元
就是兴奋的
这些神经元他其实是非常非常的稀疏
也就是说比如我给你100万个神经元
可能几千个他们在工作
那么这里面的问题是说
那他们到底学了一个什么东西
其实早年的时候
神经科学这边就提出来一个方法
就是我当时导师他们参与研究
这个工作
叫做稀疏编码
那么稀疏编码
当然它不仅仅是一个
神经学方面的一些看法
同时它在统计学家也在同期
在提相似的一些思路
也就是说在这种高位信号中
那么我们能不能找出一些稀疏的
低维的一些表示
从这样的思路出发呢
你就构建出来这个算法
他也会学出一个一个神经元的
他的表示
然后你会惊奇的发现
你学出来的这个表示呢
他和你在大脑里面观测到的
这些神经元的
这些表示呢
非常非常的相近
所以这个是当时计算
神经科学的一个早期的
算是无监督的一个成功吧
我觉得照今天来讲的话
我们的整个的这一支
我管它一个名字
叫做自然统计信号的研究
叫做natural signal statistics
它的目标就是
揭示信号背后的一些基本结构
它的发展其实相对来讲挺慢的
你会和这种大模型它的进展来看的话
你会发现大模型的进展非常非常快
但相比之下呢
这种白盒模型啊
这类的神经科学结合
它相对来讲走的慢一些
我其实觉得一方面呢
可能是因为问题复杂
但另一方面
也是因为投入这个方向的人比较少
简单来说
就是研究白盒模型的人太少了
但是像我们之前研究的
比如说传统的机器学习的这种算法
线性回归决策术等
我们都可以理解它是白盒模型
简单来说在大模型出现以前
我可不可以理解成整个
传统的机器学习
它可能就是属于白盒模型的范畴
我觉得这个说法可以认为是对的
就是说以前的这些机器学习的模型
相对简单
你都相对来讲可以理解
它们类似于现在我们看到的这些大模型
包括扩散模型
它们其实是可以算作
属于是黑盒模型的
为什么说现在整个的黑盒模型
看起来它在研究跟进展
甚至在表现跟大家的观感上
对
白盒模型实现了一个弯道超车
就为什么它会降维打击
对对对对对
为什么它的速度可以快这么多
这个问题你问出来
我们就先是紧张一下对吧
然后再回答
那么为什么紧张这个问题
就是因为它很尖锐
其实这个问题就是说
那是不是白盒模型
或者说可以理解的这条路径
我们应该放弃了呢
就说我们是不是在AI的研究上
从我们这个时代开始
我们已经不再研究科学了
就说它从以后
全都变成一个经验性学科呢
我觉得还不是
但如果你回到你刚才这个问题
说到底发生了什么
在这个过程中
为什么现在这种黑盒模型往前跑的快
而白盒模型跑的不够快
那我认为首先一点呢
就是说黑盒模型的包袱少
你既要这个方法可以工作
可以work
然后你同时又要这个方法可以解释
你有两条要求
啊那它放弃了一条哎
放弃了一条我可以让它工作
那这一条是一个非常非常重要的一条
第二一个我认为一个很大的一个
被大家所忽视
相对来讲
甚至
被很多科学家所忽视的一个东西呢
我认为是数据的幂式增长
或者说规模扩大
那么我认为这个在过去的十几年来讲
甚至有一个
我记得Richard Sutton写了一篇博客文章
它就讲叫做一个痛苦的教训
它里面提到了一个事情
就是说在过去的20年里面
有一个一直没有被打破的一个东西
就是说当我们有更多的数据
当我们有更多的计算
你总是应该找一些
比较能够真正扩张的算法
它能够把所有的数据的这种规律
找进来我认为这个是黑盒模型里边
或者说我们现在的经验性的这种进展
里边很大的一条
就是说我们有更大的数据
更好的数据
更多的计算
更大的模型
然后我就能学的更多
但是我们回到这个问题的话
你可以想白盒模型
你说这个里面大家有一个追求
是说我想要做出来这个模型呢
它要简洁性
然后他要这个模型本身要简洁
为什么白盒模型要简洁性
我是不是可以理解成如果他过于复杂
你们要在中间加的东西会更多
然后他就很难被设计
对我其实觉得做理论
你可以只有简洁的东西才可以被理解
对吧你肯定是要做一次一次的简化
但是呢如果你考虑到
这种scaling law这件事情的话
你会有一个问题
就是说
当我们在追求模型的简洁性的时候
可能会做了一次又一次的
在英文里面叫做oversimplification
过度简化
就是一旦你出现这种过度简化的话
你的模型就无法完全的
刻画数据的形态
那么数据更多的时候
你的模型就更无法刻画它的形态
那你就会出现
将来这个模型就走不下去了
它的能力会被限制住
所以我认为
这是以前大家在研究白盒模型
在研究简单模型
相对来讲面临的一个困难
我不仅仅要带着那个包袱
我这个模型需要工作
同时我还需要它可解释
同时我还需要它简洁
当你把所有这些东西带上
你会发现这个包袱太重
有点走不动
然后你会引入错误
对吧当你做过度简化的时候
你就引入了错误
错误会积累
再后来就走不动了
嗯但是现在黑盒模型发展的很快了
然后我们又开始尝试去解决它
对这次如果我们在解决它的时候
你可能就会重新来审视这个问题
就说我们不一定需要让这个模型
完全的简化
到那个程度
它还是能够表示这个世界
比较复杂的一面
但是你还是要知道
我们的包袱还是很重要
希望它工作
同时希望它还是比较可以理解的
那么还是希望它有相对来讲简化
所以我认为
如果有一天
我们可以做到白盒模型的话
那么在此之前呢
我认为每一次的尝试
都是一次过度的简化
但是我们希望每一次简化呢
每走一步都往前走
我们甚至不需要
完全做出一个白盒模型
也许我们可以做出一个白盒的
但是没有大模型那么强的模型
但是也很强
做到一个相对来讲不错的模型
但同时它又相对来讲
非常简洁
非常简化
同时还要保证功能
对
部分功能
部分功能
部分功能
那它对于我们理解学习背后的本质
是有帮助的
同时这种理解可能能反过来
又让我们对大模型的训练什么的
它的效率又会上去
因为我们要回到这个效率这个问题
这个也是我跟Yann之前讨论过几次的事情
就说如果我们发展这个背后的理论
最后我们就可能可以
让我们的工程的这种实践呢
它以数量级的方式效率上升
嗯所以Yann LeCun他的观点是什么
他是更希望发展白盒模型
还是黑盒模型
如果是在我看来的话
我跟Yann聊过这个事情
我认为Yann他是一个科学家
但同时呢
他是一个以工程方面
所著成的一个科学家
所以他的很多的尝试呢
还是要走第一步
要让这个东西工作起来
但是作为白盒模型的话
我认为这件事情是一样支持
但是他也不知道能不能走通的一个方向
比如说我跟他讨论完
他会觉得这条路值得探索
但是是否能实现呢
他也不知道
就一个过于有野心的目标
呃总要有人做的吧
是的是的是的
而且感觉白盒模型
就像你说的黑盒模型
它是一个类似于工程问题
白盒模型
它是一个科学
你必须用科学解释它
感觉它对商业化或者应用它
在你真正能出成果以前
它看起来投入产出比不是那么高
但是呢
如果你最终能做出来这个东西
我觉得对AI的安全性
包括我们说最终对应到它的商业化
还是很有价值的
对商业化这件事情
其实我认为所有做基础AI研究的人
首先他工作的初衷
不是以任何的应用为初衷
它是一个对于智能这个问题
一个比较纯粹的一个好奇心来驱动的
紧接着你可能会发现
它有一些应用在这个之上
比如说这中间的一些过程
你所发现的一些规律
它反过来可能能帮到你在工程的实践
但你由于这个研究本身
它并不是为某一种应用所设计的
所以它并不是一个那种直接的关系
举一个例子
那你正常来讲做无监督学习的话
你可能会需要训练很多个
就是他训练一遍
一遍一遍
那我们现在就可以问
一个比较疯狂的问题
就说我们能不能所有的数据只看一遍
能学多少是多少
那么这个时候你会怎么办
如果你这时候不知道学习的背后的
他的一些基本的一个原理的话
那你可能就不容易
达到一个比较高的效率
我们当时也做过一些这样的尝试
你会发现
其实当你知道背后他在学什么的时候
你是有可能数据只看一遍
然后也学的非常好的
虽然他没有完全把这个区别消除
但是他其实可以比你正常
不了解这个原理的话
他的效率高了很多很多
他的区别是很大的
还有一点的话
我认为说
当我们在追求这种白盒模型
这个过程中
还是极致的这种效率的过程中的话
你会回来追问这个问题
就是说我们现在做的这个大语言模型
是不是只通过这种规模化或者scaling law
这一条路走下去就可以了
我认为其实还是不是的
因为人
他其实做不到接受这么大量的数据
那如何用少量的数据
还能获得比较高的泛化能力
这个也是我们在研究的
一个重要的问题
我觉得这个也是黑盒模型的学者
在研究的一个事情
对
大家都在研究
是 那现在白盒模型
它有哪些学者跟流派
在研究这个事情呢
白盒模型的话
我其实觉得就是看AI的三股力量
第一股力量的话
发表回复