分类: Uncategorized

  • E162_清华姚班如何培养天才_给最有挑战性的问题和足够的自由度(4)

    就比如说人类的智慧
    其实就是语言对吧
    你可以现在这么说
    哈哈哈
    你要是OpenAI早就知道这件事情的话
    嗯对
    但是在迷雾里面再往前走

    我其实注意到你的整个经历啊
    不管是在姚班
    然后在微软研究院的实习
    Mata的实习
    包括你还去过头条
    然后后来的OpenAI的工作经历
    跟现在做清华叉院的助理教授的经历
    我觉得你一直是在整个领域里面
    跟最顶级的人才一起合作的
    如果让你总结的话
    就是你觉得非常顶级的人才
    他们有一些什么样的特质呢
    我知道这个问题也非常非常的大
    或者说就是
    你非常容易
    被一些什么样的特质所打动跟吸引
    我觉得说一些共性吧
    因为我觉得不同人的风格
    其实差别挺大的
    这些聪明的学生
    首先我觉得一个共性是
    大家都会有很强的自驱力
    因为这个世界就是这样
    所有的所谓的成功也好
    或者说你取得了一些成绩也好
    其实就是在你到了大学之后
    就没有人再会逼着你做什么事了
    大部分的事情是你自己想去折腾
    这个是个底线
    你在到了社会上更明显
    那学校里面还好一些
    你还有成绩啊
    甚至你在学术圈里面都还好一点
    大家就是每年都会有paper啊
    做research还比较regular
    比较routine
    但你到社会上的话
    没有人会教你啊
    所以最后所有的事情
    是你自己想做一件事情
    所以最后我会觉得
    所有这些人都会有比较强的自驱力
    他知道自己想做什么
    所以我会给大家的建议
    还是看看自己想做什么
    找一个自己适合的事情
    并且你会愿意为他花很多时间的事情
    嗯这是我的感觉
    而且一般来说
    你会发现你觉得最钦佩的这些人
    他们都会对很多事有自己的看法
    自己的看法和理解是他自己想出来的
    那他追根到底是因为他自己愿意去想
    有哪些是大家普遍认为都对
    但是你有自己看法的事情
    这可能是一个投资人
    特别喜欢问的问题
    就是我会觉得我自己看问题
    我回顾我过去12年
    因为我就后来
    因为最近我们看了一些报道
    我就特别想起很多人
    想起我可能12年前
    在硅谷遇到的一些事情
    然后就会想
    最近12年
    我自己的很多观点会发生变化的
    就随着你自己的认识
    会发生很多的变化
    我其实觉得不在乎对不对
    关键是你自己也一定要有
    不断的有自己的想法
    并且会自己调整自己的想法
    因为你就是会想的不对嘛
    我20岁的时候为
    凭什么能够看明白这个世界
    为什么能看明白
    Facebook未来会成为一家很伟大的公司
    凭什么我能看出来就不对了
    哈哈哈都是事后总结
    这一定是你没有经历过
    没有踩过坑
    你凭什么会知道一个非共识的事情呢
    只是我现在来看
    会有一个小的经验
    就是如果在一个时间点
    所有人都觉得你是对的
    那你可能再想想
    哈哈哈哈对
    就是一旦有个时间
    你会觉得你说的所有话
    别人都觉得好对啊
    一般都
    你再想想就是
    尤其你还不是亲历者
    你就再想想
    对对
    因为人是很容易在一个舒适圈里面的
    就是你觉得自己说的很对
    然后你朋友觉得你很对
    这些人觉得你很对
    你会觉得自己是对的
    但往往其实世界上没有绝对的东西
    都会有一些你没有看到的面
    但是
    由于你碰到的所有人都觉得你说的对
    你可能就没有这个动力
    再去寻找
    到底他哪里是不是不对劲的地方
    这是我的建议
    就是第一件事就是
    正面说就是永远不要too confident
    一般都有点问题
    第二件事情是
    也不要太焦虑
    因为反正你想的所有东西
    都是有问题的哈哈
    哈哈哈好
    这两句总结很经典
    对然后这第二件事情也是嘛
    就是一般这些比较有自取力的人
    还比较能折腾的人
    一般心态都比较好
    因为折腾等于受挫
    折腾等于失败
    因为你不折腾不会失败
    就永远不会失败
    对吧你只要做了
    就有可能会失败
    就会踩坑
    就会遇到一些不顺心的事情
    那一个人能一直折腾下来
    一般都心态好一点
    都比较好
    哈哈哈他要么自己特别自洽
    有可能比较淡然
    都有可能
    但一般心态比较好
    所以我就说这是两面的
    一个
    就是能折腾的时候多折腾一点
    其实人是怕的
    待在自己的舒适圈里面待太久了
    你可能会丧失你的一些敏锐的感觉
    就像我说的
    很多人说你对的时候你可能有问题
    第二件事情就是心态好一点
    因为如果你要折腾的话
    那你要折腾好久了啊
    如果你天天心态不好
    那就可能就熬到那个时候
    对所以很多时候
    考验的最后是大家的心力值

    确实是这样
    我得说的回到姚班这个事情啊
    确实会给人挺多打击的
    就印象特深刻
    我那时候大一刚进学校的时候嘛
    我那时候还是搞竞赛
    我自己心里觉得
    我这个人应该挺厉害的
    去学校之后
    我们当时做一门课的作业
    记入门的作业
    当时是一个美国来的老师
    给我们的作业
    做的巨难无比
    我也其他有些课会比较划水嘛
    我就在宿舍里天天就盯着题做
    我就做一天做两天
    还不会做
    然后我就怎么办
    我就上楼那时候脸皮比较厚
    我就上楼敲我一个同学的门
    他说他在打游戏
    就叫他
    我说你作业做了吗
    他说没做
    说你要不帮我看看这题怎么做
    他人还很好
    就他在那打CS
    然后他还真能暂停
    我也不知道他是队友怎么容忍他的
    然后就说还好的我来帮你看看
    然后他就你知道我做了两天的作业
    他就说好的我帮你看看
    然后就开始拿着这笔在那写
    写吧写吧
    就写完了
    他说来这样拿走
    然后我就
    哈哈瞬间感受到了智商被碾压
    对对对
    真是好离谱
    这好离谱
    对就是这冲击是很大的
    你会觉得自己怎么
    我就说人和人的智商
    真的就是跟动物差距还要大
    就这种感觉

    其实很多小孩进姚班的时候
    会有这样的挫败感
    所以我们也是
    很多时候会希望能帮大家调整过来
    因为这个路很长嘛
    对吧
    就是你回头看这些我们混的还不错的
    其实都挺缺的
    啊哈哈对对
    对吧
    然后我有一个现在五个同学的CMU
    当faculty后来他去了那个沙特当faculty
    跳槽了
    他就天天在宿舍里用触摸板打dota
    哎对对对
    就很多这种
    就是大家没有特别焦虑
    然后我们的时候还天天踢球啊什么的
    就是大家关系都挺好的
    反而天天焦虑的人
    一般坚持不到10年之后

    说的特别好
    由此我又衍生出来一个新问题啊
    其实我注意到很多学校
    他在培养人的时候
    他在学术上是有一套培养方法的
    就是你刚刚讲的很多事情
    其实尤其是你步入社会之后
    很多时候是心态
    你觉得清华窑班
    会注重对大家心态的培养吗
    有这几方面
    一个是姚先生自己的个人魅力
    他确实会给我们很多high level的
    比较大师的一些指导
    这些话呢
    我觉得
    反正年轻的小孩肯定都听不懂啊
    这肯定的很正常
    因为我自己经历过这10年嘛
    我就知道那个话
    反正我现在看就会觉得
    哎呀老板说的好对
    但我放在10年前我不可能听懂的
    甚至可能现在也没有完全听懂
    也有可能
    所以肯定是姚先生自己的个人魅力
    能给大家带来一些启发
    但我觉得更多的事情
    还是学生自己相互之间的啊
    我觉得总体来说
    姚班大家这个相互互相帮助的气氛
    还是不错的
    尤其在比如说像我们班
    或者像我们13级的那一届
    比如说这一届刚毕业的零字班
    其实都是整个班级氛围非常非常好的
    好的班级大家会相互帮助
    真的会不是大家独立作战的就是大家
    我记得13级毕业的时候
    特有经典的一个事
    他们当时毕业的时候也要先送个礼物
    是他们班里面发的论文
    当时发了40多篇论文
    那个班里面
    然后好像大家他们画了下
    他们那个CO also的图
    就是他们
    好像班级里面
    两两之间都会合作过论文
    关系会非常非常好啊
    但不是每一届学生都这样了
    就是
    我只能说姚班有这样的一些传承
    但是呢很多引导其实是潜移默化的
    他也不是刻意的
    像我们班这种关系特别好的
    或者13级关系特别好的
    可能也不是每一集都这样
    这种化学反应的事情也不可控
    尤其现在姚班有七八十个人了之后
    其实不可控的因素会变得更大
    那只能说
    可能这就是我们这
    代人想做的事情
    我们就希望能让这些学生心态好一点
    能够让他们更平和的去做
    他们想做的事情
    那可能是就我们这一代人的
    回到学校之后的命题吧
    所以每代人确实命题不一样
    对特别好
    特别好你要不要简单介绍一下
    你现在自己的公司
    边塞科技
    是做什么的
    对这是我们2023年的时候
    从上海
    就是姚先生在上海成立了一个研究院
    叫上海骑士研究院
    我们院的很多教授
    会在上海骑士研究院有自己的项目
    然后有自己的团队
    研究院是一个NGO嘛
    他会有一种更灵活的方式
    开展科研项目
    所以我们在上海就有一个自己的团队
    然后我们做强化学习
    大规模训练的一些方向在2023年
    去年的时候呢
    我们就因为整个大模型的浪潮吧
    然后我们就孵化出来整个团队
    从器质研究院孵化出来
    成立一家公司的变色科技
    然后在上海主要是做大模型agent
    最早的时候做的一些电子表格助手
    然后做过一些财会的助手
    做过一些简历啊招聘的助手
    很多这样的AI agent
    这也是用AI来做一些自动化
    和决策的相关的事情嘛
    也跟我们自己做的研究
    一直都比较相符
    所以是这么一家
    以强化学习和大模型技术为核心
    然后做大模型智能体的这么一家公司
    然后也是一个小团队吧
    有没有什么我没有问到
    但是你想补充的点
    在早期的窑班招生
    其实是以数学竞赛为主
    因为窑班最早的时候
    是以理论计算机科学为主
    嘛所以他的很多选拔和招生
    是比较偏向物理和数学的
    所以我那一届计算机竞赛进入窑班呢
    其实只有4个人
    我们班30个人嘛
    就只有4个人是计算机竞赛进校班的
    然后因为我跟我室友是国家队嘛
    然后任吴家俊是考进来的
    还有另外一个同学
    也是最后面试进来的
    很长一段时间都是以数学为主
    因为总体的培养比较偏理论
    大家觉得数学基础比较重要
    然后慢慢慢慢开始
    就随着人数比较多了
    之后对我们现在七八十个人的话
    基本上就招生命会比较广
    30个人的时候其实竞争还挺激烈的
    所以那时候我也是
    因为我最后确实进了国家队
    我在进入国家队之前
    我都不知道我能不能进小班
    但是你开始的时候是很想去的
    是不是就已经有一个目标了
    确实大家都想去
    但是你你就很担心
    最后你别真给我考数学
    然后没考进
    但是我后来发现
    这帮小孩也都很聪明
    他们一般保送了之后
    就在家刷半年数学物理
    然后考试都考得很好
    也能气能进也能进

    因为我现在我带的这个班里的学生
    我就说你们当时怎么搞
    他说就知道考物理和数学
    我们在家就专门学了
    学了半年哈哈

    最后还有一个问题
    你觉得好的人才他是筛选出来的
    还是培养出来的
    当然我知道这两者都很重要
    但是我更想知道
    是这些人他本来就很聪明
    还是说他可以以一种好的方式
    把他培养的更好
    我有一本书啊
    叫做the greatest can not be planned
    就是讲伟大的事情是不可能被计划的
    所以我想说它确实是被培养出来的
    但它不是被计划出来的
    首先它需要选拔
    因为我觉得
    精英教育和普世教育是不太一样的
    因为精英教育其实是蛮残酷的
    精英教育我自己
    会有这样的感觉吗
    比如说本来我们是在高中的时候
    我们做搞竞赛
    然后你在全国搞竞赛
    然后你到了摇摆
    然后再到Berkeley
    你每一次的这样的选拔和竞争
    都是非常非常残酷的
    所以选拔是不可避免的
    因为
    你如果希望最后培养的是最顶尖的人
    他就是在竞争中产生的
    其实企业也是
    然后研究也是
    人也是所以选拔是不可避免的
    培养
    要不要培养是需要的
    比如说你需要给这些人足够的空间
    然后呢
    你也需要给他们足够的适度的压力
    不能没有压力
    还要给他们
    让他们天上看
    这个是培养的一部分
    很重要对
    培养是很重要的
    因为在大家没有习惯于往上看的时候
    你老师是需要做这样的引导
    让大家能够去往天上看
    但是这是培养和选拔
    但他是不是可以确定
    一定能够出来谁呢
    不知道这个是不可预测的
    你只能说按这么做
    大概率10年之后应该会有人成功吧
    但是会是谁呢
    你不知道
    所以选拔很重要
    培养很重要
    但是你也要做好
    确实就有可能很多人就没有成功
    比如说姚班
    30多个人
    像我们班
    算是当老师非常非常高的一届了
    我们可能就1/3的人在当教职
    那剩下2/3个人呢
    所以我就想说他是培养和选拔
    但是没法被计划
    说的非常好
    非常好我觉得今天收获特别多
    好谢谢吴老师
    那这就是我们今天的节目
    如果大家喜欢我们的节目
    欢迎在你所收听的音频渠道
    来订阅我们
    中国的听众可以通过小宇宙
    苹果播客喜马拉雅荔枝FM
    网易云音乐来订阅我们
    海外的听众可以通过苹果播客
    还有Spotify来收听我们
    当然
    你也可以用YouTube搜索硅谷101播客
    来找到我们
    我是泓君
    感谢大家的收听

  • E162_清华姚班如何培养天才_给最有挑战性的问题和足够的自由度(2)

    我就跟HR说
    Facebook在中国也没有office呀
    我说我去哪实习
    他说你来美国呀
    我说咦这个好
    然后就面试
    面试了就去了
    第一次去美国的时候
    还不知道美国的签证很麻烦
    然后还被关了小黑屋
    反正有很多很好玩的事情
    那就20岁嘛
    第一次去美国也挺有意思的
    现在回想也是
    我前两天还回想
    12年过去了
    其实中间有很多很有意思的时间点
    比如说我12年的时候我在Facebook嘛
    是我师兄帮我介绍
    然后我就有了Facebook的机会
    其实16年我还在字节
    我当时是字节跳动AI lab的
    可能前几号团队成员
    当时也是我另外一个师兄
    但他不是姚班的
    但他一个师兄
    然后介绍我说哎
    国内有特别好的机会
    你回来看一看
    然后呢我在OpenAI的时候
    也是因为我有一些Berkeley的师兄
    也是朋友吧
    然后我刚好去OpenAI有些合作
    然后就去了OpenAI
    所以就会发现
    其实过去12年还是有很多人在帮我
    我确实踩到了一些这样的时间点
    然后在每个时间点
    都能以比较inside的角度
    去见证一些事情
    但是也确实是每个事情
    也不能完全说是我自己
    其实有很多人在帮我
    所以我觉得姚班
    其实这个团体也很感谢姚先生
    因为有一个人
    他有这样的号召力
    或者说
    他能愿意把这样最好的人聚在一起
    并且给他们足够的自由度
    如果没有这些人聚在一起
    并且有这样的联系的话
    其实一个人的能力是很小的
    尤其在一个时代的大势下面
    很多事情都是随机的
    那他就是因为人和人的碰撞
    才能碰撞出些火花

    那接下来你要不要跟大家介绍一下
    姚班有哪些非常厉害的科技公司的创始人
    或者说有哪些非常顶级的学者
    还真不少
    我能说上一些名字啊
    因为我确实跟这些人关系还挺好的
    比如说四字班比较有名的楼天城
    四字班是指2004年
    OK
    我们从早往后说嘛
    04年其实有最有名的业界的人
    其实就是楼天城
    就小马智行的CTO
    也是竞赛出身
    第一届姚班
    然后学界的话
    其实四字班有鬲融
    鬲融是清华计算机
    因为那个时候我们还没有独立建院
    所以还是在计算机系在一起
    计算机系历史上非常传奇的一个人物
    就基本上门门功课考第一的那种
    鬲融现在在杜克大学
    他也是斯隆研究奖
    五字班当时有周源
    好多基本都是竞赛出身的
    有很多这个faculty
    像周源是最近也是原来的UIUC当faculty
    然后最后回到清华
    像我们六字班就要到唐文斌
    唐文斌是旷视科技
    旷视科技当时是杨沐
    唐文斌 印奇
    六字班七字班姚班的我们的同学
    比如说到七字班的
    我们有就开始有很多人开始当教授了
    比较有名的其实八字班
    八字班是出了好多人
    比如说八字班的陈丹琦
    是在Princeton做自然语言处理的助理教授
    然后她的老公俞华程
    也是八字班的同学
    也在Princeton
    然后八字班还有在斯坦福任教的
    马腾宇
    马腾宇应该最近也开了自己的公司
    Voyage AI
    马腾宇和陈丹琦应该都是斯隆研究奖
    然后九字班的话
    比如说到我们班
    我们班可能比较有名的吴佳俊
    在斯坦福当faculty
    我们班可能有七八个faculty吧
    就七八个在高校任教的
    然后最有名的肯定是吴佳俊啊
    斯坦福当faculty
    吴佳俊是当时我隔壁宿舍
    我们这届其实也有不少开公司的
    我自己开了一个小公司嘛
    也是做大模型agent相关的公司
    再往后
    比较年轻的也有最近三字班
    Liu zhuang应该是刚去普林斯顿当教授
    最近应该是三字班
    应该是开始在找教职的这么一个状态
    然后一字班应该也有一些去当教师的
    所以基本上你看到那个分界线
    在八字班左右
    基本上每一届都能数出来好几个
    在顶级高校
    top ten university
    甚至我说top five
    top six university任教的
    就每一届都会有
    所以基本上这个开花结果其实也很快
    很快从他们基本上任教开始
    也就是说
    从姚班成立
    到第一批学生
    可以在美国最顶级的高校任教
    可能花了10年
    产业还挺有意思的是
    刚好都和人工智能相关
    你像自动驾驶
    其实楼天城小马智行是最早的公司
    然后上一波人工智能
    其实也挺有意思的
    就是face++
    旷视科技嘛
    就是唐文斌印奇
    杨沐
    上一代人工智能
    创业到还真的是大模型
    这一代的
    这些创业公司里面
    其实叉院的老师参与的会非常多
    就是我自己肯定是一个例子
    大模型像杨植麟
    其实也在我们院
    之前任教过很长一段时间
    他做的月之暗面
    其实也是国内第一梯队的
    做大模型基础能力的公司
    最近的具身智能这一波
    其实也好多公司
    都有我们院老师的参与
    或者团队参与
    其实我觉得也很有意思

    因为姚班确实是不管是汇聚老师也好
    还是汇聚学生也好
    他是把中国相当一部分最好的人才
    聚集在一起
    而这几波创业浪潮来看
    他恰好也都是技术驱动的
    这些创业浪潮
    那么他对人才的要求就会比较高
    所以很巧的事情就是
    创业的趋势
    恰好和姚班的特点比较匹配
    所以我们也得说
    确实赶上了这样一些好的时间
    能够参与进去

    我觉得一个是时机
    还有一个是不是
    因为首先是有姚期智先生牵头
    同时你们是一个非常年轻的院系
    他没有历史的包袱在里面
    所以他能发展得很快
    如果看院系发展的话
    我同意他确实是个年轻的院系
    首先我觉得这是肯定的
    就是他的包袱会少一点
    比如说我们在做课程改革的时候
    我们在不管是人事还是招聘
    还是说在教学方案培养上
    变化都可以变得很快很灵活
    这是一方面
    但我确实觉得跟姚先生自己
    他花的时间和他投入的
    不管是自己的声誉
    还是自己的经历都是很有关系的
    比如说最早期的时候
    为什么在清华
    还没有是任何世界一流计算机研究命题的时候
    他能吸引到一批国际学者
    和最好的学者
    来给姚班上课
    他在最早期的时候
    我们其实有很多的课
    是微软亚洲研究院的老师来上课的
    这些其实都是靠姚先生自己的个人光环
    当他在做完这一步启动之后
    开始能够吸引到更多的海外的老师
    回来任教的时候
    再往后面的工作
    其实就比较顺其自然了
    比如说到现在
    我觉得姚班的发展就很正轨了
    比如说基本上我们所有的老师
    都是美国top four CS PHD program回来的老师
    那基本上这种情况下的话
    姚先生就不太用操心每个课到底谁开
    对吧就是他基本上每个课
    每个方向都知道有最好的老师去教授
    都不太用管这些事情了
    但在早期的时候
    每一门课其实都需要花很多心思的
    就去找谁
    姚先生会自己
    去写教材
    他自己也会上课
    然后真的会
    姚太太其实也给我们上过课
    亲自给我们上一些前沿的课程
    然后去请人回来也很重要
    因为这个其实就是卖面子
    而且很扩展大家的视野
    对不对
    就是你那个时候
    在大家看不到外面的世界的时候
    是需要有你看到最好的人长成什么样的
    这件事情是没有姚先生牵这个头
    并且他愿意亲自去卖这个面子
    是做不到的
    所以万事开头难
    最早的永远是最困难
    你现在觉得姚班的传奇可以复制吗
    比如说清华或者北大其他院系的老师
    能够找到一个足够重量级的教授
    来去复制姚班的这套模式
    看能不能打造成一个综合实力
    非常强的一个研究院
    你觉得有可能吗
    我觉得这个话呢
    我们首先得承认
    有相当多的地方
    都在复制这样的培养方式
    然后我觉得其实对学生来说
    是件非常好的事情
    大家都发现
    姚班原来给予优秀的学生最好的资源
    他们是可以涌现出最高
    最好的教学成果
    这是很多高校其实都在模仿
    当然我们先且不说
    这个时候能不能模仿出来
    当然我觉得因为他们的模仿
    对于姚班来说
    姚班也在往前走啊
    所以嗯不是姚班
    就是停在原地
    大家会来模仿
    所以我觉得
    再加上人才的密度和培养的模式
    他总是需要累积和时间的
    一个班级的惯性也好
    还是他的培养体系及他师资的团队
    以及他的研究的整个氛围
    是一步一步往前走的
    那么其他学校我觉得是可复制的
    如果他能找到同样的资源和时间
    并且大家真的可以凑出这样的人
    但是他也是需要时间的

    姚班到现在也是有24年
    对不对
    哦 20年对
    第二个角度呢
    是我觉得不能以现在的标准来看
    我们想的是
    在2004年或者2005年那个时间点
    是不是有可能有别的人
    把这件事情做成
    就像我们总说
    比如说我们说百度搜索现在用的不好
    但是回到2000年那个时间点
    有人能比百度做的更好吗
    到2010年左右
    甚至也没有人可以比百度做的好
    所以我们是不能抛开那个时间点
    来看这样的事情的
    在那个时间点
    清华甚至没有一节计算理论课
    清华我们也得客观的说
    计算机科学是在会议发论文吗
    那个年代是没有人能够在顶级会议
    或者几乎没有人
    能够在顶级会议上发论文的
    现在大家都知道了
    那清华的这个数量对吧
    就是你要是跟美国的高校比
    也完全不落下凡的
    但是那个年代是没有的
    所以我们不能跳脱那个时代来看这个问题
    在那个年代
    我觉得是不可复制的
    甚至即使在现在
    我觉得依然不太可复制
    但有没有可能在未来的10年
    大家慢慢能够有一个新的集体出现
    但我觉得是好事
    因为出现得越多
    我觉得这对中国的教育也是一件好事
    嗯对
    因为你现在也在叉院做助理教授嘛
    就是从你来看
    你觉得你们目前还有哪些挑战
    是没有被解决的
    我觉得不能叫没有被解决
    就是我的观察
    会发现每一代人真的很不一样
    你会有种很强烈的感觉
    一代人做一代人的事情
    我还挺有意思的
    是因为我刚好跟04、05的人
    就是十年前的人很熟
    比如说我跟楼天城私交很好
    然后我跟当时一些我的大师兄们
    就是私交也就很好
    我自己呢又属于一代人
    然后我自己又当班主任
    所以我会观察到
    后面一代人是很不一样的
    比如说我
    你去采访一个04、05届的大师兄
    你说你当年为什么要选这个方向
    所有人的回答
    基本都是姚先生的个人魅力
    大家当时看到的就是
    哇这个世界原来是这样的
    大家原来可以做计算机理论科学
    所以当时04、05
    或者早年的这些师兄师姐们
    是有大量的人去做理论计算机科学的
    这完全是极强大的个人魅力
    但到我们这届开始的时候
    我们开始知道
    我们去看看AI
    看看别的方向
    然后自己想去寻求机会
    然后我们自己也很多同学是做理论的
    但是大家会开始说
    哎是不是可以去做做AI
    去做做机器学习
    去做一做别的什么东西
    会开始想
    哎我们是不是要去海外去看一看
    但是总体来说
    我们是处在一个
    我很想去找机会的一个地方
    我知道外面的世界是更大的
    我自己想去寻找这样的机会
    但是你看现在的小孩的心态
    就完全不一样
    就现在的小孩
    就会发现啊
    我有好多选择
    哈哈哈我要去
    我要去MIT了
    现在经常小孩跟我说
    吴老师
    我这个项目做完了就不想做了
    我说哎你后面什么计划
    他说我想去MIT看看
    我说好的
    哈哈哈对
    然后他们也会更自信
    就比如说
    在我那个年代
    我们其实更多是那时候
    是没有太多的选择
    那时候清华已经有不少的团队
    能发顶级会议论文了
    但是还是很少
    比如说
    我想我第一次发NIPS的时候 2012年
    那个时候可能NIPS只有60篇论文
    可能清华有几个老师能发一两篇论文
    但现在不一样了
    现在你可能去找
    清华能发非常多论文
    但是还没有
    所以那时候还是想的是
    有没有一个地方能够给我一个机会
    让我去证明自己
    现在的小孩就是
    这个世界我都去看看
    我有这么多个选择
    他们会比我们更自信一些
    发自内心的自信一些
    对然后他们也确实有更好的资源
    但是这个事情就是一代一代的
    先有姚先生的个人魅力
    能够让一些学生开始走向世界一流
    就是他们都是在比较偏理论的方向
    然后他们会再回来
    吸引到一批不同方向的老师
    有了这些老师之后
    会培养出新的一批学生
    然后这一批学生
    成为世界上可能可以站得住脚的
    研究的学者
    之后再培养出的学生
    他们就会更有第一视角
    他是一代一代人
    所以
    这种每一代人的使命不一样的感觉
    会很有意思
    所以你回答你的问题
    就是说有没有什么未解决的问题
    我会觉得很难说
    我知道有什么问题没有解决
    因为你其实不知道下一代人会变成
    长成什么样
    我们不太能够预判说
    下一个时代长成什么样
    但是你知道的事情是这个时代在
    一定在往前走
    就大家的想法不太一样了
    对不对
    对 更加多元化
    它应该是这样
    所以我很难说
    我会预判到后来有什么新的结果
    我觉得只能说
    那我这代人也只能做我这代人的事情
    嗯嗯对
    你现在会自己带博士生吗
    对我有
    我只要培养好的人才就可以了
    我觉得不同的老师可能不一样
    风格不一样
    嗯你呢
    我觉得我的风格
    其实会非常不能叫偏产业
    我觉得我的风格是相对特殊一点
    我的风格更像是带startup
    哈更像
    更像创业团队
    所以就可能我的个人风格有关
    可能跟OpenAI当年早期的风格有关
    可能跟我自己读PhD
    我自己就经常做一些大的项目
    也有关系
    所以导致我的风格就会特别偏向
    我们要做一个完整的项目
    我觉得我不会以这种
    最后他是当老师还是去工业界
    来判断到底是怎么培养人才
    所以我会按照我的风格和我的想法
    跟他们做沟通
    那么最后到底是做老师还是去公司里
    他们自己决定

    现在清华叉院
    他在哪些方向
    他的科研实力特别强
    就是你刚刚其实也提到了
    有很多之前毕业的学生
    他们成长起来了
    也回校了
    首先我们叉院还是理论做的非常好
    计算机理论

    理论计算机科学
    这也是传统方向吧
    就是每一年都有非常非常好的学生
    他们现在开始
    本科生都可以去发表一些
    最佳论文级别的成果了
    非常非常厉害
    所以理论一直都是非常非常前沿的
    然后我们系统方向
    其实有几个非常强的老师
    几个老师吧
    从芯片到系统
    其实都是在美国可以拿到很好教职的老师回国
    我们院也有一个
    专门做芯片的公司
    北极雄芯
    还有一家
    专门做一些加密计算的芯片的公司
    也有一些硬件的公司
    所以这也挺强的
    那当然我还得说呢
    就确实AI方向
    是这几年确实非常非常强的
    一个大模型
    和具身智能
    尤其具身智能
    可能我们永远算是具身智能这个方向
    人才密度最高的一个学院了
    你刚刚提到
    具身智能的几家特别厉害的公司
    是哪三家
    我们院自己是有一个孵化出去的
    是陈建宇老师
    陈建宇老师有一个叫星动纪元
    是做人形机器人的公司
    这也是清华自己的项目
    还有就是我们院的
    像高洋老师啊
    许华哲老师啊
    赵行老师

  • E162_清华姚班如何培养天才_给最有挑战性的问题和足够的自由度(3)

    他们参与的
    或者说
    他们团队有联系和合作的一些公司
    他们也是作为主要的
    顾问也好
    成员也好
    就是参与的公司
    那反正参与我就不说了

    我观察到
    现在整个在人工智能的这个方向
    从学术或者研究向工业的转换
    这个链条已经越来越短了
    就比如说我们以前在科研跟工业之间
    它可能还存在着一个学界
    研究得非常非常前沿
    但是你要把这个东西拿来应用
    它可能是需要花很多年的时间的
    但是我觉得在人工智能这个方向
    尤其是OpenAI出来之后
    特别是大模型出来之后
    研究向工业的转换就变得越来越短了
    提一个假设性的问题
    因为现在整个清华叉院
    他的人才密度也很高
    同时
    你们也有非常多的研究在同时进行
    你觉得有没有可能
    清华独立研究的大模型
    他能够冲出来
    因为我知道现在很多美国的高校
    他们也在跟美国国会有说
    如果我们这个事情
    只任由工业界去发展
    因为他们是能募集到最多的钱的
    那你不给学术界支持的话
    其实整个学术圈在这一块
    他的研发实力就会变得差一些
    所以我是在想
    有没有可能未来的一些突破
    可以从学术圈先开始
    或者说学术圈能做一个媲美工业圈
    同样质量
    或者更好的大模型
    对这有几个角度啊
    我不想一上来就给个答案
    首先第一个角度是
    为什么这个周期变短了
    我觉得其实不是转化周期变短了
    而是在这个阶段的AI
    或者AI的发展趋势
    导致AI的发展特别重工程
    并且成本越来越高了
    导致很多的规模化的研究
    不再是一两个研究员可以独立完成的
    所以他必须用一个更高效的
    或者更强大的运营实体和团队
    来完成这样的工作
    所以公司会更合适
    所以导致很多的工程化的研究工作
    移交到了公司
    或者说在学校里面很难开展
    这是第一个
    第二个事情是说
    有没有可能在国内取消里面
    做出一个媲美工业界的大模型
    单说这件事情不太可能
    这个就是一个纯成本的问题
    就比如说我们就讲训练对吧
    我们现在讲大模型就是万卡集群
    不说别的
    我们要训个大模型要1万张卡
    然后我们要多少parabits的数据
    好 洗数据谁去洗
    我们把那个系统搭出来
    要让1万张卡运营一个月的时间
    会报错 对吧
    谁去搭建这个系统
    这都不是几个博士生的方式
    可以做完的
    那学校的这个运营体制
    就是一个以博士生为主
    博士生每个人都有自己的课题
    这样的大课量的工程
    比较像欧洲的那种量子对撞机一样
    他就是在这个环境下
    是很难指望一个由博士生组成的这个团体
    去完成这样的一件事情
    当然你说欧洲量子对撞机
    是不是也是
    由一堆博士生和研究员做成的
    其实它也是
    但是这个就在于
    你需要拨那么多钱
    它的成本也很高
    但是我就说它不光是钱的问题
    你就想是不是我们对于AI的发展速度
    允许像量子对撞机一样
    花那么长的时间研究一个科学问题
    AI其实它的时针要求比那个高
    我们客观的说
    比如说我们想验证引力波
    其实引力波的项目也很大
    也养活了无数代的PhD
    但是你是不是真的允许我们花30年
    花20年的时间去研究引力波这一个东西
    一个命题
    AI其实不允许
    AI这个迭代周期比它快多了
    我们如果想象AI的迭代周期的话
    他的投入和他到底在多少年
    多少短的时间里面
    完成的这样的投入
    他的组织度是要求非常非常高的
    引力波当时花了多少钱
    钱也很多
    但是他确实做了20年的时间了
    当时韦伯望远镜
    他的数字是花了100亿美元
    其实我们来看的话
    我们投入这么多钱去研发AI
    它可能也是可以的
    这理论上是的
    所以我没有说他不可能
    我只是说
    大家是不是会允许我投100亿美元
    30年之后我做出一个AI了

    就大家会嫌太慢了
    但产业发展的更快
    对产业发展的更快
    所以这就是我的观念
    就是说在AI
    一个它本身是有极大经济价值的
    这么一个领域内
    你一定非要研究的体制
    去完成这么一件事情
    其实是很低效的
    就如果你让学界去完成
    以他的组织形态和周期来看
    那么他可能就是会需要3-5年的时间
    就3到5倍的时间
    才能完成这么一个项目
    他不是不可能
    因为我们看
    我们可以参照所有的这种天文啊
    重大科研问题
    他是怎么来做的
    他是他是可以的
    但他就是组织度会更慢
    这商业就是一个
    如果你有商业机会
    他就是组织度更快的
    一个更惨烈竞争的一种模式
    所以我就想说有没有可能做呢
    我觉得是不太可能
    因为他没有必要
    这是一种很大的浪费
    哈哈
    理解
    还是效率上
    它不是一个最高的承载的形式

    就像特别简单
    就是为什么NASA要把它的一些项目
    转移到SpaceX
    其实是一个逻辑
    就是如果他能产生商业价值的话
    那商业可能就是效率最高的一种行为
    我觉得是没有必要
    那么再回到研究本身来说
    研究本身他本身在做一件什么事情呢
    他其实在做的是一个好的研究
    需要以10年为尺度去观看
    我们大家可能想的事情都是啊
    我们现在做
    个研究它在两年之后可以产生AGI
    但其实不是的
    因为我们去看AGI是怎么来的
    它最早最早要提到Hinton
    开始做back propagation
    把它调work
    back propagation的
    nature的paper大概是80年代
    然后到90年代有Yann LeCun
    然后90年代的2000年左右
    开始做概率语言模型
    然后到AlexNet
    之后再到OpenAI Scaling Law
    落到Ilya
    开始说我们一定要把大模型
    用最大的网络
    最多的数据
    中间得多少年
    80年代 90年代
    2,000年才有概率语言模型
    就神经网络
    基于神经语言网络的概率语言模型
    就是要需要班主任拿奖的文章
    到attention一几年
    然后再到Ilya
    用一种极其偏执的方式
    把大数据这件事情演绎到极致
    这个中间
    从到GPT3的这个时间点
    中间得过了80年代到20年40年
    40年的时间
    所以我觉得Yann LeCun前段时间说了一句话
    我觉得他某种程度上是对的
    当然他是经常会跟现场的一些主流唱反调
    啊就是他说的话不一定都对
    但他有句话说的是
    如果你读PhD
    那不应该做大于原模型
    这句话本身
    我觉得对于大部分PhD来说
    是不公平的
    因为你不能总说你为了Hinton
    而让大部分的学生
    都不去做这些研究
    对吧
    大部分的学生99.9%的人还不是Hinton
    但是从培养Hinton的角度
    如果你想去做一个颠覆式的
    最重量级的创新的话
    那确实你不应该看现在最火的东西
    你应该bet the next big thing
    他其实这么说没错
    只是说那美国有那么多PhD
    你都按你这个来
    那一将功成万骨灰啊
    对吧
    但是某种程度上
    科研是应该有人去做
    这样自由的探索的
    所以我会觉得这个事情没有关系啊
    就是如果你想去做大模型
    那么现在来看
    最合适的体质就是在公司里
    在商业竞争环境下他才能前进的最快
    如果你想去做的话
    就去找一些这样的机会
    因为我觉得很多公司也是很开放的
    比如说我在Berkeley的时候
    很多大公司都跟Berkeley合作
    然后在清华的时候
    其实你也可以跟很多公司有合作
    如果是学术研究的话
    我就会觉得还是回归学术研究的本质
    你去做一些有意思的事情
    做一些有创新的东西
    做些大家没有想到的角度
    它是回归学术本质的一件事情
    什么合适的体制和机制
    去做一件什么样的事情
    大家没有必要又既要又要
    嗯 非常理解
    讲得很好
    特别有意思
    我上一期采访了陈羽北
    你应该也认识
    嗯我认识北哥
    对因为他是Yann的学生嘛
    他在节目里面说了跟你一样的
    Yann说的这句话
    如果你是博士的话
    不应该去研究大模型
    然后表达了跟你相似的观点
    哈哈
    很有意思
    对 然后你刚刚其实开始的时候
    就是你有提到你早期在OpenAI实习
    他其实也是一个项目组
    一个项目组的
    然后他以这种项目制的方式来进行
    当时你在的时候
    我知道你是在研究智能体的方向吗
    2020年他其实是有一篇GPT3的论文出来
    就你当时有注意到那个方向吗
    因为我记得他还有机器人的项目
    对吧
    GPT3 其实内部2019年就已经看到了
    所有的论文里写的东西
    19年的上半年其实大家都已经看到了
    当然
    这是公司内部非常重要的一个方向啊
    那个时候的OpenAI还比较像个研究院
    他当时有个
    就是对外有个说AGI要怎么去做
    他就说那逻辑也特别简单
    就是那AGI的话
    他肯定要有视觉能力对吧
    所以他有个视觉team
    有语言能力
    有个语言team要决策能力
    所以个强化学习team
    然后呢他有交互的能力
    所以叫多智能team
    然后呢
    他有一个本体
    所以有机器人team
    然后呢当然还有安全性啊
    解释性啊这些东西
    所以就大概这么多个team
    所以
    它基本上确实是从AGI是怎么来的
    方向来定team的
    但是呢
    所有的这个team有个比较标准的principle
    就是我们希望scale up
    这个也是OpenAI
    其实能跑出来的一个原因
    是因为scale up这件事情
    这么笃定的坚信的人
    其实很少
    直到确的GPT
    大家发现what
    scale up可以出确的GPT
    啊哈
    那大家一起scale up
    就是一个人告诉你他可行的时候
    和你根本不知道的时候是不一样的
    所以OpenAI是一个知道
    他的几个创始人非常笃定的坚信
    其实就是Ilya
    带给OpenAI带来最大的财富
    就是他真的很坚信这件事情
    矢志不渝的践行
    所以最后排除万难做成啊
    就发现真的有这样的效果
    所以那个时候
    不管是做强化学习也好
    还是做大模型也好
    还是语言模型也好
    就是语言模型嘛
    那时候还不叫大模型
    就语言模型或者是视觉也好
    大家都是采取scale up的路线的
    现在不在小规模计算上去做文章
    这是统一的
    因为我们OpenAI内部是有很多交流
    然后有all hands
    会每个团队去分享做什么
    所以很早的是19年的时候
    就看到大模型
    然后看到内部去使用
    就会发现这个东西有点厉害
    哈哈哈只是在那个时候
    你得非常懂行的人才能意
    识到这个模型很厉害
    因为那个时候的GPT它不好用
    普通人去用的话
    会觉得咦
    你为什么老说胡话
    你为什么老重复我的话
    它不好用
    这就是后来做对齐啊
    去做chat
    叫他们叫alignment
    或者叫instruction
    following
    就是要让遵从人类的指令嘛
    就是人说一个什么话
    比如说你帮我写个文章
    他就得写个文章
    而不是好呀
    哈哈举个例子

    所以他是直到这些东西都做好之后
    是刚好那个点是chat GBT
    所以它突然就爆了
    但之前这些能力
    其实19年的时候大家就都已经看到了
    所以我确实是很早就看到了这个东西
    但是我确实也没有那么笃定
    哈哈不然我回国今年20年就应该做
    在中国做一个对吧
    当时我也没有那么笃定
    你当时为什么不那么笃定
    我的几个方向啊
    就是我自己的兴趣
    可能还是做交互
    所以呢
    我一直觉得语言加上决策
    是一种非常好的交互的方式
    那我还是从强化学习角度去出发的
    所以我回来之后做的事情是
    我首先从头搭了一套
    跟OpenAI类似规模的
    一套强化学习的训练系统
    但我确实没有去做语言模型
    只是我觉得没有人可以预测到
    ChatGPT的成功
    因为即使OpenAI自己也没有预测到
    就内部的人也没有预测到
    就是那个时候
    大家虽然看到了一些科学上的进展
    但是他的进展不那么明显
    他没有到一个质的飞跃
    就是那个点是很奇怪的
    我问过我的同事啊
    的确的GPT
    可能欧巴只做了一个周
    只做了一个礼拜ChatGPT
    没有人是说我知道他一定可以成功
    然后就是一定可以
    就是有这么大的社会影响力
    GPT3其实它有很强的影响力
    它是当时是best paper
    然后在整个学术圈是很轰动的
    但是没有真的扩散到这么大
    我当时可能也是对AI到来的速度
    可能也是没有做好那么强的准备
    那可能跟疫情有关系
    大家想的问题都确实没有那么笃定
    所以现在回头来看
    OpenAI能够那么笃定的坚持一个方向
    坚持那么多年
    确实也是挺难得的
    是的是的
    Ilya为什么那么笃定
    他就是这么一个很偏执的人
    你就想一个正常人是不会这么笃定的
    只有一个非常偏执的人
    才可以这么笃定
    当然这个事是在于他最后成功了
    所以我觉得这个事是
    大家不能总是回头看
    这个最成功的人是怎么样的
    因为所有成功的人
    都能找出一万个理由
    但在同时
    我想跟大家说的事情就是
    在OpenAI同时期
    其实有很多创业公司
    做AI的创业公司
    甚至是做AGI的创业公司
    也不止OpenAI一家
    比如说有一家公司叫
    他们的路线
    当时我伯克利有个我同组的师兄
    还有个人去了那里
    差不多也是做AGI
    但他的路线就是逻辑推理
    他觉得需要去把逻辑的东西
    放在AI里边去
    最后一个公司被DeepMind收购了
    大家可能不知道这个公司
    但是我就想说
    同时期在美国做AI的公司
    不是OpenAI一家
    是OpenAI跑出来了
    当然你现在可以回过头去分析
    它有好多好多的原因
    对吧一它有毅力啊
    可能Sam在合适的时候
    引入了投资
    然后大家做这个scale的路线
    又是正确的
    它也有别的公司啊
    甚至也有NGO的公司
    比如说Alan two Institute
    当时比如说做语言做对话的
    也不只有朋友家有一家叫Semantic machine
    Semantic machine后来被Microsoft收购
    然后当时也是Stanford的faculty
    和Berkeley最好的faculty
    一起做的一个公司
    大家用相对来说
    传统对话模型的巅峰吧
    能做出的最好的巅峰
    他们是把编程语言和对话模型
    放在了一起
    做了一个
    最后应该是被合并到微软产品里面去的
    一套系统
    所以就有很多这样的公司
    最后只是OpenAI大成了

    所以我觉得是
    大家看问题可能稍微辩证一点
    也有人在get别的东西
    然后他失败了
    对吧哈哈
    当然他们有个共性
    就是所有成功的人都get了一个东西
    对对对
    而且你刚刚其实提到
    OpenAI里面有非常多的项目组
    比如说需要有AI的眼睛
    所以就做视觉什么的
    我之前一直知道
    OpenAI里面有非常多的研究项目
    但是其实我自己是没有想到
    它的这些研究项目之间
    是有这么完整的一套逻辑的
    我听你讲了
    才觉得
    它的整个的研究架构非常的清晰
    但是即使在这么多的
    非常清晰的研究架构中
    它也是一个非常小方向的
    一个小的点跑出来了
    对确实是这样
    他在早年的时候是有个比较大的章程
    这章程也会调整
    然后在那个时候的话
    大家会按照这样组织的方式去看AI
    看AGI
    但是确实是
    语言模型和视觉投入是挺多的
    这我们得承认
    像强化学习组就会人很多
    然后我们组大概6个人左右
    强化学习组或者机器人组的
    会人多一点
    然后语言模型也会人稍微多一点
    但是人的规模也就是说小几十号人
    因为公司一共才100人嘛
    而且确实最后这个东西跑出来
    他最后是语言上
    当然你可以回头说
    这里有特别多的evidence

  • E161_聊聊大模型如何思考与深度学习科学家Yann LeCun(5)

    如果我们说要通向AGI的过程中
    应该还会有这种完全从0到1的
    一些比较大的一些转变
    嗯就是既要有科学上的进展
    然后工程上
    我们还有很大的空间可以去提高

    嗯对
    这个总结非常好
    好谢谢羽北
    感谢感谢
    好了那这就是我们今天的节目
    如果大家喜欢我们的节目
    欢迎在你所收听的音频渠道
    来订阅我们
    中国的听众可以通过小宇宙喜马拉雅
    苹果播客蜻蜓FM
    网易云音乐
    荔枝播客和QQ音乐来关注我们
    海外的听众
    可以通过苹果播客和spotify
    来关注我们
    另外呢
    大家也可以在YouTube上搜索硅谷101播客
    来关注到我们
    那我们的搜索词是 硅谷101播客
    如果大家在搜索的时候
    出现了我们硅谷101的视频
    大家也可以一起关注
    好感谢大家的收听谢谢

  • E162_清华姚班如何培养天才_给最有挑战性的问题和足够的自由度(1)

    hello,大家好,我们的听众中有朋友可能听说过JJ Lake
    这是一个位于硅谷中心 Mountain View 的创新空间加孵化器
    也是硅谷 101 的公司所在地
    我们的很多节目就是在JJ Lake 的会议室里诞生的
    JJ Lake正在招募创业团队,申请他们的孵化器项目
    主要关注在先进制造、生物医药等硬科技领域
    特别适合希望利用好亚洲的生产制造、供应链市场等优势的创业者
    JJ Lake 可以给创业者提供最高价值 600 万美金的创业支持
    在过去的 5 年里,有 450 多家团队申请了他们的孵化器
    108 家团队入选,总融资额超过 4 亿美金
    此外,JJ Lake 也向创业者提供虚拟办公室、共享工位、独立办公室等各种服务
    不管大家对租用 JJ Lake 的办公空间感兴趣,还是对孵化器项目感兴趣,
    都可以联系JJ Lake 的负责人柳一夫,他的邮箱是 yliu@jjlaker.com
    那我也会把他的微信号和邮箱放在我们的 shownotes 中
    需要的小伙伴可以直接联系他
    下面就请收听我们今天的节目
    欢迎收听硅谷101
    我是泓君
    我们今天来聊一聊中国AI顶级人才的黄埔军校
    他们很多都来自清华姚班
    在过去的20年里 姚班出了很多独角兽公司的创始人
    比如说小马智行的楼天城
    旷视科技的唐文斌、印奇等
    包括现在很火的月之暗面
    他的创始人杨植麟
    在过去几年也是姚班的任课教师
    除此之外姚班也培养出了一群顶级的AI学者
    他们相继进入斯坦福大学、普林斯顿大学、杜克大学、清华大学等国内外知名大学任教
    这个传奇的计算机实验班是图灵奖得主姚期智先生于2005年在清华成立的
    如果说进入清华很难 那进入姚班的本科生更要经过严格的选拔 由姚先生亲自制定培养计划
    姚班成立至今已经20年了
    我非常好奇姚班经历了怎样的发展过程
    而号称打造一流本科生的姚班又是怎样培养这样一群天才的
    那么我们今天邀请到了2010级的姚班本科学生
    同时现在也选择回姚班任教的吴翼老师
    吴老师现在也任清华大学交叉信息研究院助理教授
    hello
    大家好
    吴老师本科也是在清华姚班
    博士在UC Berkeley
    之前还在OpenAI的时候做过研究员
    那现在同时也是边塞科技的创始人
    整个背景是非常厉害的
    谢谢谢谢
    我是2010年的
    2014年的时候在姚班读本科
    然后在Berkeley读PhD
    19年的2月份一直到20年的7月份
    在OpenAI工作
    然后20年8月份
    就回到清华姚班重新当老师了
    所以现在也是在姚班当老师
    嗯对
    那吴老师我是非常好奇啊
    2020年的时候
    当时你是为什么
    会辞去OpenAI研究员的工作
    回到清华交叉信息研究院的
    开玩笑的说就是
    肯定是那个时候
    不知道有ChatGPT这样的东西
    哈哈哈嗯
    其实我是在2018年的时候
    就决定回叉院当老师
    然后当时也签了这个offer
    我当时应该是整个姚班历史上
    第一个回姚班当老师的
    自己毕业出去的学生
    所以我去找OpenAI工作的时候
    其实那个时候就已经确定
    我2020年的8月份要回国
    所以其实是入职之前就确定了
    所以导致那个时候我没有拿股票
    哈哈哈现在后悔吗
    也还好也还好
    哈哈哈对
    其实你刚刚有提到
    您是在这批清华姚班出去的学者里面
    相当于是第一个回学校任教的
    那在你之后
    还会有其他的之前的学生学成归来
    回到姚班来任教
    大家现在在研究的一些整体的方向
    是什么可不可以给我们介绍一下
    还挺多的吧
    我回去之后我也帮我们院代言啊
    因为我在姚班还算人缘挺好的
    所以上下的都还认识
    所以我也劝了不少人回来
    就比如说我们院
    我是零字班的
    就回来了
    现在我们院三字班有一个人回来
    然后可能五字班也有人回来
    所以现在可能我们院本科是姚班毕业的
    得有3个人
    清华毕业的就更多了
    那我们现在把时间拉回到2010年
    你是2010年到2014年再姚班
    你在上学期间
    在清华姚班的期间
    你觉得他们的学习方法跟学习体验
    有什么特别之处
    有哪些让你印象深刻的地方
    因为我们知道
    姚班其实是有两类学生嘛
    一类就是竞赛类的学生
    可以说也是海选的天才中的天才
    还有一类是从清华的
    应该是其他的本科生中选的一些
    感觉都是非常优秀的人啊
    就我很好奇
    他们是怎么去培养一群极为优秀的人的
    姚班其实有些阶段了
    我们说一下当时那个时候
    当时的话姚班大概是30个人
    只有一个班
    现在其实挺多了
    现在可能有七八十个人
    然后也有不同的方向
    我觉得姚班基本上分个三个阶段
    我觉得第一个阶段
    就是姚先生刚回来的时候
    姚先生刚回来的时候是2005年
    第一次开始搞这么一个实验班
    当时是一个
    我觉得受姚先生个人风格影响
    特别特别强烈的一个阶段
    04年05年 比如说当时楼天城
    现在这个Pony AI的创始人楼教主
    楼教主就是当时四字班
    04年第一届姚班的学生
    他们那个年代的姚班
    就是以理论计算机科学为主
    因为这是姚先生自己的老本行
    当时有一个客观的原因
    也是姚先生觉得
    理论计算机科学
    是整个计算机科学的基础
    但是为什么在国内
    没有好的理论计算机培养体系和课程
    所以当时姚先生回来
    专门以理论计算机科学为中心
    设计了一套培养方案
    那么基本上是到了10年左右
    在我们这几年
    这一届学生呢
    基本上开始
    因为姚班也运行了一段时间
    开始有新的老师回来
    比如说像我们院
    现在刚评上正教授的一些老师
    基本上都是我在读本科的时候
    从海外陆续回来的
    比如说我们院的许葳老师
    也是Berkeley毕业的
    然后有黄隆波老师 李建老师
    这些都是我在读书的时候
    从海外回来的
    从那个时代回来之后呢
    我们永远是开始有各种各样的别的课程
    比较广泛的课程开始设置
    这是一个时间段
    然后再到可能就是我回来前后
    这个时间段
    那么整个院里面
    基本上像我们10年左右
    这一批本科生开始有人回国
    整个院基本上
    我认为
    和美国的一流高校基本上接轨了
    课程体系也好
    培养体系也都好
    也都非常前沿非常全面了
    所以是这么一个发展阶段的
    基本上不变的事情是
    一 姚班非常重视理论
    就是计算机理论
    所以确实有不少的理论课
    第二件事情呢
    是姚班的课程确实非常难
    就总体上非常难
    像我们那个时候理论课就非常多
    非常重
    也难度非常大
    像现在的话
    因为他们的课程特别多了啊
    每一门课
    都是像我们这种海外回来的老师
    新开的所以难度也非常大
    所以比较偏重理论
    比较难第三呢
    是姚班学生确实培养自由度非常大
    这也是不变的
    举个例子
    比如说我们读书那会
    我们的总体要求的学分或者学识数量
    比起其他院系是少的
    就客观上说是少的
    你说课程少还是什么少
    课时数少
    但是我们需要坐在课堂里面的时间
    会比别的学生少一点
    但这个原因也是因为我们课程难
    所以呢
    他就认为你课后需要花更多的时间
    所以呢就把有一些学生放在了课后
    但事实上
    导致我们需要在课堂上坐在那的时间
    是少的或者说
    我们必须要花的一些
    非自主安排的时间
    是比别的院系要少的
    并且更灵活
    就导致什么呢
    导致我们院的学生
    有更多的自主支配时间
    自主支配时间
    他可以自己做科研
    还可以去实习
    还可以去访问
    其实我那个年代
    2010年左右
    当时最好的科研的机构
    是微软亚洲研究院
    因为当时中国没有那么好的AI嘛
    所以你想做AI的话
    需要去微软亚洲研究院
    那是最好的地方
    但是去实习需要花时间
    大部分的院系其实是
    你不可能有学生能够抽出时间去实习
    我们院如果你真的把课排好
    你是可以一周真的做到
    有两到三天时间没课
    大家就是在研究所里面待着了
    比如说我们院
    现在基本上能够做到
    大三的一个学期可以不排课
    出去实习
    对 他们就会选择出去实习
    会选择去美国访问
    这些事情院里面都非常非常鼓励
    当然他是有个发展流程的
    但是总体上姚先生是能够做到
    重视理论培养
    然后课程难
    给大家足够的空间
    我想说的是
    这些人其实不是培养出来的
    而是涌现
    智能的涌现嘛
    其实姚班这个班也比较像涌现这些人
    他们做的研究
    比如说我那个时候做的一些研究
    我也不是院里面老师带的
    像我们班里很多的这些研究啊
    我现在
    我们班里有很多做教授的同学嘛
    当时我们也有些做的比较好的同学
    他们做的研究
    其实也不是跟院里面的老师特别相关
    嗯但是没有关系
    你只有给了他们足够的
    让他们知道这个世界是这么大
    然后把很多好的人传在一起
    然后呢你再给他们时间
    他就会自动的涌现出来
    所以姚先生做的事情
    都是把这些最好的人
    把它聚集起来
    聚集起来之后呢
    给他们时间和空间
    并且告诉他们这世界上有很难的问题
    然后大家就会自己探索
    所以有的时候也会说
    姚班比较卷嘛
    那确实可能有一点卷
    对我听下来就感觉是
    把全中国最聪明的一群人
    首先先聚集起来
    然后给他们足够有挑战的问题
    再让他们有足够的自由度去探索

    我今天还看了一个姚先生的采访
    我觉得挺有意思的
    他里面有一段话是说
    如果你有一门课
    就是你拿到的分数并不高
    他说这是一个好事
    至少你知道你以后的事业方向
    就可以不用选这个方向了
    所以我看得出来啊
    他其实是一个非常鼓励大家
    去找到自己擅长的东西
    跟热爱的东西的一个学者
    挺有意思的
    我觉得
    你说的这个话确实我还有印象啊
    就姚先生自己本身也是挺风趣
    很幽默的
    而且姚先生也是大家嘛
    他讲的很多话其实挺深刻的
    有些话是我读书的时候其实不觉得
    但回头看的话
    其实他讲的话是很深刻
    但这个深刻呢
    我可能在我读书的时候也不一定知道
    还其实也会讲一些玩笑话
    但是其实想想蛮有意思的
    比如说我们当时
    我们院会经常组织一些讲座
    其实我们院的讲座密度
    是非常非常高的
    也会鼓励本科生去听讲座
    我们那个年代的姚先生
    还会每年请我们吃一次饭
    给我们做一些对话
    然后我们就问他
    我说我们班里有个同学问说姚先生
    这个talk都是前沿talk
    我们听不懂怎么办
    对吧你还要让我们去听讲座
    但我们都听不懂
    姚先生说没有关系对吧
    听你听不懂的讲座
    可以培养科学家的气质
    哈哈
    其实也挺对的
    因为大部分时候你就是听不懂嘛
    有时候都是听不懂
    那听着听着可能就听懂
    或者
    你大概从里面能够收获到一点东西
    就能对你有用的
    读书的时候很容易
    大家会觉得你所有的东西都要搞懂
    但可能本来摇摆
    你就会发现
    上来你就会发现咦
    怎么这些人是这个样子的啊
    这个东西怎么这么难
    你很快就会意识到
    哈哈哈
    反正有很多东西你都是不懂的
    有很多讲的一些话吧
    就是你那个时候可能印象挺深刻的
    但他确实对你产生了很多的影响

    你大学的时候你的主要经历
    跟你怎么去设定自己的目标的
    我属于班里成绩一般的那一种啊
    就我自己是搞竞赛的
    可能你高中的时候
    还觉得自己挺厉害的
    然后你到了姚班之后
    就会发现
    周围都是些什么人啊
    卷不过所以我当时其实知道
    自己反正GPA应该卷不过这些人
    我就想
    我把我一些我喜欢的课就好好上
    不喜欢的就拉倒就算了

    然后呢
    我当时也确实在微软亚研院花了很多的时间
    然后我当时也去Berkeley访问
    所以当时也是非常感谢院里面
    给了我们一个机会
    我当时是后来是拿到了院里的资助
    当然我去伯克利访问的时候
    其实并不知道院里面有这样的政策
    然后最后也是院里面觉得
    哎发现这些小孩
    自己还能去找到一些海外的机会
    能去访问呢
    去做出一些科研的成绩
    所以呢
    也把访问这件事情
    变成一个制度性的固定下来
    也是表班
    大三学期
    有一个学期可以资助大家去海外访问
    也是基本上从我们那一届
    我跟我的几个同学自己探出了一些路
    然后姚先生觉得很不错
    然后呢 21年开始就一字班开始试点
    到基本上二字班开始就固定下来形
    成一个传统
    这个也是从我们那届开始的
    所以我们那届的人
    就是属于大家都比较能折腾
    但是折腾的客观原因是
    我们确实比别人闲一点
    我当时还算比较能折腾吧
    因为我其实大二就去微软亚研院实习
    大二的暑假
    其实当时我去了Facebook
    我当时是Facebook历史上
    第一个从大陆过去的本科实习生
    当时也去了解了一下
    就是当时硅谷啊湾区以及当时的很多
    反正看到了那样的一个事件嘛
    然后到了大三的暑假
    我又去UC Berkeley访问
    然后后来就跟着我的导师继续读PhD
    所以我基本上属于我们班还比较能折腾
    朋友比较多的那种
    但肯定不是成绩最好的我
    我当时应该是排30%的样子
    我们30个人
    我好像排第10这样
    肯定就是属于成绩一般的那一挂
    在这样一个环境里也很好了
    我跟大家介绍一下
    吴翼其实是在你高二暑假的时候
    就拿到了IMO竞赛中的金牌
    然后是被清华交叉信息学院保送去的要办对吧
    不完全对
    我是搞信息学竞赛的嘛
    所以我是高一暑假保送了清华
    然后高二全国比赛拿了金牌
    然后高三进的国家队嘛
    在我们那个年代
    因为姚班只有30个人
    当时按照惯例
    是信息学只有国家队才能进姚班的
    所以我其实一直不知道我能不能进姚班
    直到我高三确实进了国家队
    哈哈哈OK
    然后你刚刚提到
    其实你是第一个
    自己去找到这种海外的访问机会
    包括是当年应该还叫Facebook
    我是Facebook第一个直接从大陆招过去的实习生
    你是怎么样
    去发现这样一些新机会的
    跟探索出来这条路的
    其实挺有意思的
    这个都是阴差阳错
    我可以分享一下当时是怎么回事
    首先呢
    我当时比较能折腾
    我当时就特别想去实习
    我实习的时候呢
    我也脸皮比较厚
    我去找我的师兄
    所以我找了6字班的
    我的一个师兄叫唐文斌
    唐文斌是现在旷视科技的CTO
    当时他也是搞竞赛的
    然后呢他创业也是很成功了
    上一代人工智能企业里面
    很成功的例子
    然后我找唐文斌
    我说师兄你帮我想想办法
    我想去Google
    因为当时12年的时候
    Google中国还是很好的一个地方
    现在Google就几乎撤出中国了嘛
    他就找了他的师兄
    然后呢他以为那个师兄在Google
    结果那个师兄刚好刚跳槽去了Facebook
    然后唐文斌帮我找的时候
    也没说想干嘛
    他就说哎
    这个师弟帮我推荐一下
    唐文斌的师兄
    我们一个那个二字班的师兄
    就随手就内推了
    于是呢到我这就会发现
    有一天突然我在我的邮箱里面
    收到一封来自Facebook的邮件
    说想不想来了面试一下
    然后我就打电话去跟他家面试

  • E161_聊聊大模型如何思考与深度学习科学家Yann LeCun(3)

    就是说我们在研究大语言模型
    研究这些工程模型的过程中
    我们可以产生了一些经验
    然后我们可以对它进行一些可视化
    这个我认为就是一种流派
    Anthropic最近啊OpenAI啊
    他们也参与在做的这些事情
    然后对它进行可视化
    之前就做了一些
    然后现在又做了更多
    这是其一
    那么其二的话就是计算神经科学这边
    神经科学这边
    我们要尝试对人脑进行理解
    然后在人脑里面
    比如找到了
    视觉和语言的它们交叉的一些区域
    找到了一些记忆
    可能的存在的一些方式
    找到一些层次化表示的一些迹象
    这是一种流派
    还有一种流派
    是从比较数学的角度来出发
    比较统计的角度出发
    哎我们问的一个问题
    就是信号的基本的结构是什么呀
    大家研究的
    甚至我们会追问
    比如3*3的一个像素空间
    它长什么样子
    它的形状是什么样的
    然后去追问这个信号本身
    背后的这个结构
    这是三种吧
    然后在这个之间呢
    还会产生很多的交叉
    嗯你属于哪一派
    其实这三派
    我都或多或少的有受到一点影响
    因为之前在伯克利的时候
    跟我的导师
    然后以及马毅老师
    他们都属于
    多少有点像是计算神经科学
    和数学统计的这个流派
    然后在Yann这边呢
    是工程这边受的训练多一点
    所以这三种方法我也觉得都可以接受
    因为它最终
    都会让我们往同样的一个方向前进

    同样的方向是哪个方向
    现在有阶段性结果嘛
    那最终就是理解这个模型嘛
    那之前有一些阶段性成果
    就比如说我们能不能做出一些
    哪怕是两三层的一个网络
    然后他还能表示
    把这些比较高层的这些概念学出来
    那每一层我们都可以
    看他学的是什么东西
    最后你发现真的可以做到一个数字
    你要想表示他
    你会把他一个一个的笔画全都学出来
    笔画之间呢
    这些相似的笔画
    他们可以把它联系在一起
    在这个之上呢
    你就可以构建出来
    下一个层次的一个表示
    就像这样的
    一层一层的
    最后找到了数字的这样的一个概念
    有意思那你现在的这些研究
    会继续
    有真正的对黑盒模型产生优化吗
    黑盒模型优化的话
    也会有一个是
    就是说当你对它的理解加深了以后
    你可能会比如优化这些黑盒模型
    让它的效率变高
    第二个是说可以让不同的黑盒模型
    你可以把它们统一起来
    这样的话你就是减少了
    很多不必要的浪费
    同时呢我觉得
    还有一个涉及到我这个实验室的
    另外一个植入性的工作
    就是要给研究不仅仅是感知
    但是还有控制
    就是当你给了这些大语言模型也好
    给这些不同的model
    他能够和世界交互的这个能力的时候
    这个过程
    能不能让他的整个的学习的效率变高
    然后之前
    我们做过一些很好玩的一些尝试呢
    就是比如说在控制系统里边
    你能否获得同样的泛化能力
    但是这个是什么意思呢
    就是说在感知系统里面
    你会发现哎
    我学了苹果
    我学的梨
    然后来一个桃子
    由于我之前学了一个相似的
    苹果和梨的概念
    你可以很快就学会桃子的这个概念
    那么在控制的领域的话
    你能不能达到相似的性能
    比如说我现在这个机器人
    他学会了向前走
    然后我学会了原地跳跃
    那我能不能很快一变
    就把它变成一个向前
    一边跳一边走的一个机器人
    就是有这样的一种控制的泛化能力
    这是我们之前做的
    一个比较好玩的一个工作
    那综合来说
    如果让你给一个结论的话
    你觉得白盒模型的研究到
    我们现在去解开这个大模型
    它是怎么运作的这个秘密
    它大概是一个什么样的进度条
    它的进度条到哪里了
    它的进度条
    我都不知道这个进度条有多长
    我感觉我们距离这个目标其实很远
    就可能是还在one PERCENT
    它其实有的时候发展
    它不一定是一个线性的对吧
    它可能是一个这种比较像
    量子的这种跳跃
    当你有一个什么东西
    你一个新的一个认知出来以后
    你可能会马上往前走一大步
    我倒是觉得
    我们有可能能够做出一个比较强的
    这种模型
    完全可理解的
    但是它浮现当时的这个
    像比如AlexNet这样的表现
    或者说
    这还是要看你的阶段性目标是什么
    对看你的阶段性目标是什么
    如果你想做一个白盒的ChatGPT
    我认为这个还挺远的
    但是你如果说
    我们要是想做出来一个
    还不错的这种模型
    我觉得这个还是非常有可能的
    就是根据我们说
    还不错的白盒模型
    还不错的白盒模型
    比如说它可以用来干嘛
    它可以就做这种ImageNet的这种识别
    然后我们可以理解它里边的每一步
    它是怎么做的
    然后它是如何一步一步的
    变成了一个猫和狗
    然后这个猫和狗
    它的这个结构是怎么产生的啊
    就ImageNet的识别
    它算是白盒还是黑盒
    就我们还没有发现
    它的工作原理是什么
    我们还没有完全发现它的工作原理
    但是我们之前
    比如从Matthew Zeiler和Rob Fergus
    他们做的一些早期的Visualization
    后期又有很多的研究者
    他们做的这些Visualization就是观测嘛
    可视化还是有一定理解
    但是没有人能够创造出来这样的一个模型
    然后每一步我们都可以理解
    然后他还能工作的不错
    所以我觉得可能这目标就分阶段
    第一步
    我们先解释这个ImageNet是怎么工作的
    这个谜底揭开以后
    我们可以再来解释
    比如说一些小模型是怎么工作的
    就像用GPT-4去解释
    GPT-2是怎么工作的
    然后再慢慢的来解释
    这个大模型是怎么工作的
    对 所以这个过程
    我觉得还是有相当的一个过程的
    而且
    也需要更多的人来投入到这个方向上
    因为毕竟工程上面的话
    现在主要是进展
    所以导致大部分的工作也就集中在这
    那么如果我们放到学校来做的话
    那你其实需要有一些
    原创性的一些想法
    而不是说你去scale
    我也去scale
    那大家都是scale
    那最后其实是没有区分度
    就看谁的机器最好了
    和谁的数据最多了
    那倒也是对
    那接下来
    我想跟你讨论一下你博士后的导师
    Yann LeCun
    在开头的部分其实我没有介绍过Yann
    但是我还是想给不太了解的听众
    来去介绍一下
    Yann的背景
    Yann他的中文名字叫做Yann LeCun
    是一名法国计算机科学家
    那因为他在深度神经网络
    概念和工程上的突破
    他和Geoffrey Hinton以及Yoshua Bengio一起
    获得了2018年的计算机学界最高奖项图灵奖
    他们三个人呢
    被称为是深度学习三巨头
    可以理解成
    现在我们在人工智能上的巨大突破
    跟他们的科学研究成果
    跟他们的推动是有很大的关系的
    Yann在2013年
    他是成为了
    Facebook人工智能研究院的第一任主任
    当时Facebook是专门为了他
    在纽约成立了一个研究院
    现在呢他还是Meta AI的首席科学家
    可不可以给我们不懂技术的朋友
    稍微解释一下
    Yann主要的科学研究成果
    跟他为什么这么知名
    Yann LeCun他相当于从80年代的时候
    就开始研究神经网络
    AI这个领域
    它经过了很多次的高峰和低谷
    高峰低谷也有不同的学派出现衰落
    Yann的话
    他从早年他就选定了这样的一个方向
    他坚持深度学习网络
    他相信这个一定能做成
    不管他的高峰低谷
    他走过黑暗的人
    所以也就是说
    他们经过了当年2,000年的时候
    但因为有不同的学派起来
    然后衰落
    在2,000年的时候
    曾经有一个非常有意思的一个小故事
    他们发文章的时候
    你会发现非常的困难
    困难到什么程度呢
    如果你的文章里边存在neuro这个词
    就神经
    或者说你存在network这个词之一的话
    你的被拒稿的概率就很大了
    但是如果你存在neural network的话
    基本就一定会被拒稿
    所以当时对于他们来讲
    是一个至暗时刻
    对吧
    但是他们那个时候可能经费也受影响
    但是他们能在这种黑暗当中
    他们能坚持不放弃
    最后能走出这个黑暗
    一直坚持他们所相信的这条道路
    到今天
    神经深度网络也确实改变了世界
    对吧
    我觉得这个其实也是他们得图灵奖
    对他们当年早期作为前期的先锋
    的一种记忆吧
    嗯对
    我对你的个人经历也挺感兴趣的
    就比如说我知道
    其实你在博士后的时候
    你是选了Yann LeCun的组
    你当时是为什么会选他的组
    这是一个比较有意思的奇遇
    我当时其实挺迷茫的
    我甚至没有想过那个学期去毕业
    因为我当时觉得
    我在博士的工作其实没有做好
    当时我博士
    当时的决心是说
    我在博士期间
    就要做出一个白盒的模型
    而且要和AlexNet它的性能要可比
    当时我觉得就差一点
    我就想好
    那我再拖一拖再毕业
    但是呢我那年去开NeurIPS嘛
    反正也在温哥华
    然后同学们就说
    你做博士后
    反正也是做
    做博士也是做
    你也不用说
    非得说博士把所有东西都做完
    他们说嗯
    你不如就这个学期毕业
    我同学他们说的对吧
    就是那年很有意思
    很多事情都不是我自己决定的
    我以前事情都是我自己决定
    那一年我感觉我是在被推的
    很多啊
    基本上就是他们说什么哎
    我想一想有也有道理
    然后我就好
    我就那时候决定毕业
    然后决定毕业10天
    基本就把毕业论文写完
    当时我就想
    那要毕业的话我要找博士后
    那要找博士后的话我去找谁呢
    我本来想的是给别人发邮件
    同学他们说你都在NeurIPS在开会
    大家都在这开会呢
    你为什么不当面聊呢
    我觉得很有道理啊
    那对
    然后我就当时去当面去聊
    当时我想到的
    其实第一个想到的人是Eero Simoncelli
    如果你这么看的话
    他有点像是一个东海岸的
    我的导师这个风格
    我们在西海岸嘛
    Eero Simoncelli也是
    计算神经科学领域的一个领军人物
    他在东海岸那边
    所以我第一开始想到的是他
    但是他那一年呢
    刚好他要去有个Simons foundation
    就是James Simons开创了一个Simons foundation
    是一个研究机构
    他要去那个地方
    去筹建
    他们的一个计算神经科学的研究所
    他就非常忙
    然后我其实跟他聊也没有聊出来一个
    说要约meeting
    约一些会啊
    然后我们也聊一聊
    聊挺好但是也没有得到一个结论
    对吧是不是要一起工作呀等等的
    然后在会场上就碰到了Yann
    那我当时想的话是说
    大家肯定都想找Yann去做博后嘛
    我不想是
    我其实不是特别投机的一个人
    所以当时碰到他的时候
    我其实主要想的是聊一下
    他对我工作的一些看法
    以及对未来方向的上的一些
    大家可以谈一谈这个观点嘛
    比较有意思的时候
    当时在会上聊
    聊的又非常好
    当时哎觉得非常的
    至少我们相信的这种方向
    以及我想的一些问题呢
    他曾经也都想过
    只不过是从neural network
    就是从这种神经网络的这个角度来想
    这些问题
    以及最终追求的一些方向的话
    我觉得也很切合
    所以当时他就问我招postdoc
    你有没有兴趣申请一下
    那我说那我当然申请了
    那所以就是当时就是这样一拍即合啊
    有意思
    所以我最后博士后也就只申请了他
    Yann是一个什么样风格的导师
    他是属于非常多的
    给学生自由空间探索的
    还是属于
    他其实就是实地上来跟大家一起讨论
    帮忙很多的
    首先是后者的话
    他现在这个情况下已经不可能了
    他现在太忙了
    我觉得这个事情比较多
    指的他太忙了
    是比如说Mata那边的事情很多
    研究的事情也很多
    嗯当你变得很有名的时候啊
    你自然就变忙了
    很多人都需要他的时间
    从这个角度来讲
    他能够分给每一个人的时间
    也相对来讲就没有那么多
    我觉得Yann呢
    相对来讲呢
    我认为是相当放羊的
    他其实和我的博士的导师相似
    就说在一些大面上是非常放羊的
    但是
    我认为他们有另外一点相似的事情
    就是说对于他们所相信的事情呢
    他们会有坚持
    就是他可能会给你说往这个方向走
    那么具体怎么走
    你走哪条小路
    你是乘船还是乘车
    这都没有关系
    但是这个大的方向
    我认为他会有自己的一些品味吧
    我会觉得
    另一方面呢
    我认为他对不同问题的直觉
    还是非常不错的
    其实他会给你指一个大方向
    他不会去控制这些细节
    然后我们会有一个比较大的一个愿景
    或者说一个目标吧
    mission在这个mission下面
    那我们就会要坚持的沿这个方向走
    嗯它的大方向是什么
    其实很多年也没有变过
    让他想什么实际上是非常透明的
    因为他会出去给不同的地方给演讲
    然后他讲的这些东西
    基本上都是他坚持的这个大方向
    在过去的这些年里面
    我觉得他坚持的这个方向
    一直是自监督学习
    然后自监督学习的话
    其实分两部分
    一个部分是我做感知
    感知上面的话我可以做自监督
    但是更重要的一点的话是
    当有具身的时候
    我如何用具身的方式来做自监督
    或者我们现在给它一个名字
    叫做世界模型
    world model
    我认为这是他believe in的一个方向
    这个名字呢
    其实还是我安利给他
    但是因为我当时读了David Ha
    和Jurgen Schmidhuber的那篇文章
    然后他们起了一个名字叫world model
    然后我觉得这个名字挺酷的
    虽然是一个传统的想法
    就是以前也有这种model
    predictive control啊
    然后forward model啊
    就是有各种各样的名字
    对吧但是这个world model我感觉挺酷的
    所以我们当时强烈的安利了一波
    嗯你觉得样它的研究方向跟脉络
    跟OpenAI的这一套
    Anthropic的这一套会有什么不一样吗
    如果说真要说什么不一样的话
    我觉得Yann可能想要的是模型
    它需要有几件事情
    第一件事情
    它要有具身的能力
    我觉得他要是可以在这个世界里
    不是只是堆数据
    而是说这个模型
    最终
    他可能会可以自己去探索这个世界
    这个有什么不一样呢
    大家都希望最终达到这样的一个结果
    但是你如果说看它的执行的方式的话
    我觉得每一个地方它执行的时候
    它的最坚持的
    我其实觉得是
    比如说在OpenAI
    我认为它是scaling law
    对对对
    对吧就是我认为
    这个其实是OpenAI一直做的比较
    相对来讲是他们做的很对的一个东西
    那我要更多的数据
    更好的数据
    然后更多的计算
    更大的模型
    更真正的模型
    对吧
    基本上坚持这个对于Yann来讲的话
    它其实还是比较科学化的
    他会说如果我们想真正通向
    比较像人这种level的智能的话
    那你到底需要什么
    而不是说我就把数据给你堆上去
    只是做这样的事情
    那我可能会觉得只是堆数据是不够的
    这是它的不同点
    所以它其实也是相当于你说的
    黑盒白盒
    一起研究就是它
    对对
    对于Yann来讲的话
    甚至我认为它没有那么在意这个
    是否它发展成一门科学
    目前我认为它的观点是
    它还停留在经验性和工程上面
    然后让这个系统可以工作的更好
    我认为这个的话
    在短期之内是会走的比较快的
    对吧
    也是他其实一直非常擅长的一个东西
    因为当年其实在开会的时候
    在会场上他就会带着他当年做的剪辑

  • E161_聊聊大模型如何思考与深度学习科学家Yann LeCun(4)

    神经网络去授给别人看
    你看这个可以做数字的识别啊等等的
    他其实很擅长这个工程的
    这种让这个系统可以工作起来
    嗯对
    我好奇的是
    在OpenAI证明了scaling law
    可以达到很好的效果的时候
    你觉得让他在科研方法跟他的思维上
    他会有转变吗
    还是他非常坚持的还是原路线
    我其实觉得他并不反对scaling law

    就更多的数据
    更好的数据和更多的计算
    我觉得大家在这件事上并没有冲突
    但真正的可能分歧就是说
    比如说在OpenAI
    很多工作其实还是要以产品为导向的
    对不对
    一样的研究组来讲
    我其实觉得OpenAI的很多东西
    一个是工程上执行的极致
    另外一方面也是产品上的一些突破
    对 比如说对话的形式的最先的引入
    对这个
    还是需要一点商业上的天才
    来做这样事情
    然后我觉得对于yann自己的组呢
    它其实更是一个科学形式的一个组
    他想这些问题的时候
    想的就是
    里面不太涉及到产品的这些问题
    他只想的只有一个问题
    就是说我怎么能实现这样的智能对吧
    那到底是需要什么
    因为他在这个领域已经太久了
    已经不像是我们
    我们进入这个领域
    其实也有一段时间了
    对吧 但是他八几年的时候
    就在这个领域在深耕了
    所以他可能看这些问题的时候
    他还是坚持自己的理想
    说我怎么能获得更强的
    像他看到的这种方式
    来让这个智能的能力提升
    嗯对
    你刚刚一个说的是
    Yann这个智能自主的学习
    这是第一个观点
    就是Yann他的一些大方向啊
    其他的还有一些方向是什么
    对还有一个方向的话
    Yann一直相信的一个东西呢
    我其实觉得这个是一个有意思的问题
    这个问题就是说
    他一直在谈的是JEPA
    joint embedding Predictive Architecture
    这个结构呢
    它其实表示一个观点
    就是说我当然要有具身能力对吧
    我当然要有自主学习的能力
    但是比这个更重要的一点呢
    是说它其实不仅仅是一个压缩的一个问题
    他是当你在学习数据的时候
    你是希望把数据中的一些
    比较高层次的一些规律
    学习出来
    那就是两派
    一派是说那好
    我学到的这些东西
    我要能够对数据进行完全的重建
    你可以认为是一个挺压缩的一个思路
    但是Yann说的这个东西呢
    他认为说他说数据中呢
    所具有一些高层次的规律呢
    你不希望它完全的
    去回到这个图像当中
    因为你如果要还能重建这个图像的话
    你就带有了太多的细节
    而这些细节
    并不是对你的这个系统做判断的时候
    最重要的一些信息
    所以在这点上的话
    我认为是他也一直在坚持的一个东西

    这点他跟你伯克利的导师马毅
    老师的观点是不一样的吗
    我其实觉得我严格来讲啊
    他们是很好的朋友
    OK所以我其实觉得
    这个观点上并没有本质的冲突
    只不过是表述的方式
    我自己看这个问题的话
    比如马老师觉得
    这个世界的规律是简洁的
    让你觉得说这些细节
    其实对你做下游的这个任务
    或者做一些很多的判断是不利的
    所以你要把那些高层次的规律找到
    但如果你仔细想
    这两个东西实际上是一样的
    对吧因为高层次的规律它是简洁的
    但只是说当我们想这个问题的时候
    我们可以把这个
    完全看成一个压缩问题
    对吧
    马老师经常说所有的东西都是压缩
    如果你拿一样的这个观点来看的话
    你会发现哎
    没错所有的东西都是压缩
    但是呢这个数据的
    它的这种层次的结构有不同
    对吧因为是现实世界是复杂的
    那么现实世界
    如果你深入到这些细节里边
    你会发现有大量的东西
    它其实是低层次的一些结构
    不是说这些规律不存在
    只是说这些规律呢
    并不像我们人类
    比如说咱们人类知识的高峰
    就像万有引力
    对吧
    我们找到的这样万有引力的几个公式
    可以基本上在我们可观测的范围内啊
    都是对的
    或者说
    在我们常规的物理的可观测范围
    都是对的
    那这个可能只是很小的一段信息
    但是如果我们去看外面的
    这个森林的树叶的样子的话
    那它这里边很多的结构是局部的
    那这些局部的是什么意思呢
    当我们在谈压缩的时候
    数据中有结构
    任何存在结构的东西
    都是从噪声偏离的
    一个反应
    就说完全没有结构的东西就是噪声
    任何离开噪声你就是有结构了
    对吧然后我们要学习的本质
    要学习这些结构
    但结构有不同的层次
    低层次的话
    比如地毯它的样式
    当你上升这个层次
    在更大的一个尺度的时候
    你会发现这个东西呢
    这个结构其实已经不重要了
    它甚至已经没有更高级的结构了
    那它在那个层次来看的话
    这些东西就已经变成相对来讲
    像噪声一样的东西了
    所以样的一个观点是说
    我们需要有这样一个层次化的学习
    能学习出来越来越高的几个结构
    所以我如果我们做压缩的话
    就对我们做出了一个挑战
    我们要压缩式
    没错我们要学习信号中所有的结构
    不同层次的结构
    但是最高级的结构呢
    它往往对于压缩的整个的
    所占的这个比啊
    它不大
    在优化的过程中可能会丢失对吧
    就是因为你大量的东西
    都是在低层次的
    这些像噪声一样的东西
    这个信息量是最大的
    越往上走
    越往上走
    越往上走
    就越难发现这样的结果
    为什么呢
    因为在你的优化的lost function
    就是你的目标函数里面
    你找到这个规律和找不到这个规律
    可能对你的lost影响不大
    我觉得主要就是这么几点吧
    他一个是对这种世界模型
    一个是对于这种层次化的表示
    你觉得他们身上有哪些特质
    是特别打动你的
    我觉得他们身上特别打动我的特质呢
    可能就是他们做事情的那种
    专注和纯粹吧
    对因为我跟Yann有一次吃午饭
    然后我觉得我们聊一个事情
    我觉得他说的一句话很有意思
    他说
    你们在年轻时候想要的所有的东西
    我都有了
    但是我已经没有太多时间了
    所以他只能用自己剩下的时间
    做自己真正相信的事情
    啊我觉得
    当你跟这样的一些科学家工作的时候
    你可能会被他们身上的这种气质
    所影响以至于你
    即便你还没有达到
    他们现在所在的这个地位
    以及他们所拥有的这些东西之前
    你也能以他们的视角来看待这个世界一点
    所以你在做选择或做事情的时候
    你可能会超出你现在
    完全你所在的这个位置
    可能会想一些哎
    我如果我有一天也都像他一样
    全都拥有了
    以后我会做什么
    对吧 那这样的话
    你在选择一些研究的问题的时候
    以及事业的这种方向的时候
    你可能会被他们的这种气质
    经过长时间的这种气质所影响
    我觉得这个可能是
    我觉得收获挺大的一个东西

    所以他有改变你的哪些决定吗
    有啊他会让我做很多的选择的时候
    会想到这个事情
    其实这点的话
    我在读PhD的时候
    就读博士的时候也会被我的导师影响
    本身他们几个人都是朋友
    对所以就是学术圈子很小
    对学术圈子很小
    那他们以前也是有合作
    那么我读PhD的时候
    第一天其实我的导师
    他讲了两件事情
    他说希望你不用发很多的文章
    哎后来他不承认这件事情了
    哈哈哈对对对
    就是出不来结果
    还是要说对
    他后来我跟别人讲的时候他也在场
    我说他说不需要我发很多的文章
    他说他没说过这个
    但是他有一个他承认他说过
    他就说他希望你能发出来这种文章
    能够穿越时间
    就是说在20年以后
    看到这篇文章依然不旧啊
    我后来觉得这个很难
    因为很多的工作
    他带有鲜明的时代感
    但是真正一些深邃的思想
    他可能穿越了100年
    穿越了几十年
    他依然看起来还不是很老
    那这样是高质量的工作
    那你那个20年还不旧的工作
    那至少是能推动人类往前前进20年的
    一年补救就是推动人类前进一年
    对这个是一个很高的目标
    而且短期无法被验证
    只有在你退休的时候
    他可能才能被验证
    当你快要退休的时候
    我们才能重新审视这个人
    但是他至少提出了一个灵魂的拷问
    对吧就是你能否坚持去做一些
    能够与时间共存的工作
    我觉得这个要求很高
    第二个是呢
    他希望说
    一个学者应该具有自己的一种态度
    如果你觉得一件事情呢
    是a可以做
    b可以做
    c可以做
    你也可以做
    你就不要做
    就说当你做这件事情的时候
    你会发现并不是这个工作需要你
    而是你需要这个工作
    这是一种投机的心态
    就是我其实觉得他们身上有相似的
    这种气质
    就可能就是说他希望你做一点
    不要随大流
    能有自己的态度
    寻找到自己的一些voice的一些东西
    所以在你在选这些研究的方向的时候
    你也会自己时不时的判断一下
    我现在做的这个工作
    到底是一个投机的
    还是一个真正的中流砥柱的工作
    对吧
    有的时候你还是会做一些投机的工作
    但是你自己心里要有一个判断
    对我觉得这个就是独立思考
    且坚持自己的热爱

    而且就是说我觉得他们尤其是像Yann
    他们比较伟大的一点
    就是说
    你可以穿越这种几乎是绝望的过程中
    然后迎来曙光
    因为我觉得没有经历过低谷的人
    沉淀的可能还是不够
    当你经过至暗时刻
    你还能走出
    在至暗时刻没有改变方向
    走出来
    当然你不是说不撞南墙不回头
    就是完全错了
    而是说你
    你的眼光可以穿越短期的这个时间
    你可能真正有一些坚持的东西
    而且你是证明他是对的
    我觉得这个是挺有意思的
    一种气质

    有哪些Yann在科学上的看法
    是你不同意的吗
    比如说Yann的观点
    会有点挺鲜明的一些特点
    他有的时候会铁口直断
    比如说最近他有可能说
    如果你是PhD的话
    那你就不应该研究大语言模型
    那他认为什么阶段应该研究啊

    他就是说你如果作为一个研究者的话
    你在读博士的话
    就不应该研究这个东西
    这他有很多种理解
    从他字面上意思理解的话
    你就会很多人就会不同意
    就包括我可能会觉得哎
    大语言模型
    可能它里面有一些结构
    是值得被理解的
    去研究一下的
    当然他可能他真正想说的
    我有的时候听他的这个话
    他背后想说的可能是
    你不要去做就像刚才说的这种
    a可以做
    b可以做
    c也可以做这种投机性的工作
    而是说你真正有自己的一点坚持
    找到一些比较原创性的贡献
    如果是这样的说的话
    我其实觉得我会更同意一些
    但是我其实觉得
    有的时候他表达的是这种意思
    可是呢由于他是大v
    如果说这个
    所以认同他的理念
    不认同他的表达话术
    他有的时候这个话讲出来会吓你一跳
    嗯 什么意思 对吧
    很可爱很可爱
    对我觉得这是他比较有意思的地方
    但是他有话题性
    这样的好处是说大家看完了这个以后
    大家觉得哎
    你就瞎说
    然后然后我觉得挺好玩的啊
    嗯对
    因为你也在Meta工作过嘛
    你觉得Yann对Meta最大的贡献
    在哪几块

    Yann对Meta最大的贡献
    我觉得首先它应该算是帮助
    筹建了Meta AI
    当时他筹建Meta AI的时候
    首先是Mark找到了他
    第二个是说他自己也有一个理想
    因为他早年是贝尔实验室的
    他很向往
    当年的贝尔实验室的那个状态
    所以他其实想在Meta
    在工业复制这样的一个

    他秉承这样的一个理念做了Meta AI
    也招了一批非常不错的人
    结果呢
    其实也是给这个领域做了很大的贡献
    我认为
    这个可能是他真正比较大的一个贡献
    在Meta AI然后借助这样的一个平台呢
    把这样的一个理念给贯彻出去
    这也是他现在
    推动整个领域发展的一个方式
    如果你只是自己一个人研究的话
    可能不如能搭一个摊子
    然后让大家这些聪明的人一起
    在这样的一个框架下一起推动
    一起玩
    嗯OK
    对我觉得
    开源
    应该也算是他的很重要的一个贡献
    比如说Meta Llama
    之所以走了开源的路线
    跟整个样的思想应该也是非常一致的

    对这个说开元的话
    我认为这是样所坚持的
    至于将来在商业上
    因为商业上他总是有一些竞争嘛
    这条理想主义的道路到底还能走多远
    我也不知道
    将来Meta是不是会一直开源下去
    就是所有的东西都开源
    还是说因为毕竟Meta也会面临竞争
    它作为一个公司来讲
    它要发展的话
    它会面临它那个层面的竞争
    比如OpenAI啊
    Google啊什么
    这些公司的竞争
    那在这样的一个竞争情况下
    你是否还能以一个比较现实的方式
    一直坚持这种开源的这种理念
    我其实不知道
    但是我觉得这是Yann的一个理念
    最终能执行到多好
    能走多远
    其实也要看整个的这个群体community
    它的发展吧
    嗯那你觉得现在整个大模型的研究
    它是一个必须是一个科学家驱动的吗
    还是
    它会慢慢变成一个工程驱动的事情
    我觉得它已经变成一个工程驱动
    早期是科学家驱动的
    对就是当东西它不太work的时候
    就是它还不太好用的时候
    这个就它没有做出来的时候
    它是科学家驱动的
    对你需要有一些belief
    就是说你要有一些坚持
    但是在过去的这些年里面
    我感觉这一两年里面
    我觉得主要的这个进展
    都来自于工程的执行
    执行的极致程度对吧
    数据的质量是不是变高了
    数据是不是变多了
    它的distribution是不是变丰富了
    计算是不是能够并行
    就一个一个的
    这种工程的非常重要的细节导致的

    就感觉现在大家都是在做优化
    早期从0到1的时候
    是科学家在带着大家
    从无到有去创造这件事情
    对他的发展吗
    他前期是从0到1
    他需要这种突破性
    然后从1到100
    他其实需要工程的严格性和执行能力
    他也是不同人在不同阶段
    他的角色的变化
    反正要让他发展的话
    可能需要不同角色的人一起来推动
    那大家现在都在期待GPT5
    你觉得如果GPT5就是
    下一个这样
    非常大规模的大模型出来了
    它更多是一个科学问题
    还是一个工程问题呢
    我觉得工程上面可走的路是很远的
    还是有相当的一段路可走的
    甚至我们可以认为Scaling Law
    他有相当的路可走
    他完全没有到尽头
    就是数据
    还有很多数据
    还有很多算力
    还有很多算力可以扩展
    那你的数据的质量
    以前大家光说量
    其实质也很重要
    这些我觉得都能走相当的一段时间
    但是我认为不够的
    Scaling Law肯定不是it’s not enough
    就我们这很多
    现在大家喜欢说的是什么
    is all you need
    我觉得更好的一个方式
    我们都觉得是什么东西is not enough
    即便我们现在找到了最robust
    最鲁棒的一条路
    就像Scaling Law这样的东西
    我认为it’s not enough
    那么我们还需要什么呢
    我其实觉得需要的就是类人的
    这样的efficiency
    就是这样的高效的效率
    那这个效率如何实现这样的一个效率
    那么有可能是数据出发
    有可能是data追问的
    对吧完全是数据驱动的
    但也可能是还有其他的一些东西
    所以我觉得

  • E161_聊聊大模型如何思考与深度学习科学家Yann LeCun(1)

    欢迎收听硅谷101
    我是泓君
    从ChatGPT到特斯拉V12自动驾驶
    神秘的大模型
    一次又一次的在工程界
    给人们带来惊喜
    当人们输入一个数据
    大模型就能直接输出一个答案
    但整个中间过程是怎么样的
    没有人知道
    我们把这个过程称为黑盒
    也正是因为黑盒的不可解释性
    所以AI的安全问题
    在当下受到了很多大佬的质疑
    有一群科学家
    他们在尝试去解开这些秘密
    业内呢称之为白盒研究
    今天我们邀请到了
    加州大学戴维斯分校的助理教授
    陈羽北
    他博士师从加州大学伯克利分校
    计算机神经科学家Bruno Olshausen
    博士后呢
    师从纽约大学的深度学习专家
    Yann LeCun教授
    也是2018年的图灵奖得主
    被业内称为卷积网络之父
    同时他也是Meta的首席科学家
    今天我们就来和羽北聊一下
    黑盒模型的拆箱进展
    以及与之相对的白盒模型
    也许不用所有的人都了解黑盒的秘密
    但是总要有人打开它
    hello羽北你好
    你好
    然后今天跟你聊这个话题呢
    其实我主要是想聊一聊白盒模型
    所以你现在是在研究这一块
    这个方向
    其实它的一个比较大的目标
    就是把我们现在看到的这种深度学习
    从一门纯经验性学科
    向一个科学学科来推动
    或者说工程变成科学
    其实主要的一个动力
    是来自于这种工程上的一些进展
    而它的科学发展相对来讲又缓慢
    嗯对
    那在你自己做这个白盒模型研究的过程中
    你有没有发现一些
    我们怎么去解释GPT它的输入输出
    它到底是怎么推动
    已经出来的一些研究成果
    我自己的工作呢
    早期做过一些
    以前有一个模型叫做词的嵌入吧
    Embedding
    他可以学到一些语言的一些表征
    大家当时其实就有一个疑问说 哎
    我们做任务的这些性能变好了
    可是是什么导致这个性能变好了
    所以我们当时做过了
    一个非常早期的一个工作
    就尝试打开词汇的这些表示
    当你把它打开的时候
    你会发现一些很有意思的现象
    比如说苹果
    苹果这个词
    苹果这个词
    它有一个机器学习出来的一个表示
    当你把它打开的时候
    你会发现
    你可以找到里面的一些元意思
    比如其中的一个意思
    可能就是代表一个水果的一个意思
    然后另外一个意思呢
    它代表甜点的一个意思
    然后你再往下挖下去
    你会找到
    哎 有一个意思是技术和产品
    那当然
    它就指的是现在这个苹果公司的
    这些iPhone啊
    这些产品
    所以你会发现在所有的这些意思里边
    你能找到这些元意思
    那么顺着这条路呢
    你就可以去把这样的方法
    延伸到大语言模型里边
    当我们学完一个大语言模型以后
    我们也可以尝试
    在这种大语言模型里面
    去寻找它里面所带有的一些元意思
    然后尝试去打开
    当你做这些事情的时候
    你会发现
    哦一个大语言模型它有很多层嘛
    在初级的这些层里面
    它会出现一个现象
    是说词语的消歧
    比如说像在英文里面有个词叫做left
    left这个词呢
    它既有可以当做是向左转的这个意思
    也可以说我离开的一个过去式
    那么具体它是什么意思呢
    在当前这个语境下呢
    要取决于前后的这种上下文
    所以它语言模型你会发现
    它在初期的几层里面
    它就把这个词语的消歧就做了
    在中期呢
    你会发现有一些新的意思也可以产生
    当时我们觉得很好玩的一个意思是
    它就做一件事情
    它就做单位转换
    一旦你说多少的公里变成英里
    这个转换
    然后一旦你说多少的温度
    从f就是华氏变成摄氏度的时候
    它就会被激活
    就是这个意思会被打开
    所以当时我们觉得这就很有意思
    你可以顺着这个路
    找到很多相似级别的这种元意思
    然后你可以再往上走
    再往上走的时候
    你甚至会发现有一些这个元意思
    它只检测一种规律
    这种规律就是说
    当你的这个上下文里面
    出现了一个重复的一句话的时候
    或者重复的一个意思的时候
    他就会被激活
    比如说在星空联盟的这个广播里面
    当你说广播播放了两遍
    你就发现这个意思他被激活了
    然后或者说你说在歌词里边
    我重复了一句歌词
    他也会被激活
    所以就说
    你会用这样的方式
    可以去打开大语言模型
    以及小语言模型
    对吧那么当然这些思路呢
    也并不完全是新的
    它在视觉的模型里边
    其实已经有相当的历史了
    就比如说从Matthew Zeiler开始
    就是有一些这样的探索
    那顺着这个思路
    是不是
    如果我们知道了它部分是怎么运作的
    我们可以从工程上对它有很多的优化
    对这个是一个非常非常好的问题
    我其实觉得理解的比较高的标准
    或者是说做任何的理论
    它的一个比较高的要求
    是可以指导实践
    所以在我们当时做这种语言模型啊
    还有词汇的表征的时候
    其实当时也有一个目标
    就是说当我们理解以后
    我们能不能反过来优化这些模型
    其实是可以的
    就比如说举个例子
    如果你在这种大语言模型里面
    你找到的一个元意思
    这个元意思
    可能当它看到某一种元意思的时候
    它就会激活那这个东西
    它这一个神经元
    它就可以被作为一个判别器
    你就可以用这个东西来做一些任务
    当你找到了这么多元意思以后呢
    你可以通过对这些元意思的改变
    改变之后呢
    你就会说
    我这个模型
    以前他有一些这样的一个bias
    或者说这样的一个偏见
    然后
    你可以通过对这些偏见的一些调整
    如果我能发现它的话
    那我可以调整它
    最近Anthropic他们做了一个工作
    他们能找到这种语言模型
    里边的一些可能存在的一些偏见
    然后对它进行一些改变
    可能是可以使这个模型
    变得更加的公平
    更加的安全
    然后我看到去年open AI
    它还有一项研究
    它的那项研究
    就是用GPT-4去解释GPT-2
    看GPT-2到底是怎么工作的
    比如说GPT-2的神经元
    在回答所有跟美国历史
    1800年前后的事情的时候
    是第5行的第12个神经元会被激活
    再回答中文的时候
    是第12行的第13个神经元会被激活
    那如果说
    我们把它回答中文的这个神经元
    关闭的话
    它对中文的那个理解能力
    就会大幅的下降
    包括我们去看
    它说到跟加拿大有关的信息的时候
    就是第21排的这个神经元
    但是我们就看它越往后的这个神经元
    比如说它的神经元
    到了2,000排左右的时候
    那它整个的可信度就已经下降了很多
    你有没有观察到这样一篇论文
    具体这些数字
    我好像没有读到这篇文章
    不过这个方法呢
    我觉得
    其实你如果要仔细想这件事情的话
    它非常像是给大脑的神经元做手术
    就是相当于
    我现在如果有了一个神经的网络
    如果这些网络的它的意思
    从某种意义上
    它能找到一个局部的一个存在的话
    对吧它不是完全分散的
    然后它是相对能够找到这个意思的话
    那么我就可以相对来讲
    对它进行一些操作
    比如说我把这个神经元切掉了
    那你就可以认为它这块的能力
    相对来讲就损失掉了
    就是人其实也是一样的
    就比如说人如果是有癫痫
    然后有的时候做完手术了以后
    可能会出现某一些语言的一些障碍
    对吧但是其他的功能不受损失多少
    我觉得是从原理上看起来是相似的
    嗯OK
    那你觉得你的研究跟OpenAI
    包括Anthropic它们
    大家都在研究这个大模型的可解释性
    它们之间有什么区别呢
    就说白盒模型的研究呢
    是否我们将来能成功
    这件事情我不知道
    因为在这件事情上
    实际上我也跟我的导师
    我们也都讨论过
    大家一致的看法呢
    是说这件事值得尝试
    但是是否会成功
    我们都不知道
    如果我们回到这块的话
    我们其实是想理解这个人工智能
    并且通过我们的理解重构它
    对吧
    构建出来一些从根本上不一样的东西
    那么观测就是说从解释性
    这个我觉得只是一种手段
    就说打开这种模型也好
    我做这些实验也好
    我尝试去根据我打开的这些东西
    来对我的这些模型进行一些调整也好
    我认为这都是我们在理解过程中
    所谓的一些尝试的一些手段
    但是我觉得真正重要的一个
    白盒模型的
    它的本质呢
    实际上要回到这个信号的本身
    因为不管是人脑也好
    还是机器也好
    他们学习的本质呢
    是因为这种信号
    我们这个世界中存在一些结构
    他们也要通过这些结构来进行学习
    学的也正是这些结构
    那么我们是否可以找到这些结构
    背后的规律
    以及表示他们的一些数学工具
    然后把这些东西进行重组
    构建出来一个不一样的模型
    如果这件事可以完成的话
    我想可能可以带来的一个期望是说
    我们可能会提高
    我们的系统的鲁棒性也好
    安全性也好
    可信度也好
    但是还有一点
    其实我觉得是
    如果我们看历史的话
    最重要的一点可能它的efficiency
    也就是说它的效率会提高
    就是这个例子
    多少有点像是一个
    以前
    我们一开始是这种蒸汽机先出来了
    后来的才有了这些热力学
    这种理论出来了
    才能支撑
    把它从一门完全的工匠的学科
    变成了一门科学
    同理到今天来讲的话
    我们现在就好像我们第一次在数据上
    有了我们的蒸汽机一样
    我们从以前不理解我们的数据
    终于可以开始做出来
    一些AI的这些算法
    把数据中的规律给抓出来
    所以它会更节能
    你要说到节能的话
    我可以给你几个有意思的例子
    第一个是说肯定是节能
    因为大脑呢
    它相当于一个
    基本上20瓦功耗的一个灯泡
    那我们现在的超级计算机呢
    它可能要超过百万瓦
    那它这样的一个功耗
    首先这是节能对吧
    第二点是说
    如果我们看自然界的
    各种各样的这种生物
    大自然进行演化的时候
    它演化出来的这个生物
    它其实效率非常非常的高
    比如说我们举个例子
    像有一种生物叫做jumping Spider
    它是一种特殊的蜘蛛
    这个蜘蛛它只有几百万个神经元
    但是你如果看它的
    在世界中的这些行走的话
    它其实是可以做出非常复杂的
    三维的曲线
    去捕捉它的猎物
    比如你在一个很复杂的一个草丛
    然后这边是它的猎物
    它可能要分析整个的结构
    然后它发现哦
    我应该先从这下去
    然后再走这块
    走过来再上去
    对吧它要能理解这种三维的结构的
    然后到达它的猎物
    那它有这么强的这个能力
    还要控制自己的话
    它只有几百万个神经元
    那么我其实觉得最有意思
    最有意思的一件事呢
    实际上是人对于数据使用的效率
    我觉得这个很有意思
    你看我们现在AI
    在过去其实不长的时间
    对吧就是大概也就12年这个样子
    12年是从哪一年开始的
    呃 14年吧
    我们就我觉得从ImageNet
    我觉得可以作为一个分水岭
    因为ImageNet
    多少可以认为是一次对数据scaling
    大范围的一次尝试
    就是数据
    对对对对
    对是的

    很多人说把AI的发展的这个年
    断到叫AlexNet
    就是AlexNet出来那一年
    也就是说ImageNet
    它的性能提高上去了
    但是我其实更倾向于看到的是说
    在这之前
    2010年的时候
    这个数据其实从原来的小数据
    变成大数据了
    这个是一个分水岭
    那么在这短短的十几年里面
    它取得的进展其实是巨大的
    到今天来讲
    我们的这种大语言模型
    比如说Llama3
    我印象中
    它现在可能也变得数据量更大了
    这应该是13万亿的这个TOKEN
    但是如果你想人在自己的一生当中
    就在你成年之前
    你到底能接受多少的数据呢
    不管是图片也好
    还是文字也好
    我认为比较神奇的
    这个数字呢
    是10亿
    就是你假想这样
    我每秒钟都可以获得30帧图像
    那么这30帧图像的话
    你一个小时有3,600秒
    你每天假设你这样做12个小时
    然后你做20年
    那你得到的大概就是10亿
    同样的话
    我可以不间断的在做阅读对吧
    我每秒钟我可以阅读30个TOKEN
    大概10个词这个样子
    那我阅读也是像刚才那样
    阅读20年的话
    我得到的也是10个billing
    那问题来了
    就是说
    人是如何通过如此少量的一个数据
    看似少量的数据
    跟大模型比是已经很少了
    对吧
    这样的一个数据
    获得如此强的一个泛化的能力呢
    我觉得这又是一个efficiency里面
    最让我觉得神奇的一点
    嗯那你觉得
    我们去揭开大模型到底是怎么运作的
    跟揭开人脑是怎么运作的
    哪个更难
    我听起来都很难
    这两者他各有各的难法
    我觉得他们方法上是相似的
    对吧就是不管是人脑也好
    大语言模型也好
    我都是哎
    我尝试去观测他
    看他对什么产生了响应
    这个方法我其实觉得从David Hubel和Torsten Wiesel就是
    当时他们得诺贝尔生理学奖
    他们是研究在视觉皮层里边的
    这种叫做simple cell
    就是人的这种视觉皮层
    大概就是在后脑的时候这个地方
    然后从眼睛过来
    经过中间
    然后再传到后边的这个颞叶
    他们找到了这样的这种simple cell
    并且尝试研究人看到什么东西的时候
    这些神经元会产生冲动
    然后他就可以分析
    我让你看不同的东西
    看你有的时候
    完全不响应
    有的时候呢
    他非常高兴这个神经元
    然后呢我就想知道
    你看到什么东西能
    让他兴奋
    他们就找到了这个神经元的receptive field
    那我们今天来研究
    这种大语言模型的话
    其实也是相似的
    我们来找这种不同的输入
    让我们的大语言模型
    那我们尝试理解它内部的哪些神经元
    是对哪些输入感兴趣
    对吧其实是相似
    只不过它有个区别
    第一个区别呢
    我认为是对于大语言模型
    我们的优势是
    我们其实所有东西我们都可以观测
    并不是受限于我们的观测手段
    对于人脑呢
    你就有很多的受限手段
    你以前是可以插一个电极
    然后后来呢
    你可以插一个电极
    上面可变成12个电极
    再后来呢
    转到脑机接口的那一套是吧
    对对对是的
    然后现在你可以
    比如插上几百个这样的
    上千个的这种
    但是你毕竟你的观测手段是受限的
    不管你是用fMRI
    还是用不同的这种Neuropixel啊
    这种侵入式的
    非侵入式的
    他们各有各的局限
    所以大语言模型给你一个天然的好处
    就是说你的观测手段不再受限了
    如果你有更好的方法
    你就可以尝试去分析
    甚至你还可以
    整个模型还是可微的
    对吧你可以通过一些微分的方法
    进一步的分析
    但他的缺点是大语言模型的能力呢
    我认为还远远不及大脑
    尤其是这种大语言模型
    如果我们给他一个例子的话
    他只从这种语言里面来学习这个世界
    他的对世界是理解是不完整的
    就好像是说一个人
    他没有了其他的感官
    只有语言
    大脑处理的是更多维的信号 对不对
    它除了语言还有嗅觉
    非常多维

    听觉

    就是说它的这种感官的丰富的程度
    它对世界的理解呢
    很多的时候
    甚至有的时候我们可能会想一个问题
    就是说语言是否是完备的
    如果没有其他感官的支撑的话
    语言里边是不是所有的概念
    都可以独立的存在

  • E161_聊聊大模型如何思考与深度学习科学家Yann LeCun(2)

    还是说他一定需要其他感官作为支撑
    你才有可能说来
    最终理解那一部分的意思
    就比如说举个例子
    我说在语言里边
    我可以说哎
    冰箱这个东西呢
    你如果不和现实的这种世界构成一个
    这种冷热呀等等的
    当然你可以通过冷热的这种方法
    它有门的这个东西来描述这个冰箱
    通过它这种统计特征
    但也许这种描述永远是不完备的
    但具体是不是完备的
    我也不知道
    我感觉是不完备
    但是我也没有办法
    去把它完全的用数学证明
    所以说
    其实现在整个大模型跟大脑相比
    它还是欠缺非常非常多层的
    但是因为我们可以看见的更多
    可以把它拆开来研究
    所以我综合你的观点
    就你觉得
    它还是会比揭开大脑的秘密的
    这个野心
    稍微更近一步的
    嗯理解大语言模型
    它的难度当然就在于你观测的手段多
    你可能能对它理解的更加多一点
    我的感觉是这样
    对吧有两台机器
    一台机器你完全可观测
    一台机器部分可观测
    那我从直觉上来讲
    是一些完全可观测的
    这台机器更容易被理解
    当然他有一些能力是这台机没有
    所以不能取代对人脑的一些理解
    对我跟听众简单介绍一下
    羽北之前是学neuroscience的
    所以
    也是懂非常多神经科学相关的知识
    其实我挺好奇
    就是你觉得之前你学的这个学科背景
    包括我们对整个神经科学的研究
    对现在你来做AI方向的研究
    会有什么帮助吗
    或者说会不会有一些跨学科
    可以相互借鉴的研究方法在里面
    对 我学过一些计算神经科学
    但是我是个半吊子
    我其实
    一直也不是专业学计算神经科学的
    我本科的时候在清华电子系
    在伯克利的时候
    其实也是电子工程计算机系
    然后还有一些纯数学的一些背景
    然后呢
    我当时我所在的那个研究的研究所
    他是一个理论神经科学的一个研究所
    所以我导师自己是计算神经科学的专家
    那么刚才的这个问题
    说计算神经科学也好
    神经科学也好
    对于我们研究AI有什么不一样的帮助
    我的感觉是说
    对于我来讲的话
    这种帮助呢
    通常来讲是一种启发
    因为当你知道自然界的这些系统
    有的时候
    你知道它可以做到什么的时候
    或者是它面临的一些情况
    是什么样的时候
    你可能会有不一样的想法
    会重新看待我们眼前的这个问题
    我可以举几个例子
    这几个例子很好玩
    就是说我们现在习以为常的一张图片
    这张图片的话
    它是一个像二维的一个输入信号
    它有很多的Pixel像素
    这个像素呢
    它会分有横向的
    有纵向的
    然后它形成一个网格
    但如果我们看人眼的话
    你看人眼的视网膜的话
    它不是长这样的
    首先
    它的这种不同的感知的这种接受器
    感受器是以非常密集
    但又不是非常规则的方式排布的
    而且它中间非常的细密
    向两边的时候会变得稀疏
    当时你面对这样的一个输入信号的时候
    你会想首先一个问题
    说我们习以为常的这些卷积
    神经网络什么的
    这些东西
    所有的这些东西都失效了
    因为连卷积在这里都没有定义
    所以当你看到生物系统
    它所面临的这样的一种情况的话
    你会重新去想
    我们所谓的这些卷积到底从何而来
    所以你会重新去想
    你的方法是不是对的
    是不是一定要以这种方式来实现
    对假设你第二天你醒来的时候
    所有的神经元都打乱了
    然后你还能再去理解这个世界吗
    就是你因为你已经看到的
    已经不再是一张图片了
    你也不能再用卷积
    神经网络来做这件事情了
    那你怎么去理解这个世界呢
    你需要什么样的方法
    其实还是可以的
    我们没有完全解决这个问题
    但是我觉得做了一步
    挺有意思的
    这个是怎么做的呢
    你就可以说哎
    虽然我的所有的神经元都打乱了
    就是我们的感受器
    图像里面的这些像素打乱了
    可是相邻的这些像素呢
    它们有一些关系
    比如说我们看图像里面的话
    我会发现如果一个像素是红的
    那周围的像素也更可能是红的
    这是它们统计上的一些关系
    那么通过这种关系呢
    你就可以去让这些像素
    他们重新去找朋友
    然后你就可以把相似的这种像素呢
    让自己自组织成一些关系这样东西
    然后这个时候
    你再加上我们的大语言模型的
    这里面的这种Transformer啊
    这样的结构
    你就可以重新的
    对这种图像做出一个表示
    而且这个表示的最后
    它的性能还不错
    这个就是一个具体的一个例子
    就是说完全是从一个自然的一个启发
    那我们重新去审视
    我们现在一些工程上的一些做法
    然后提出来一些不同的方法
    嗯对
    感觉整个研究AI大模型
    跟看人脑跟神经科学是怎么运作的
    还是有很多相似之处的
    我好奇会有神经科学家
    从他们的这个角度来研究
    跟你们产生这种跨领域的合作的吗
    其实有很多的神经科学家
    以及统计学家
    然后数学家
    他们想要理解自然信号中的一些结构
    同时呢也会关注大脑中的神经元
    他们是如何运作的
    然后把这两者结合在一起
    尝试去提出一些极简的
    对于信号的一些表示
    举个例子
    就是说在大脑里面啊
    你会发现有一个现象
    就是说这个神经元虽然很多
    但是同一时间在工作的这些神经元
    就是兴奋的
    这些神经元他其实是非常非常的稀疏
    也就是说比如我给你100万个神经元
    可能几千个他们在工作
    那么这里面的问题是说
    那他们到底学了一个什么东西
    其实早年的时候
    神经科学这边就提出来一个方法
    就是我当时导师他们参与研究
    这个工作
    叫做稀疏编码
    那么稀疏编码
    当然它不仅仅是一个
    神经学方面的一些看法
    同时它在统计学家也在同期
    在提相似的一些思路
    也就是说在这种高位信号中
    那么我们能不能找出一些稀疏的
    低维的一些表示
    从这样的思路出发呢
    你就构建出来这个算法
    他也会学出一个一个神经元的
    他的表示
    然后你会惊奇的发现
    你学出来的这个表示呢
    他和你在大脑里面观测到的
    这些神经元的
    这些表示呢
    非常非常的相近
    所以这个是当时计算
    神经科学的一个早期的
    算是无监督的一个成功吧
    我觉得照今天来讲的话
    我们的整个的这一支
    我管它一个名字
    叫做自然统计信号的研究
    叫做natural signal statistics
    它的目标就是
    揭示信号背后的一些基本结构
    它的发展其实相对来讲挺慢的
    你会和这种大模型它的进展来看的话
    你会发现大模型的进展非常非常快
    但相比之下呢
    这种白盒模型啊
    这类的神经科学结合
    它相对来讲走的慢一些
    我其实觉得一方面呢
    可能是因为问题复杂
    但另一方面
    也是因为投入这个方向的人比较少
    简单来说
    就是研究白盒模型的人太少了
    但是像我们之前研究的
    比如说传统的机器学习的这种算法
    线性回归决策术等
    我们都可以理解它是白盒模型
    简单来说在大模型出现以前
    我可不可以理解成整个
    传统的机器学习
    它可能就是属于白盒模型的范畴
    我觉得这个说法可以认为是对的
    就是说以前的这些机器学习的模型
    相对简单
    你都相对来讲可以理解
    它们类似于现在我们看到的这些大模型
    包括扩散模型
    它们其实是可以算作
    属于是黑盒模型的
    为什么说现在整个的黑盒模型
    看起来它在研究跟进展
    甚至在表现跟大家的观感上

    白盒模型实现了一个弯道超车
    就为什么它会降维打击
    对对对对对
    为什么它的速度可以快这么多
    这个问题你问出来
    我们就先是紧张一下对吧
    然后再回答
    那么为什么紧张这个问题
    就是因为它很尖锐
    其实这个问题就是说
    那是不是白盒模型
    或者说可以理解的这条路径
    我们应该放弃了呢
    就说我们是不是在AI的研究上
    从我们这个时代开始
    我们已经不再研究科学了
    就说它从以后
    全都变成一个经验性学科呢
    我觉得还不是
    但如果你回到你刚才这个问题
    说到底发生了什么
    在这个过程中
    为什么现在这种黑盒模型往前跑的快
    而白盒模型跑的不够快
    那我认为首先一点呢
    就是说黑盒模型的包袱少
    你既要这个方法可以工作
    可以work
    然后你同时又要这个方法可以解释
    你有两条要求
    啊那它放弃了一条哎
    放弃了一条我可以让它工作
    那这一条是一个非常非常重要的一条
    第二一个我认为一个很大的一个
    被大家所忽视
    相对来讲
    甚至
    被很多科学家所忽视的一个东西呢
    我认为是数据的幂式增长
    或者说规模扩大
    那么我认为这个在过去的十几年来讲
    甚至有一个
    我记得Richard Sutton写了一篇博客文章
    它就讲叫做一个痛苦的教训
    它里面提到了一个事情
    就是说在过去的20年里面
    有一个一直没有被打破的一个东西
    就是说当我们有更多的数据
    当我们有更多的计算
    你总是应该找一些
    比较能够真正扩张的算法
    它能够把所有的数据的这种规律
    找进来我认为这个是黑盒模型里边
    或者说我们现在的经验性的这种进展
    里边很大的一条
    就是说我们有更大的数据
    更好的数据
    更多的计算
    更大的模型
    然后我就能学的更多
    但是我们回到这个问题的话
    你可以想白盒模型
    你说这个里面大家有一个追求
    是说我想要做出来这个模型呢
    它要简洁性
    然后他要这个模型本身要简洁
    为什么白盒模型要简洁性
    我是不是可以理解成如果他过于复杂
    你们要在中间加的东西会更多
    然后他就很难被设计
    对我其实觉得做理论
    你可以只有简洁的东西才可以被理解
    对吧你肯定是要做一次一次的简化
    但是呢如果你考虑到
    这种scaling law这件事情的话
    你会有一个问题
    就是说
    当我们在追求模型的简洁性的时候
    可能会做了一次又一次的
    在英文里面叫做oversimplification
    过度简化
    就是一旦你出现这种过度简化的话
    你的模型就无法完全的
    刻画数据的形态
    那么数据更多的时候
    你的模型就更无法刻画它的形态
    那你就会出现
    将来这个模型就走不下去了
    它的能力会被限制住
    所以我认为
    这是以前大家在研究白盒模型
    在研究简单模型
    相对来讲面临的一个困难
    我不仅仅要带着那个包袱
    我这个模型需要工作
    同时我还需要它可解释
    同时我还需要它简洁
    当你把所有这些东西带上
    你会发现这个包袱太重
    有点走不动
    然后你会引入错误
    对吧当你做过度简化的时候
    你就引入了错误
    错误会积累
    再后来就走不动了
    嗯但是现在黑盒模型发展的很快了
    然后我们又开始尝试去解决它
    对这次如果我们在解决它的时候
    你可能就会重新来审视这个问题
    就说我们不一定需要让这个模型
    完全的简化
    到那个程度
    它还是能够表示这个世界
    比较复杂的一面
    但是你还是要知道
    我们的包袱还是很重要
    希望它工作
    同时希望它还是比较可以理解的
    那么还是希望它有相对来讲简化
    所以我认为
    如果有一天
    我们可以做到白盒模型的话
    那么在此之前呢
    我认为每一次的尝试
    都是一次过度的简化
    但是我们希望每一次简化呢
    每走一步都往前走
    我们甚至不需要
    完全做出一个白盒模型
    也许我们可以做出一个白盒的
    但是没有大模型那么强的模型
    但是也很强
    做到一个相对来讲不错的模型
    但同时它又相对来讲
    非常简洁
    非常简化
    同时还要保证功能

    部分功能
    部分功能
    部分功能
    那它对于我们理解学习背后的本质
    是有帮助的
    同时这种理解可能能反过来
    又让我们对大模型的训练什么的
    它的效率又会上去
    因为我们要回到这个效率这个问题
    这个也是我跟Yann之前讨论过几次的事情
    就说如果我们发展这个背后的理论
    最后我们就可能可以
    让我们的工程的这种实践呢
    它以数量级的方式效率上升
    嗯所以Yann LeCun他的观点是什么
    他是更希望发展白盒模型
    还是黑盒模型
    如果是在我看来的话
    我跟Yann聊过这个事情
    我认为Yann他是一个科学家
    但同时呢
    他是一个以工程方面
    所著成的一个科学家
    所以他的很多的尝试呢
    还是要走第一步
    要让这个东西工作起来
    但是作为白盒模型的话
    我认为这件事情是一样支持
    但是他也不知道能不能走通的一个方向
    比如说我跟他讨论完
    他会觉得这条路值得探索
    但是是否能实现呢
    他也不知道
    就一个过于有野心的目标
    呃总要有人做的吧
    是的是的是的
    而且感觉白盒模型
    就像你说的黑盒模型
    它是一个类似于工程问题
    白盒模型
    它是一个科学
    你必须用科学解释它
    感觉它对商业化或者应用它
    在你真正能出成果以前
    它看起来投入产出比不是那么高
    但是呢
    如果你最终能做出来这个东西
    我觉得对AI的安全性
    包括我们说最终对应到它的商业化
    还是很有价值的
    对商业化这件事情
    其实我认为所有做基础AI研究的人
    首先他工作的初衷
    不是以任何的应用为初衷
    它是一个对于智能这个问题
    一个比较纯粹的一个好奇心来驱动的
    紧接着你可能会发现
    它有一些应用在这个之上
    比如说这中间的一些过程
    你所发现的一些规律
    它反过来可能能帮到你在工程的实践
    但你由于这个研究本身
    它并不是为某一种应用所设计的
    所以它并不是一个那种直接的关系
    举一个例子
    那你正常来讲做无监督学习的话
    你可能会需要训练很多个
    就是他训练一遍
    一遍一遍
    那我们现在就可以问
    一个比较疯狂的问题
    就说我们能不能所有的数据只看一遍
    能学多少是多少
    那么这个时候你会怎么办
    如果你这时候不知道学习的背后的
    他的一些基本的一个原理的话
    那你可能就不容易
    达到一个比较高的效率
    我们当时也做过一些这样的尝试
    你会发现
    其实当你知道背后他在学什么的时候
    你是有可能数据只看一遍
    然后也学的非常好的
    虽然他没有完全把这个区别消除
    但是他其实可以比你正常
    不了解这个原理的话
    他的效率高了很多很多
    他的区别是很大的
    还有一点的话
    我认为说
    当我们在追求这种白盒模型
    这个过程中
    还是极致的这种效率的过程中的话
    你会回来追问这个问题
    就是说我们现在做的这个大语言模型
    是不是只通过这种规模化或者scaling law
    这一条路走下去就可以了
    我认为其实还是不是的
    因为人
    他其实做不到接受这么大量的数据
    那如何用少量的数据
    还能获得比较高的泛化能力
    这个也是我们在研究的
    一个重要的问题
    我觉得这个也是黑盒模型的学者
    在研究的一个事情

    大家都在研究
    是 那现在白盒模型
    它有哪些学者跟流派
    在研究这个事情呢
    白盒模型的话
    我其实觉得就是看AI的三股力量
    第一股力量的话

  • E160_重新理解信息茧房_为何科学研究与我们主观感受相反_(5)

    所以短视频平台
    图文平台在如今其实就解决了这个问题
    因为我在抖音上我看到这个博主他说的好
    他这个信息帮到了我
    我会点赞
    留言关注
    甚至还会转发
    对于他来讲
    其实他为我赋能的同时
    我在反向为他赋能
    这形成了一个新的正向循环
    所以社交媒体用作搜索引擎
    我觉得是非常好的一件事情
    但这里面又提出了一个新的要求
    就你怎么能辨别这些信息的真伪
    这里面其实是我觉得挺棘手的一个事儿
    当然这个辨别性真伪的
    我觉得是一个多责任主体的事情
    首先从政策段对于所谓的信息它的质量的把控
    然后第二个是平台端
    第三是网红经济
    它的创作者主体的自律
    第四才是我们的媒介素养
    我举个例子
    比如说之前猫一杯
    他告诉我们秦朗丢了作业本在法国
    然后出现了各种各样的这个事情
    在这个事情出现的时候
    我个人作为一个可能网红经济的研究者
    我大概能够猜测出这是编的
    但是我不可能公开来说这个事儿
    因为我没有任何的直接证据
    在没有直接证据的前提下
    我觉得公开来讲这个事儿可能是不太合适
    后来我们发现
    经过公权力的调查证明了他是假的
    这时候我们会发现
    首先政策端是有一个可以做的事儿
    那平台端也有可以做的事儿
    就在这个事情出现没几天
    应该是五月底
    抖音就出现了一个热点内容的核实机制的公告
    就是所谓的这种剧本演绎内容
    如果你是没有注明你是演绎的
    你当一个真事发了
    那这个我就要惩罚你
    结果没几天有一个整容医生
    就是姓陶
    他就说自己怎么做手术
    怎么​‌​‌​​‌‌​​‌‌​​‌‌​‌‌​​​‌‌‌‌​‌‌‌​‌​​‌‌​​‌‌‌​‌‌​​‌‌​​​‌​​‌‌‌‌​‌​​‌‌‌‌​‌​​‌‌​‌​‌‌‌​‌​​‌‌‌‌​‌‌‌‌​​​‌‌‌‌‌‌​​‌‌‌​‌‌‌‌​‌​‌​‌​​‌‌‌‌‌‌​​‌‌​​​‌​​‌‌​​‌‌‌‌​‌‌​​‌‌‌​‌​​​‌​​‌‌​​​‌​​‌‌‌​​‌‌‌​‌​‌​‌​​‌‌‌​​‌​​‌‌​‌‌​​​‌‌‌‌‌​​​‌‌‌​‌‌​​‌‌‌​‌‌‌‌​‌‌‌‌‌​​‌‌‌‌​‌‌‌​‌​‌‌‌​​‌‌​​‌‌​​‌‌​​‌‌‌‌​‌‌‌​‌​​‌‌​​‌‌‌‌​‌‌‌​‌​​‌‌‌​​‌​​‌‌​​​‌​​‌‌‌​‌‌​​‌‌​​‌‌​​‌‌‌‌​‌‌‌​‌‌‌‌‌​​‌‌‌‌​‌​​‌‌‌​​‌‌‌​‌​‌‌‌​​‌‌‌‌​‌‌‌​‌‌‌​‌‌‌​‌‌‌‌​​​‌‌​‌‌‌​​‌‌​​​‌​​‌‌‌‌‌​​​‌‌​‌‌​​​‌‌​‌‌‌​​‌‌‌‌‌​​​‌‌​‌‌‌‌‌​‌‌‌​‌​​‌‌‌‌​‌‌‌​‌‌​‌‌​​‌‌​‌​‌‌‌​‌‌​​‌‌‌​‌​‌​‌​​‌‌‌‌‌​​​‌‌‌‌​‌​​‌‌​​‌‌‌‌​‌​‌​‌‌‌​‌‌‌​‌‌‌​‌​‌‌​​​‌‌‌​‌‌‌‌​‌​​‌‌‌‌​‌​‌​‌‌‌​‌​​‌‌‌‌​‌​‌‌‌‌‌​‌‌​​‌‌‌​‌​‌​‌​​‌‌​‌​‌‌‌​‌‌​​‌‌‌​‌‌‌​‌‌‌​‌‌‌​‌​​‌‌‌‌​‌​​‌‌‌​​‌‌‌​‌​​‌‌​​‌‌‌​​‌​​‌‌‌‌​‌​​‌‌‌​‌‌‌‌​‌​‌​‌‌‌​‌​‌‌‌‌‌​‌​‌‌‌‌‌​‌‌‌​‌‌‌​‌‌​​‌‌‌​‌‌​‌‌​​‌‌‌‌​‌‌‌​‌‌‌​‌‌‌​‌‌‌​‌‌‌​‌​​‌‌​​‌‌​​‌‌​​‌‌​​‌‌‌‌​‌​​‌‌​​‌‌​‌​‌‌‌​‌‌​‌‌‌‌​‌​‌‌‌​​‌‌‌‌​‌‌‌​‌‌​‌‌‌‌​‌‌​‌‌‌‌​‌‌‌​‌​​‌‌‌‌​‌‌‌​‌‌‌‌‌​​‌‌‌‌‌​​​‌‌‌​‌‌‌‌​‌‌‌​‌‌‌​‌‌‌​‌‌‌​‌‌​​‌​​‌‌​‌​‌‌‌​‌​‌‌‌​​‌‌​‌‌​​​‌‌‌‌​‌‌‌​‌​‌‌‌​​‌‌‌‌‌​​​‌‌​‌​‌​​‌‌‌‌​‌​​‌‌‌​‌‌‌‌​‌‌​‌‌‌‌​‌‌​​‌‌‌​‌​‌‌‌‌‌​‌‌​‌‌‌‌​‌‌​‌‌‌‌​‌‌‌‌‌​​‌‌‌‌‌‌​​‌‌​‌‌‌​​‌‌‌​‌‌‌‌​‌‌​‌‌‌‌​‌‌​​‌​​‌‌​​‌‌​​‌‌‌​​‌​​‌‌‌​​‌​​‌‌​‌​‌‌‌​‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌着这还挺感动
    拍的结果就是虚假的摆拍
    好像是被平台无限期封建了
    那再往前今年年初还有什么丈夫背着妻子送外卖
    妻子知道之后又骂又爱之类的
    然后家里有个摄像头
    就是家庭摄像头是万能的是吧
    就是开始摆拍
    说什么送外卖什么这事儿后来也被证明是假的
    然后他也被应该是也是抖音被封号了
    所以平台在这里面也在行使他的权利和责任
    除此之外
    用户能够做的
    其实我觉得有两点
    第一点是在你看到一个新闻
    如果这个新闻非常触动你的情绪的时候
    并且这个新闻让你觉得非常不可思议的时候
    那这时候你要静下来想一想
    它是否真的会发生了
    这是第一件事情
    为什么要说这件事情呢
    因为我觉得现在的社交媒体中的信息是高度情绪导向的
    很多博主在试图去做你的嘴替
    试图说出你不知道怎么说的话
    试图让你梦想中的事情成真
    这个时候我们就要明白一个东西
    就是它到底是制作出来的
    还是真实自然发生的那如果我们的情绪被点燃了
    那这时候我们需要的其实不是猛烈的转发
    点赞
    关注
    这些你当然可以做
    但是之前你要做的第二件事可能就是信息核查
    比如说这件事情有没有被多个主体在共同的去发表
    那其中这些主体当中有没有官媒
    那官媒是怎么样来说的
    比如说他说的那个人能不能去把他的信息源给他挖掘到
    如果这件事情对你来讲是重要的话
    我觉得这些事是值得去做的
    而大部分的信息你在做了这些事情之后
    你会拥有一个更平衡的理解
    当然如果你没有时间去做这些事儿
    我觉得在社交媒体时代
    你提高你的媒介素养需要做的一个最简单的事儿就是等待
    换句话来讲就是让子弹再飞一会儿
    你会发现反转几乎是一个常态
    而非个例了
    其实我们在互联网的信息上
    我觉得还有一点就是大家可能怎么样关注哪些博主
    如何去选择自己的关注信息源
    就也挺重要的
    就说到这儿
    你有什么你自己特别倾向于关注的博主吗
    你有什么相对你的标准存在吗
    我觉得其实现在就是我做播客以后
    我获取信息的方式发生了挺多的改变
    第一个改变是我看书的时间反而变多了
    第二类变多就是我看新闻弹窗
    比如说搜狐
    网易或者美国的这种apple news
    google news
    只看这种每天的短新闻变多了
    就是只看当天发生了什么事儿
    同时我的邮箱会有一个美国的
    有点类似于微信公号的这个订阅
    是邮箱订阅吗
    然后我订阅纽约时报
    华尔街日报the information加一些稍微垂直一类的媒体
    我觉得基本上这些信息就构成了我能跟进我当天关注的一些热点事件的一个基本的信息需求
    我觉得这就是你的媒体套餐对对对
    在有了这样的一个媒体套餐以后
    比如说像TikTok
    抖音
    小红书
    youtube这些东西就变成了我的搜索平台了
    他们对我来说是一个搜索工具
    然后另外就比如说我在研究AI的时候
    我就会去看AI领域的一些顶级学者的一些twitter
    然后我会在他们的关注列表里面去看他们关注了谁啊
    但你要小心
    有人会说你陷入信息茧房
    你都通过关注链接来去找
    是这样的
    对我就我自己而言
    比如说具体一点
    比如说我在用社交媒体的时候
    抖音对我的意义是什么
    我举个例子
    我觉得两个意义
    第一抖音是我非常重要的娱乐的工具
    就是我特别喜欢看那些20分钟讲一电影
    40分钟讲一个电视剧
    因为我没有时间看电影和电视剧
    所以我把它转化为一种对于剧情理解的一种非常便捷的娱乐方式
    另外一个抖音对我的意义是优惠券
    因为我发现好多优惠券还挺值的
    比如吃饭的时候找个套餐
    这可能是我对于抖音的使用
    还有一点就是搜索
    就比如我印象中我之前做过一个视频是关于中国音乐产业的
    然后我想对于中国音乐产业的在平台社会中的一种新的发展趋势
    我想有一个了解
    我想知道音乐人会怎么去评价这个事儿
    在抖音一搜就能搜一堆
    这是一点
    但是如果我要去想看更严肃跟长篇的东西的话
    我觉得阅读仍然也是不可替代的
    所以可能我会订阅一些公众号
    这可能对我来讲是这方面的一个需求
    微博对我来讲就是一个我碎碎念的地方
    我很少用微博获取信息
    除了社会热点事件我会看一看之外
    但是微博更多是我一个输出我自己的观点和想法
    还有生活的一个地方
    其实我也会在不断的调节
    这个调节其实我个人认为没有什么对错
    就是我很不愿意去教育大家什么应该怎么用
    这个不重要
    就是什么怎么用是没有人可以规定的
    但是你用什么平台完成什么目的
    是你应该具有高度的自主性和在你的控制范围之内的
    这个其实是更重要的事情
    然后由此说白了
    我想再补充一个我觉得特别逗的一事儿
    就是我个人越来越感觉大家太在乎什么热点事件了
    大部分的热点事件当下吵的跟热肴似的
    我不知道这能不能听懂
    就北京话就是方言了
    吵得非常激烈
    全网都在看这事儿
    比如说如今那个女孩儿应该叫姜平是吧
    就那个所谓的数学天才
    大家会吵的各种各样的证据
    但是请注意
    全部都是间接性的证据和推测
    在炒的如火如荼
    但是一年之后你会发现这其实并不是一件很重要的事情
    我们往往会被这种热点在不断的刺激当下的情绪
    来去花费很多的时间
    但是其实他并没有那么重要
    或者换句话来讲