但是跟我刚才说的数据是有关系的
因为深度学习从2012年开始
发生了一件什么事情呢
就是2012之前所有的计算机科学
包括那些所谓的传统人工智能的
这些领域
就我说的这些传统的agent
传统的这些自然源处理
它的核心点都是人来写算法
有个说法叫有多人工就有多智能嘛
就都是因为人工智能有多智能
背后就有多少人
这个人工是什么呢
这个人工就是我们码农对吧我是
我是这样的
我从我可能从小学开始我就开始写代码
就是我们这帮马农在后面
就是每一件事都得用代码去写
但2012年开始了
其实第一个就是叫AlexNet
就他做一件事
就是把我刚才说的
这两个传统的人工智能的领域
一个叫机器学习
一个叫神经网络
这两个合在一起形成一个叫深度学习
然后呢他的核心点就是
我现在不靠码农这个一行
一行人工的敲代码了
我现在就是弄一大堆的数据
当时要做很多标注
然后我去用一个训练算法
就那个时候
AlexNet那段时间就叫卷积神经网络
那个时候那一波最然后呢
你看数据这边
就是李飞飞当时弄了一个叫ImageNet
当然还有一个叫算力
算力其实有个华人叫吴恩达
其实他贡献最大
因为他的算力第一次用了GPU
随之三个东西结合在一起
算法就AlexNet
然后数据当时有个ImageNet
然后算例
这三个加在一起
可以称之为人工智能三要素嘛
但是加在一起就发生了一次大爆炸
爆炸之后
就把我们之前所有计算机科学
包括人工智能
所谓传统人工智能做的事情
全都给颠覆掉了
就是现在我不用写代码了
我就出来一个叫做黑盒子
就是一个模型
但是这个黑盒子的效果
反而比以前我们一行型的代码
敲出来白盒子的模型还要好
还要精准
错误率还更低
那唯一的就是
它可能可解释性会差一些
因为它是黑盒子嘛
这个事现在也研究了一个方向
但是我们先不讨论这个
这里面最核心的点
就该说三要素
三要素里面其实最核心的点就是数据
就现在变成一个
从2012年开始
整个的这趟浪潮变成一个
我们可以称之为叫数据定义
就是所有事情都是从数据开始
那是第一波
然后到了2020年左右吧
GPT3开始的时候
它其实应用数据定义的
应用第一次
把我们以前人类积累下来这么多
电子书也好
Wikipedia Reddit知乎
全都作为数据这样输进去完
我训练出来一个这么大规模参数量的
这么一个
然后它实现的功能
也比我们之前用一堆的
这叫自然语言处理算法
因为自然语言处理
应用个人工智能领域
传统自然语言处理的这些
都被颠覆掉了
都被这个大语言模型训练出来的
这么一个大黑盒子
把这些那么多的教授做自然语言处理的
以前做的所有的这些成果
都可以把它给超越了
所以这个是核心点
就是来来回回
我们其实想说的一件事情
就是
在今天我们已经完全不能绕开数据了
就是在互联网时代
我们在做创业
做Uber的时候再做创业
最早在做雅虎的时候
我们都知道
数据实际是它的一个结果嘛
它是产生出来的
因为我一旦有互联网的这个运营啊
用户的这些行为之后
我就会产生数据
但是我在创业的那一天
我可能不会想说
我是不是只能拿着数据才能开始创业
但在今天其实就要突破这个认知了
就回到我刚才说的
我们就有两条线了
一方面我们把互联网产品要做好
但一方面
我们要把数据这条线要做的非常扎实
什么样的数据是有用的
这是个非常好的问题
这其实就是整个人工智能浪潮里面
不断的回答你的问题
其实上他就实现Scaling Law的问题
就是他在不断地寻找有用的数据
就有用的数据
其实要打引号就是它
其实这个定义是在变化的
你像在AlexNet出现之前
我们市场是有大量的图片的
但那时候是用不上的
就是我用这些数据去训练
我也不能去收敛
为什么
因为我的算法没有到
就没有AlexNet的这样的训练算法出现
就是我刚才说
结合这种深度的
神经网络生成的机器学习的算法
Transformer的主要贡献是什么
对Transformer就是第二波了
Transformer就是说
他能把刚才说的这些语言的数据
能够训练进去
然后生成出来的
这样的一个语言处理的模型的
这个能力
超过了我之前的所有的自然语言处理的
这些算法
啊所以
其实Transformer它是替代自然语言的
把传统的基于自然语言的
这种rule based的白盒模型
替换成了黑盒模型
它是产生了一个这样有有意义的算法
它应用个算法
它这个算法
就是对于处理语言是最有能力的
你可以这么理解
但是传送门也至少经历两个阶段嘛
一个第一个阶段叫BERT
它其实是一个incode only的
然后到了GPT是个decode only
其实穿梭物也有两个阶段
到了decode only
其实又打开了一层在BERT这个阶段
它其实Scaling Law应用到了一个瓶颈了
其实我这些Reddit啊
Wikipedia啊其实都有的
但是在BERT这个技术路线的时候
其实我这些数据也不是都有用了
所以回到刚刚泓君说的
这其实有用
数据这个词应用一个在动态的
就是很多数据
我们今天看到的实际上是又是没用的
所以数据永远是不会枯竭的
这是我的一个理论
数据其实都在那
只不过刚开始都用不上
但是GPT出来以后
就把所有这些Wikipedia啊都能用上
电子书这第一次之前也用不上
CAA肯定是用不上这些数据的
BERT也用不上
这些数不是用不上
就是把它都灌进去之后
训练出来的模型
最后并不能完全收敛
所以他是看你的算法怎么样
就是数据
是依赖于你背后的一整套的算法的
算法来定义
我需要什么样的数据
跟这些数据需要什么样的标签
标签也很重要对不对
对所以在语言里面
它你可以理解成它是一个自监督
或者自标签
因为语言等于是前后再互相看
字更重要
所以图像是需要标签
对对对但现在不是Transformer
其实把图像也试图语言化
就是把它也向量化
也利用图像内部的这些语义去训练这
这是它的一个方向嘛
但是这还是一个尝试啊
这还是语言式
现在是最容易去scale的
它是最符合scale
但是这个中间其实你看我刚才就提到
包括像腾讯啊这些
他们有很多这种数据
其实现在很多数据并没有完全都能用上
是数据其实还是有很大的空间的
有用数据的范畴和定义
实际上还在扩展
但这个扩展的过程
就需要
你对算法的一个更进一步的迭代
嗯对
翟老师你觉得什么样算有用的数据
你们正好是做数据抓取的
对反正我刚听Jonathan讲
我也在想
就
我是很同意数据和application这两层的
因为人工智能嘛
说白了就是和人要很接近嘛
那这个是和之前的上一代AI
是不一样的嘛
那本代AI整个这个核心就跟人会很像
他的写出来东西啊
整个思维啊什么的
你会模拟的非常像
那你就想咱们人上网干什么
咱们人上网用互联网
用网页
其实所有的所有东西到最后就两件事
第一件事是读
第二件事就是写
读是什么呢
就是你从网上
比如说你看信息
听咱们硅谷101的播客
看陈茜的视频
所有这些东西其实就是一个事
就是你在从上面把数据抓取下来
那你第二件事你要做什么呢
就你有了这个信息之后
有些人可能说哎
那我要去做投资
有些人可能说哎
我要去trade某一支股票也好啊
或者说买什么一个产品
或者说我要去点一个button
click一个键
这是什么呢
这你就可以把它理解成一个应用层
它其实就在写那数据这一块
就是获取的一个过程
这些大量的数据
就像正确说数据是在那里的
但是对于很多
他要是做vertical
就是垂直领域的模型啊
或者垂直领域
应用的时候
他其实这个数据是获取非常困难的
因为这些所有的互联网上的
沧海一般的数据
打从有互联网那年开启
这东西就是给咱人去用的
所以当今天的机器去来学习它的时候
其实是有好多限制的
因为网上的每一个网站
它都是一个护城河基本上
比如有哪些限制
他会反抓取还是怎么样
就是反抓取是一个最基本的嘛
但是你想
当一个机器
去想获取某一个网页的信息
也就是数据的时候
才需要API
他需要一个API call
才能去获得这个网页上的数据
OK那他要没有这个API call的话
就像你说的泓君
我要去做一个
写一个script去抓取这个网页上的数据
但这个script是最费人的
写这个东西是一个非常累的
然后你获取前端的就网页上的数据
任何一个东西都是非常麻烦的一件事
咱们可以不去讲技术性的问题
但这东西但凡做爬虫的呀
都说这是没人愿意干的活
这是一个最脏最累的活
互联网里面的脏活
脏活累活
并且是永远是cover不到所有的
你永远干不完
那这个就是现在
在我看来
就是对于很多垂直领域也好啊
对什么机器学习也好啊
它是一个非常大的挑战
所以这就回到了跟Jonathan说
很多做的application的公司
他们的其实数据差不多的
他没有什么更特别的一个数据
跟这个大公司比
因为现在大家获取的数据的方式
是非常有限的
是基于上一
代的时候
人们获取数据的方式来获取的
这个是现在的一个很大的阻碍
所以
我们其实在解决的是这样一个问题
对这个非常从投资人角度
Keith做的这件事情
我们其实都会放在这个叫infra
这个层面
因为你们其实也会在support其他的
这些应用公司嘛
其实因为我现在问所有的应用公司
我是几个问题
第一个就是你有没有数据
第二点数据怎么获取
怎么抽取
怎么清洗
这其实每一步都是非常的昂贵
复杂的就是你肯定用大量的工具
当然很多现在很多公司强一点
比如OpenAI
他是有一套数据栈的团队
对他每一件事
都是可能一个巨大的团队去做的
大家都知道OpenAI可能随随便便获取
最后整出一套数据的成本
都是在几亿美金
这么一个谅解成本
这里面包括他的团队的开销
和他的所有这些工具的开销
对就很多公司
现在的话
小公司商业化之所以很难啊
是因为他没有什么一些特别的数据
像刚才Jonathan讲的
他很多的数据呢
也都是同类的数据
他呢顶多呢就是会从爬虫呢爬一些
就是一大块的非结构化数据
然后扔给这个语言模型嘛
然后剩下就还是做prompt
来让语言模型把这东西做的更好
技术含量实话讲都是很低的
它的整个上面相当于它底下那个饺子
我们包个饺子
饺子馅全都是模型
那上面的话我剥个皮就是特薄
那整个这个东西
这皮其实没什么价值
然后这个完全就是馅拌的不好吃了
但馅有别人的
你就剥个皮
这个价值是非常低的
所以基本现在是这样一个情况
当然就是除非短期
有一些做的比较好的
短期商业化做的好的呢
他解决的是个什么问题呢
就是AI或者语言模型
它解决的问题是生产效率的一个问题
那这些现在短期内很多
举个例子
有点抽象
呃语言模型解决的是生产效率
它其实在现在阶段下
它并没有取代所有人的能力
但它是大大提高了人的生产力
对对所以说
语言模型是在解决的是生产效率
其实互联网的本质应用解决效率问题
都是叫生产力工具
就是这个意思
但是呢现在大家呢
很多做这个的嘛
因为尤其是最开始
你去拿语言模型做个东西
哇这个一看就是做个demo
其实都好牛啊
感觉好了不起啊
那大家就误会了
就是有点把这个生产效率
就误解成这就是全部
其实不是全部的
你人还是要解决的是价值问题
AI没有办法解决你的这个价值问题
就是所谓的产品在市场上的一个定位
也好啊这个产品的价值在哪里
这东西是人来定位的
但是语言模型给人造成了一个幻觉
让人以为说它可以取代所有的东西
所以很多的产品它其实就是
所以你觉得产品方向很重要
这个产品到底是提升你的效率
还是取代人
这可能是根本上的两种产品
你用语言模型的时候
你可能在最开始的很长时间内
你会认为他可以取代人
这是语言模型给很多人造成的幻觉
也就像你还记得吗
去年不前年有个很有名的事
一个谷歌的工程师
他当时还闹了很大一个事
他认为是谷歌那个原模型
可以是个真人
他在跟这个原模型在沟通的时候
产生了这样的一个认知
说这是我在跟真人对话
但那会还跟谷歌闹出了很多的纠纷
所以说这个就语言模型
在你最开始使用的时候
你会认为它是万能的
它可以解决好多好多
你解决不了的问题
然后你就把它看到的这个点
你会把它以为是一个面
然后把它推广到一个范式上
你说这个都可以做
其实不能的
嗯
对你们觉得在这一轮的AI创业中
有哪些公司是做的非常好的
或者现在是非常赚钱的
美国这边当然比较典型的
像perplexity这种其实是比较有希望
其实是它从某种层
最符合我刚才说的这个定义
Perplexity它的底层是自己的模型
还是开始建立在其他模式
刚开始并不是
所以我的总体定义是说
有底座潜力和底座能力的应用公司
因为它是DeepMind的背景
所以他是有这个思维的
就是我从各种侧面渠道就知道
创始人
其实还是在跟各种做底座模型的人
去做很多的深入的交流
包括DeepMind
自身吧因为他本身就这个背景
所以他们是符合这个
他可以有几个step
他刚开始肯定也还是用就刚才
甚至就是套个壳儿
对吧我就有点像个GPTs
的就是就是我直接用API
靠多做些rag对吧
rag然后开始做微调
但我想它是到了一个层面
一定会自己做
因为again
它是要自己不断有自己的
这个数据的
叫custom data
就是私有数据嘛
它一旦不断的要积累自己私有数据
跟用户的这些
所以它可以用这数据再去做微调
但是它同时
它也应该把这些数据
去生成自己的一个底座
这是我的一个观点
我其实比较好奇这样的思就是
那你看perplexity
它在做相当于一个检索嘛
那和Google
比如说他要下场做同样的东西
或者说Microsoft用下场做同样的东西
比的话
对就是回到刚才那两条线嘛
我作为一个AI原生的一个应用公司
其实我有两个角色
第一个我是互联网产品
这做的非常的好
在这个层面
其实很多创业公司
甚至是大于这些模型公司对吧
或者大厂的对
因为你的视角不一样
很多确实从产品介入
刚开始可能我就是真的就套个壳儿
但是我的易用性
我的交互流畅性非常的好
所以用户一下就上来了
但这个是不表明你成功了
就像最早Jasper这种
它其实为什么当时比GPT用的好
其实它还是产品设计确实会更优
发表回复