或者直接拿原始的o1去做这个任务
会好很多
因为它的做法是
比如说我把操作电脑这件事情
分成几个简单的行为
比如点击鼠标
然后键盘输入
然后打开浏览器的一个新的tab
或者搜索谷歌
它把这些基本的行为定义起来
其实我们人使用电脑完成一个任务
尤其使用浏览器完成一个任务的时候
基本上是这些序列的一个动态组合
那么它就把这些序列的使用
作为思考过程的一部分
因为o1模型不是能思考吗
它就用强化学习的微调的方法
去微调这个思考的过程
使得它思考过程当中
不只是在大脑内部想一个步骤
而是真的把这些动作
也作为一个思考过程的
输出
然后一旦有一个动作发现了
它就会停止这个思考过程
然后去操作这个动作
然后看这个动作之后
返回的信息是什么
比如说网页呈现了什么信息
然后再拿回到它的这个思考过程来
然后继续思考
所以它相当于是把思考 执行 反馈
继续思考 这个环节
做成了一个连续的环节
而这个环节
以前在上一代
我说的基于大模型的agent里面
是只能通过人的workflow的定义
就是人对于工作流的定义
但是人定义出来的工作流
绝对是不灵活的
因为它没有办法假想
这个AI在做这个事情时候
环境会给它什么反馈
所以它往往是死板的不灵活的
那其实它是不智能的
从某种程度上来讲
所以这个是一个很大的变化
包括Deep Research也是这样的
就是你会看到它会先去检索
检索完了之后发现
有些东西回来跟我的信息假设不一样
那我可能要再去检索
或者说我要做一些冲突的解决
因为信息源之间
可能它的描述是冲突的
所以这个其实是把它的思考过程
和它在环境里面的行动的能力
再把从环境当中的反馈拿回来
继续思考的能力结合在一起
我觉得这是非常让人兴奋的
嗯
你刚刚提到的OpenAI的o1用电商订菜
应该是它是跟Instacart合作的对不对
对
我刚用的就是Instacart
对
Instacart
是有集成在OpenAI的Operator里面的
比如说你让它去
做一些订票的行为
它是把整个步骤分解成四步
比如说搜索 比价 选择 支付四个阶段
它其实也会分解
包括比如说
你真的要到信用卡的弹出环节了
它还是会有一个人工验证的环节
就是你觉得它这个agent的智能性
跟还是在做一个workflow
它的核心的区别点在哪里呢
这个是一个很好的问题
我觉得人类在做任何事情的时候
其实都有一定的workflow
比方说点餐
就是先要打开网页
然后看 然后比较
但是和我们上一代
我指的是说像我们之前做的那种agents
或者说是像Coze这样的agents
里面的一个巨大的差别是
上一代的agent
需要你把每一步都告诉它
而且是它的步骤其实是跟环境
甚至有的时候是无关的
就比方说我告诉它
你这一步就是要打开三个网站
就是要找到最低的价格
就是要在里面找完价格之后
一定要点击那个按钮
其实有点手把手教的意思
但现在的agent它在强化学习
学习的过程当中
学到的是一个大的
完成任务的框架
而非很细节的一步一步的操作指南
它只是学会说OK
我大概需要去找几个网站
尤其是当你告诉我我需要比价的时候
我大概需要去找几个网站
但事实上它都是生成
背后并没有一个真正的workflow
它相当于把这种workflow
用一种更灵活的方式
学到了整个模型的参数里面去
那么它整体上
就会有专业性的一个使用的操作
但是它对于这种动态变化的灵活性
又会高很多
如我真的发现
比如说一个网站失败了
举个例子
它打不开了
可能就会发现
这个网站可能下线了
或者说是有故障了
那我再试一个别的网站
那像这样的能力
在以前的workflow是不太可能出现的
只有通过一个参数化的智能
才可以临场去做反应
给予反馈去调整他的策略
那这其实是人本身很自然的一个能力
对不对但是上一代基于大模型的agent
其实是做不到的
嗯对
那Deep Research跟Operator
它相当于是不同方向上的AI agent
它的底层技术会有什么不一样呢
它训练的数据集
和它的能操作的工具集不一样
就比如说Operator
它的操作集
是我使用电脑的那些基础操作
对吧比如点开一个Google搜索
然后去搜索一个关键词
或者是用手鼠标点击一个按钮
或者在一个框里面输入一段文字
它应该是定义的一组最基本的操作集
所以它是基于这组操作集上的数据
来进行微调的
Deep Research
它的操作集
其实是各种各样公开信息的检索库
里面的一些检索能力
它是把各种不同的检索能力
组合在一起
但是背后的目标定义会不一样
然后它的使用的工具集又会不一样
但是它训练的过程是一样的
都是用一种叫做RFT
就是强化学习的fine tuning的技术
来做的
对
简单说一下RFT
它是在2024年12月底
OpenAI当时在一系列的直播活动中
也就是他们当时
搞各种圣诞大礼包的时候
第一次去公开了RFT的训练流程
还有技术细节
那我看从今年开始
就已经有很多的公司
他们把这个RFT技术
强化学习
微调技术用在AI agent的训练里了
我刚才突然想到
我用过一个agent
但它有点不太像一个agent
它有点像是一个环境
它叫Scrapybara应该是
怎么拼
SCRAPYBARA 我非常喜欢它
它的slogan我有点忘记
类似于a computer for your agent
它给你的agent做了一个computer
因为他们发现一个问题
就是比如说现在agent可以编代码
可以分析数据
可以执行各种复杂任务
但是这个能力虽然在增强
但是你缺少一个关键要素
就是你需要一个安全的
你也需要一个可拓展的环境
能够让这些agent
能够真正采取非常concrete的这些行动
但是现在的解决方案
就需要让很多学界的人
或者是让一些工程界的人去选择
比如说第一种选择是你使用API
但API是有限的
且不灵活
那第二种情况是你使用浏览器对吧
浏览器是不是很稳定的
但这个Scrapybara
他们认为
你不要在自己的计算机上运行agent
他们应该给你创造一种
类似于虚拟环境
他们为你的agent
打造一款适用agent的计算机
他们应该是通过API
去提供一种及时安
全的虚拟环境
你可以几秒钟内就启动
有点像是那个Operator
我当时用它帮我买过秋裤
在Amazon上
它就很快能创造环境
嗯
你刚刚提到了买秋裤是一个应用场景
它的agent
主要是服务于什么应用场景的
他们官网上之前应该有写过
比如说他们给这些销售开发代表
你可以用agent来查找这些潜在客户
信息应该是可以跟这个Salesforce集成
你可以所有操作都在Scrapybara上完成
所以这是一款硬件吗
还是一款软件
一款软件
它们是YC去年刚投的
OK 但是它里面是有环境的
就是它给agent创造一个虚拟桌面
你可以在那个虚拟桌面上
去执行所有东西
就开头就是一个输入框
你进去之后
你可以直接输入你想让它干的事情
它就会基于这个截屏
他们后面应该也接了云计算
对 我了解
市场上其实大家想做这种编程的工具
跟编程的agent
可以说几十家都是有的
比如说最早的
从大家直接用大模型来编程
到微软的这个Cpilot
到Cursor到Devin
是在一直迭代的
那为什么是Cursor跟Devin
这两家公司做出来了
它们比其他人好在哪
是因为更深度理解了这个环境吗
还是因为只是做的早
然后很快的占有了市场
对因为我是几乎每天都会用Windsurf
或者说是Cursor的平替吧
类似的
因为Cursors现在也在快速迭代
但在我使用的过程当中
Windsurf会更好用一点
我觉得你刚才提的那个问题
非常非常的精准
就我认为
Windsurf Cursor
或者说是更进一步的Devin
本质上就是对于环境这件事情的理解
比别人要到位
比如我举一个Windsurf里面的例子
Windsurf并不只是一个简单的
对代码的插件
它特别理解环境里面
我要怎么样去获得上下文
我的行动空间是什么
所以在Windsurf刚推出来的时候
它自己内部就有一个帖子
一个它内部的引擎说
他们公司最擅长的
第一是做了一个context engine
它非常知道它所操作的代码空间里面
数据在哪里
测试在哪里
文件在哪里
配置在哪里
它对这个环境
是有一个很清晰的认知的
第二
是因为以前我们最早用Cursor写的时候
它只会写代码
但它不会帮你跑命令行
不会帮你去互联网上搜索
但是Windsurf
在过去几个月的版本里面
是有这个功能的
也就是它也知道
我的这个环境里面不仅仅是在写代码
我还要去作为命令行里面
去执行一些文件操作
我这个环境里面可能还有一个面向
是可以
去互联网上找到相关的技术文档
拿回来做参考
你看它
把针对于Copilot这类的编程工具的
环境边界
就扩大了很多
Devin的野心更大
从第一天开始的时候就说
我要直接把IDE去掉
我根本不在IDE里面去考虑环境的问题
它上来就做了一个
大概有4个子界面的一
个窗口左边开着一个浏览器
下面开着一个IDE
上面开着一个和用户交流的空间
然后在底下
可能开着一个类似于测试环境
然后它不仅做了这几个
它说我的环境是要比IDE大的多
并且也细致的多
同时还有一个功能
我当时觉得特别好玩
就是因为它的目标
是让一个AI
可以更完整的
完成一个软件工程的闭环
所以它的时间会很长
时间特别长了之后呢
大模型它就理解不了
所有过程当中所有的行为
然后它就有一个区域
就有点像人一样
比如说我开发一个比较长的事情
我要记笔记
而且我这个笔记要不断的修正
所以它还在自己的环境里面
专门加了一个笔记环境
那么这个笔记环境
就好像有点是一个策略室
作战室 它有什么新的思考
就丢进去
然后过了一会儿
它可能有一段时间
不是在写代码或者在检索
它可能在修改他自己的笔记
来优化这个笔记当中的一些问题
或者优化这个笔记里面
对于这个系统设计的一个架构
我觉得就非常非常吓人了
就人会自主创造一些环境
让自己来学会
怎么在这些环境里面去迭代
这个其实也是很有意思
他们给了一个范例
也可以加入到
整个agent的一个武器库当中来
就是我的环境里面
可以加入到一个自己思维的一个空间
那他们就是因为做了这个
所以大家就觉得这个市场本身足够大
因为全世
界每年的软件工程
好像
我记得是4.2万亿美金的一个市场吧
同时他们又对于context
对于environment的理解更好
所以他们就跑在了前面
然后就那么多的热度
这个分析挺有意思的
我问一个可能普通人更关心的问题
刚刚其实大家有提到说
现在如果大家要去做一个AI agent的话
其实环境已经比数据更重要了
我可不可以理解成
只要你对一个方向有非常深度的理解
任何人都可以去构建自己的AI agent
它可能已经成为了一种创业门槛
没有那么高的一个创业项目
之前可能是大厂的机会
但是现在它的门槛降了很多
它其实具有两面性
它的一面是因为我们要做一个AI agent
去做好它
我们要用这种RFT的方式
可以去大大减少对数据的依赖
所以我的可能资本的投入
各种各样的算力的投入
相对来讲就会少一些
那么这的确是对的
但是
我其实最近一直也在思考一个问题
就是我对于agent创业
不是特别乐观的一个点
是在于说
如果那么多人都可以来做agent
如果做的还是服务型agent
到底有多少agents是值得被重新做的
就尤其是消费者端
就C端的
举个例子
就Deep Research出来
像以前我们可能做学术的
有很多学术的工具
然后做市场调研的
有很多市场调研的工具
但是Deep Research这种通用的agent
至少把做信息的调研和研究这件事情
似乎可以通过一个AI agent完全覆盖住
那么因为人的需求本身
是分几个大块儿的
那也许
就说operator
它也不只是帮你买菜和订餐
帮你制定旅行的plan
它也许可以覆盖到100个场景
但是你想
这以前就意味着100个不同的创业项目
现在就变成了一个agent就可以解决了
所以在消费者端
agent创业到底有多少的机会
我其实是有一点点怀疑的
你觉得它会被模型冲击到吗
就是大模型
或者说它会被大厂和大模型公司
在一些非常大的领域上
给占住他们的位置
然后剩下的一些很小很小的机会
创业的机会
会比原来的移动互联网时代
创业机会要小很多
所以
这个时代其实是更适合做小而美的
因为大的机会巨头会去做
对 而且每一个机会的边界
会比原来的边界
比如一个软件产品
或者一个APP的边界
更容易变得更大
所以每一个被大厂占住的机会
它其实可以覆盖住人的需求
和注意力的空间
会更大
我现在其实在想说
就普通人在参与到这个新的时代里面
它的机会到底在哪里
后来
我就想到一个很有意思的一个案例
就是微信和抖音
在移动互联网时代
分别推出了公众号平台
和抖音视频的平台
对不对 那其实平台级的机会
这两家完全已经拿住了
就创业公司可能要去做
这种平台级的机会很少
那普通人为什么在这样的时代里面
依然还能
赚到钱呢
你是发现这些平台上
你也得想办法去表达自己的个体性
所以就会有很多自媒体网红
他就可以利用这些平台
去做一些新的东西
所以我还是认为
我们如果只考虑AI
它的工具的生产力的提升
其实它对于很多人来讲
的确是剥夺了它原来的那些价值的
我没有想清楚这个形态哦
但我觉得就是说当AI形成网络之后
可能会有一波新的个体
被释放的机会出来
然后那个时候可能会有新的创业
就好像现在其实很多做influencer的
其实自己也可以是一个小的创业嘛
对吧 然后他自己做的这个agent
比如说
他做的是一个表达自己的一个agent
那么他有他自己独特的市场
但你说
我要做一个服务于很多人的agent
我觉得机会是很小的
我们的第二次录音
行业在快速上升
融资也在快速发生
但是我发现
嘉宾的心态却发生了很多的变化
真正在做agent的人
发现问题也越来越多
我们下面来听一下第二次的声音
这次我们在补录的时候
是硅谷时间的5月6号的晚上
然后Manus他已经发布了
应该是有一个多月了
它在硅谷
也是从Benchmark
那里拿到了好大一笔融资
估值有5亿美元
我不知道芳波跟Kolento
你们是不是有试用过Manus的AI agent
你们的感受是什么
我记得是有一天早上
然后我看到了Manus发布
然后我当时有invention code
基本上我可以算他们第一
批试用的用户
我自己去用的时候
我是有很强的aha moment
发表回复