E191_小而美的机会来了_聊聊这轮AI Agent进化新范式(1)

Hi 大家好
欢迎收听硅谷101
我是泓君
进入2025年以来
AI agent可以说进展很快
我来给大家简单复盘一下
今年上半年的一些进展
一月份OpenAI推出了
能够自主使用浏览器的AI agent Operator
二月份推出了研究复杂任务的Deep Research
我相信很多人到现在
可能已经是这个产品的深度用户了
三月份
中国第一个号称通用AI agent的Manus
爆火出圈
5月份Manus拿到了
硅谷老牌风险投资公司Benchmark
领投的7500万美元的融资
除此之外
就在我们第二次播客录制的当天
也就是5月6号
OpenAI宣布以30亿美元的价格收购Windsurf
另一款编程工具Cursor的母公司Anysphere
也获得了9亿美元的融资
估值高达90亿美元
为什么我们说AI agent在2025年一开始
就好像被按上了加速键
最近
我也跟业内数十位从业者聊天
发现了三点原因
第一是模型写代码能力的提升
比如说Anthropic去年年中发布的Sonnet 3.5
在代码生成方向有质的提升
由此 它是带动了
一批写代码的AI agent的快速发展
像我们上面提到的Windsurf
还有Cursor的这些公司
第二点
是RFT强化学习微调技术的出现
这项技术
让即使训练数据在有限的情况下
也可以提升模型在特定任务中的表现
这也给agent的发展按下了加速键
另外 2024年11月底
Anthropic还提出了一套
把传统的信息化服务转变成可以和AI
交流的一套MCP协议
越来越多的网站与服务开始接入MCP
行业底层基础设施也开始搭建
我们今天这期播客的第一次录制
是在三月初
那个时候Manus还没有推出
我们尝试从技术的角度去理解
大家在2025年提到AI agent的时候
跟我们之前所说的AI agent
有哪些不一样
我们也尝试着盘点一下
我们刚刚提到的
这些明星agent崛起的核心关键点
那今天跟我们在一起的两位
都是大家的老朋友
一位是MindVerse 心识宇宙的创始人 陶芳波
hello 芳波你好
hi 泓君

还有一位是在大学生聊AI那一期里面
非常非常火的
还被很多的听友认为是机器人的
Kolento hello
Kolento 你好
hello 大家好
Kolento的中文名字是侯泰羽
他现在是在纽约大学本科
念应用心理学
同时也是一位AI的创业者
Kolento
你最近是花了多少时间在AI agent上
最近可能每天都在用各种各样的agent
自己因为会开发一些小的产品
所以我会在用这个Replit Agent
也可能会用一些Cursor这样的coding agent
然后我自己
平时也会去研究很多不同的agent
但可能我研究的类型更多偏向于agent builder
就是那些造agent的地方
比如说像微软的Copilot Studio
像字节的Coze等等的
这种
能够帮助你制造出来更多agent的平台
对 然后
我记得之前其实我们也一起讨论了
怎么一起去造一个
写博客show notes的AI agent
所以你自己是造了多少个AI agent
已经太多了
可能200个得有
如果说算上不同平台上的
因为我自己平时可能会用很多
不同的IDE(集成开发环境)
来在不同的场景
比如说之前有跟泓君姐分享
我们那天录完播客之后
其实突发奇想
想做一个AI生成博客的东西
而且当时也发现
在平时生成shownotes的过程中很复杂
有没有可能
能够用AI来帮忙做一个提取
所以基本上你是遇到了一个场景
然后你就会去尝试
对 因为我感觉
今天我还在跟我的朋友讲
时代变了
尤其是如果你知道怎么做产品
你开发一个产品的成本变得越来越低
甚至有点恐怖了
OK
那芳波呢
一方面我自己用很多agent
尤其是coding agent
我每天都在用
但同时呢
我可能没有造过那么多agent
但是我是做agent平台创业的
所以我造过
造agent的平台
是之前那个平台呢
最早是做一个平台叫MindOS
还是蛮多人用过的
它就是造那种通用的专业型的agent
但是现在呢
我们更多的focus
专注在一个新的造agent的平台
叫做Second Me
第二自我
它其实是一个开源的平台
而且也会马上就发布了
大家可以下载到自己的本地
就可以把能够代表你自己的agent
给造出来
我觉得agent真的时代来了
我们的整个agent
各种各样的基础设
施的组件在慢慢的ready
马上就要组合成新的一个世界了
你觉得什么是agent
我的视角
更多偏向于是机器学习的视角
它的确和大众语境下的agent
是有一定的差别的
就机器学习里面的agent
其实在我的学习和研究的过程当中
我们最早接触的是
在强化学习里面的一个概念
就是在一个强化学习的环境里面
一个agent可以基于环境的反馈
自主地学习出一个行动的策略
从而完成它的一个目标
比方说我们知道下围棋的AlphaGo
在强化学习的语境里面
它就是一个典型的agent
但我感觉大语言模型来了之后呢
agent这个词的意义的确是
它有点被泛化到那种偏大众语境去了
现在我们对于agent的概念就是它
第一是更像是一个人
可以独立的完成任务
第二是
他背后是由一个基础的大语言模型
或者带有思考能力的
像最新的这种推理模型来驱动的
第三是
它可能有一个他自己的记忆的体系
第四是他有跟用户的一个交互的界面
比方说我们刚才看到的Windsurf和Devin
两个都是典型的coding agent 或者Replit
但是其实他们都有各自的交互界面
有的
可能直接是在编程的这个环境里面
给开发者用的
有的可能是更像是给老板用的
它可能会直接完成网络的搜索
或者说完成了一个测试的过程
但我觉得过去三个月吧
再发生一个很有意思的融合
最早的我们说
的强化学习的agent
第一是
它的技术肯定是偏向于强化学习的
第二是它真的会在环境当中去学习
那么我刚刚提到的大语言模型下
绝大部分agent
是没有这个学习的能力的
其实它对于行业的认知
对于任务的认知
是由创造这个agent的人来配置的
比方说我给它配知识库
给它配workflow
但是现在呢
越来越多的agent
尤其是思考模型啊
我们说的那个reasoning model出来了之后
很多人开始用一种新的叫做强化学习
微调的技术
去让这个agent
在大语言模型作为基础的情况下
也可以在环境当中探索实现的路径
去学习在一个特定的比如领域
比方说法律
或者说是操作电脑这些特定的领域下
它也有一个自主学习的过程
所以我觉得
这是一个非常非常好的一个现象
就是相当于我们对于agent的发展
又到了一个新的定义
它其实结合了传统的强化学习里面
对于agent这种自主学习
自主探索的能力
加上他在大众语境当中
觉得他可以完成通用的任务
可以跟人交互
可以帮你独立的解决复杂问题的
这种目标
这就是为什么2025年以来
大家对于agent就非常的兴奋
23年 24年其实agent这概念就出来了
就像我们也做过
像MindOS这样的agent平台
但它更像是一个脚手架
现在真的觉得agent有智能了
尤其是通过强化学习
通过思考能力的注入
觉得它达到了我们想
要的技术范式的状态
你能不能举个例子
你怎么觉得agent有智能了
我不知道大家理解中的agent是怎么样
就是最早你说的那种
强化学习中的agent
就跟我理解的
大家在训练一个游戏场景的agent
比如说让两个小人推方块
然后他们怎么样去设计
能把自己围起来
不让外界的这个东西打到他们
你会发现他们慢慢会涌现出智能
就是他们能有各种
可能我们人都没有想到的方法
去做这样的一些题
我印象中
其实早期在23 24年的时候
大家其实都是在一个游戏的场景里
让这些agent互相配合
来看他们的表现怎么样
那现在你说2025年
因为强化学习加上跟操作电脑的结合
就感觉可能会有更多领域的agent了
就是我理解的agent
就比如说我告诉一个语言模型
说我现在要回北京
然后帮我订一张机票
它能从头到尾把这一套执行完
我可能会限制
比如说给一个时间跟地点
它会偏向于早上的时间段直飞
就它能把这一套动作做完
我可能就称之为
一个很好的agent了
就你觉得你提到的这个25年的agent
跟之前的这些有什么不一样呢
你刚才两个比方都打的特别好
其实你提到的agent
本质上都还是带有环境的
我指的它那个变化
会让大家兴奋的原因
还是因为一个底层能力的变化
原来大语言模型
其实它是有一个很大的限制的
就是它的训练啊
无论是我们
用了预训练还是就post training
就后面的那些训练
包括我们还会用RLHF
这种所谓的具有强化学习
来帮它去做人类对齐的能力
但事实上
原来的语言模型训练的环节当中
是不带有和环境互动的
这就导致了一个现象
就是
它本身训练的目的就是为了跟人对话
而不是为了跟环境互动
虽然我可以强行让它作为一个脑子
然后去跟环境互动
但是原来23年 24年的那种agent
我们是尝试给它一些工具使用的能力
给它增加一个记忆库
让它去在环境当中完成任务
但由于它在训练的过程当中
没有跟环境互动
所以它是非常机械的
并没有办法在环境里面
真的学会怎么样去应对这个环境
你刚才提到的两个例子呢
比方说
两个小人在一个比赛场里面互相对打
看怎么样能打得更好
它就是一个典型的
在环境当中学习的一个agent
这就是传统意义上的强化学习的agent
原来我们23年24年为什么agent概念很火
但是一直没有很好的落地
就是因为环境的缺失导致的
那现在回过头来呢
从技术上讲
我们拥有了一种新的能力
比方说你去看DeepSeek R1的文章
你会发现
它最后的那个推理能力的训练
本质上是它自己
和一个问题环境的自主学习的过程
并不是像以前我们通过SFT
给它一个死记硬背的知识库
给了一个问题集
和最终的结果
但是它怎么去解决这些问题
是AI像人一样
自己通过思考训练的过程完成的
自己不断在调整自己的策略
调整自己的思考路径
然后学会了
我怎么样解答好更好的数学题
或者解答好更好的编程题
这个自主寻找路径解决它的这个过程
在以前的训练里面是完全没有的
所以
这个我们可以称之为是语言模型的
AlphaGo的时刻
简单讲就是大圆模型
真的学会基于一个环境给出的奖励
来自主的找到解决方法了
就为什么以前其实很早的时候
23年就GPT-4刚出来的时候
很多人就说
我要用这个模型来操作电脑
然后也有很多公司去这样做过
但是为什么都失败了呢
就是因为这个模型在训练的过程当中
根本没有
在电脑操作的这个环境里面待过
只是把互联网的语料喂进去了
所以它可能有一些操作电脑的概念
但它并不会真的执行这个行为
那为什么OpenAI推出那个Operator
相对来讲好像就比较聪明一点
Operator
是一个可以操作电脑的一个AI
虽然还不够好
他的做法就是
我在训练出一个大圆模型了之后
尤其是一个推理型模型了之后
比方说o1
然后我再让它在操作电脑的环境里面
再去做强化学习
有点像你说的
那个小人打架的那个感觉
或者是下围棋那种感觉
然后再去环境当中去学习
怎么样操作电脑
可以完成你说的订酒店
订机票的这个任务
如果没有完成
我到底错在哪了
我应该怎么去调整我的行动策略
那这个事
是其实过去半年才刚刚发生的
所以这件事情完成了之后
agent能够在环境里面更好地完成任务
更自主地去思考
更自主地去提升自己
我觉得就变成了可能了
所以2025年之后
大家就又开始兴奋说
agent真的来了
它不仅是说AI具有了一个思考能力
而是说它这个思考能力
可以根据环境的反馈来调整
来学习了
这就是一个big gap
能举一个具体的例子解释一下环境吗
我的理解是
以前我们问一个问题
我们会得到一个正确的答案
而加入了环境以后
我们再去问一个问题
把它放在不同的场景下
这个时候
我们寻求的不是一个正确答案
而是一个符合当下场景的回答
我的理解是这样的
比方说有一些领域里面
它的整个工作的环境
是有特定的系统和特定的工具的
编程就是一个很典型的例子
编程光靠浏览器是无法完成的
它必须有一个比如说IDE
然后有一个测试的工具
测试这个程序能不能跑
然后有一套部署的工具
同时还要知道怎么去访问GitHub
去使用开源
然后访问一些编程社区
看某些问题怎么来解决
你看
这个环境是对于一个工程师来讲
是非常熟悉的
但对于普通人来讲
这个环境他就是不熟悉的
所以对于一家创业公司来讲
如果它找到了这个环境
就要想办法
把这些环境变成一个它所
训练的这个agent在操作的这个空间
然后给他定义好一组有效的
非常少量的数据
给它定义好一组有效的奖励函数
那就是一个典型的例子
所以编程的agent
一定是需要公司重新来训练的
而不会是大公司说我做一个agent
所有任务都可以完成
有没有类似编程这样的案例呢
我觉得是有的
比方说法律 医疗
或者说
至少我认为一个评判的金标准是
所有我们认为在现实世界里面
是有一个
有自己的一套武器库的
这样的一个专家才能做的任务
需要有方法论的
比如说怎么做硅谷101
把这档节目做出来
如果我有这个方法论
我就可以训练一个我的agent
对 甚至
你有可能
你自己在用一些你特有的工具
在找信息
那么这些工具
其实就是我所学的环境的一部分
这样
就可能构成了一个一个很小的环境
包括Palantir
它不是做军事嘛
军事里面就有很典型的环境
因为可能要去操作一些武器
那这个武器操作的环境
就是它特有能够访问到的
你有用过OpenAI的Operator来做
比如说订酒店订机票的事情吗
对 我玩过
我拿它来买过菜
在哪
买菜网站上吗
对 就是美国那个买菜的网站
我突然忘了叫什么名字了
能不能讲一下你的应用体验
然后分析一下
它背后的执行的技术是什么
这是很好的问题
OpenAI其实它推出了两个agent的模型
而且这两个其实都是
刚刚我讲的
就是基于这种新一代的强化学习
和大跃迁模型融合的微调技术来做的
分别是Operator和Deep Research
其实他们都是从噢微调过来的
那么Operator的体验
很有意思
就是它会在服务器端
给你开一个浏览器界面
然后你其实是通过浏览器
来完成这种操作的
你就告诉它说
我要去买一个杭州到旧金山的机票
但是我要找最便宜的
它就开始拆分任务
去试各种网站
看网站给出的价格的反馈
然后拿回这个结果之后
再继续进行思考
然后再去想下一步是什么
其实这就是一个比较好的agent
但它速度很慢
准确率其实也不够高
但我相信呢
它一定比之前我们直接拿GPT-4

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注