Hello 大家好
欢迎收听硅谷101
我是关注AI应用的【特约研究员】
Sophie
关于AI Agent
也就是人工智能体
相信咱们节目的老朋友们
大多数不陌生
我们之前也从爆款产品Manus切入
有过不少讨论
今天这期节目
是一场关于AI Agent的观点大拼图
我们邀请到了几位不同背景的嘉宾
他们有的是Agent的日常用户
有的是Agent产品搭建者
还有的是从商业和投资角度
观察这个领域的参与者
我们希望用这些
来自不同立场的不同观点
为大家尽力呈现一幅
客观 立体的图景
来展示AI Agent的现状和未来
首先让我们从最基础的问题开始
到底什么是AI Agent
我们先来听听一位典型极客的看法
鸭哥是大型物流软件公司
Samsara的AI应用科学家
也是活跃在开源社区的AI达人
他在GitHub上
魔改Cursor的开源项目
获得了超过五千个星标
在鸭哥看来
AI Agent需要满足三个必要条件
第一个条件是它需要能使用工具
比如说它要可以调用
搜索引擎来搜索
或者调用编程语言来进行编程
第二个是它需要能够自主做决策
它需要知道当我拿到这个任务之后
怎样把任务进行分解
通过这些顺序
用这些参数来调用这些工具
最终完成我们目标
而第三个是
它这个决策需要是多步的
需要是自我迭代的
比如说它不能像一个
静态的 workflow一样
我先做这个
再做这个定死的
这个其实不太能算是Agent
真正算Agent应该是
我根据前一步的结果
动态决定我下一步做什么
比如说可能是前一步搜索
已经得到了很多信息
那我就停下来
或者是前一步搜索
我觉得有另外一个地方启发了我
我要深挖
那就换个关键字
再进行进一步的搜索
所以满足这三个条件
工具调用 自主决策和多轮迭代
我觉得才能算是一个Agent
另一位非AI技术背景的嘉宾
在世界500强公司
担任数据策略总监
业余身为播客主播的新琦
她对Agent的定义
重点在于人与AI的合作关系
我自己的定义
就是从一个合作视角来说
我觉得它是一个
真正的甲方和乙方的关系
而不是一个在聘用合同工的关系
我们聘用一个合同工
那我要做的工作是
我要去定义好问题
然后我要去拆解它的关键步骤
并且在它完成之后
我要去检查它的交付对吧
这个是我们跟合同工
合作的一个合作流程
但是我觉得
真正的甲方和乙方的关系是
好的乙方
它是一个端到端的一个
承接整条流程的系统
并且它要在关键的节点
是要做一个主动的介入的
并且它能够提供决策建议
在提供完决策建议
在我给它一些非常高层的指令之后
它又能自动的执行
最终它交付的是一个成品
而不是一段一段的半成品
让我自己把它拼凑成一个成品
下面咱们来听听
他们各自使用Agent的产品
惊喜 震撼的时刻
鸭哥告诉我们
他从上班写代码到下班带娃
都离不开三类Agent的帮忙
我喜欢的
或者说经常使用的AI Agent
主要可以分为三类
教练型 秘书型和搭档型
第一种类型的Agent
比如说像OpenAI的deep research
或者是ChatGPT型的o3
我用它们主要是想从它们那里
帮我找到一些调研得到的信息
以及帮我进行一些深度的思考
把它当做一个
了解我不熟悉领域的窗口
还有另外一种用法
是把它当做一个秘书来用
比如说像最近比较火的Manus
还有Devin
我都有订阅
像它们就比较适合一些
相对简单一点的hands off的工作
第一个例子是我平时要哄娃睡觉
很多时候就要给他讲故事
有时候确实可以从
比如说YouTube上面找一些故事
来给他讲
但是我希望在这个过程中间
带入一些私货
就比如说
诶 你要好好吃饭
你要好好睡觉
要早睡早起这样的东西
那我就直接跟Manus说
你给我写一个故事
这个故事要基于白雪公主
但是你往里面夹带一些私货
让它教育这个小孩要好好吃饭
写完以后你调用一个TTS
也就是文本到语音的转换
把它变成一个音频文件给我
Manus其实非常擅长这样的事情
它可以写出一个相当好的文章
然后再调用HTTS把它变成一个语音
我就可以在娃睡觉前
就放这个语音来哄她睡觉
要真的要去做一些
正儿八经的软件开发的工作
其实我并不会去用Devin
或者Manus
这主要不是因为
他们这个产品做的不够好
而主要是因为他们产品的设计思路
我感觉更倾向于这种秘书性质的
hands off的工作
如果真的要去做那种科班的
复杂的软件开发任务的话
我还是比较喜欢用比如说cursor
windsurf之类的东西
因为他们在设计的角度上
就允许或者鼓励你去做频繁的交互
做一些手把手的指导
那么这个时候我就希望
我先跟他讨论得到一个设计
然后再让他
去把一个个小积木搭起来
我作为架构师
再把这些积木给他进行组合
我去审计它的结果
确保它实现了我的目标
像这个就更符合科班的
高标准的要求
那么作为副业播客主理人的新琦
又有怎么样的体会呢
新琦是如何利用Agent来辅助
她节目后期工作的各个环节呢
有一个新的一个AI软件
我现在在做他们的内测
其实是我自己加入他们的内测群
叫CreateWise
它的好处就是
你只要一键上传你的音轨
它直接给你呈现出来的东西
是一个完全剪辑完的东西
就是它连帮助你去做
哪些地方需要剪辑这个决策建议
它都把这套都做完了
所以它最后呈现的结果是一套
剪辑完了之后的一套音频
它甚至有一个
非常厉害的做法是什么
比如说如果你有一句话
你的结构是比较混乱的
它甚至能够用AI的方式
通过模仿你的声音来拟合出一段
相对来说结构比较清晰的一段话
你听完之后你就觉得
它已经强大到可以站在我的视角
以我的声音来输出了
它针对改过的这个语句
它是有高亮的
所以你可以去听
before是什么样子的
after是什么样子的
刚开始他们是选择整段输出
就是剪辑完之后你要么要整段音频
要么你就不要我这个剪辑版本
后来我跟他们提了这个需求
说你需要给到我逐句的
剪辑的这个空间
要不然的话我无法用
因为有的剪辑是我喜欢的
有的剪辑不是我要的
那他们现在把这个优先级提升
这个已经上线了
形成建议你可以选择要或者不要
如果你选择要了之后
它能够直接帮你串联到第三个模块
就是它的文案生成和宣发
尤其是它的文案生成
它是针对你在不同的平台
它是生成不同的文案的
比如说小宇宙 YouTube等等对吧
如果你是个音频的平台
它会帮你生成shownotes
金句 标题建议
如果你是视频的平台
它甚至会针对如果你是YouTube
或者是Instagram
你的视频的大小
就长宽的那个比例
它都会根据这样的一些
非常细的一些细节
生成可以让你直接一键就转发
拿出去发布的这个内容
而另一方面
有几款通用型Agent产品
也在一般性任务的执行上
收到了用户
纽约大学心理学大三学生
Kolento的好评
我说几个不同的scenario
我觉得第一个是
可能在general层面上的
我可能最近一直在用Manus
前两天也出来那个Genspark
那个super Agent模式
我觉得这两个
都对我来说是比较惊艳的
对 没有到很惊艳
但比较惊艳
因为它们能帮我完成一些
我之前不太想完成的事情
这是通用层面上的
然后另外就是coding层面上
我比较喜欢用那个Replit
我之前可能用cursor和Windsurf
但我后来觉得Replit
可能更像是一个Agent
它能帮我做决策更多一点
在学术层面上
我最近在用那个Elicit
但Elicit我觉得它没有到我心中
这个Agent定义
其他的我可能没有再看到
达到我内心Agent定义的
这个产品了
我先说一个最直观的
因为Minus我最开始用的时候
我最被它所吸引的是它的UIUX
我觉得这是第一个差距
就是在用户体验的感觉上面
其实本质上来说
Genspark和Manus
都支持Agent执行过程的
链接分享和回放
就是你可以看一遍
整个的这个对话过程
然后你可以
甚至基于这个上下文继续对话
他们都会对这个任务
做很好的规划和任务拆解
然后他们也会调用很多
不一样的工具
可能他们自己去设计的这些工具
可能会有一定的小差别吧
因为我感觉Genspark之前在旅游上
这些上面的场景做的已经很不错了
所以它们可能会有一些
旅游的搜索的工具
把它们预先设定好
还有一个比较有意思的差距是
Genspark有些功能
可能Manus还没有
比如说它们有一个叫call for me
就是可以帮你打电话
帮你预约酒店啥的
这还挺有意思的 对
当时让我有一个小的aha moment
就是主要是从用户体验和功能上面
AI有惊喜点
当然也有槽点
在听听具体槽点之前
我想先分享鸭哥一项有意思的洞察
他说随着各种Agent产品的
不断发布
他的槽点在飞速地进化
很多他以前吐槽过的点
现在却吐不了了
像复杂任务中工具调用能力不足
写作AI味儿太重
上下文窗口不够长等等
他在近期发布的产品新版本中
都看到了很大程度的改善
所以用户今天的槽点和痛点
也将是Agent搭建者
下一步重点攻坚的方向
先从鸭哥的槽点开始
现在AI模型的
instruction following
虽然比以前有了很大的进步
但还是不太行
比如说我想让GPT 4.1
我给你一个五章的提纲
你先写1-3章
再写4-5章
这样我最后就可以把它拼起来
然后它一定要在1-3章写完之后
后面加一个未完待续
我不知道它是为什么
它就有这种冲动
我跟它说你不要加未完待续
它就换一个
噢 你有什么其他想写的
我们下一次再继续写
会换一种说法
或者我试了很多
prompt engineering的方法
都不太行
最后怎么解决的呢
是我们用一种逆向思维说
你不是特别想要
一定要在那加行字吗
我们就把这行字定死
你就说未完待续
然后回头我再用一个程序
把这个字符串替换掉
替换成空的
最后完美地解决了这个问题
但如果它要是
instruction following
做的足够好的话
就没有这么些乱七八糟的事情
然后第二个槽点是
在我用AI产品的过程中间
我感觉好多产品还是
为了用AI而用AI
举个例子
不论是Claude的computer use
还是OpenAI的Operator
他们都会
我可以帮你订机票
我牛逼吧
我帮你订机票
我帮你去输这个信用卡号
帮你输各种信息
帮你点这个book flight的按钮
但其实我痛点根本就不在这
你如果你看一下
一个人订机票花的时间最多的地方
其实不是说去填信用卡号
去填我的信息
而是说去定下来我到底什么时候走
比如说我要是前一天晚上走
我会多花一晚上酒店钱
但可能机票便宜一点
或者是我就不用早上起那么早
或者是我就可以去送娃
那如果我后一天走呢
我又要考虑送娃的行程
时间能不能来得及
总的来说酒店加机票的价格
是更高还是更低等等等等
这个是最麻烦的
那如果有一个秘书
能帮我整理出来各种选项
这个是对我用户来说
最有价值 最能解决我痛点的
而不是最后那5分钟
我就把信用卡号敲进去
所以这是一个
对AI产品开发者的建议
就是还是要针对用户痛点来做
不能为了用AI而用AI
第三个就是AI很强
但是发现人类社会
它by definition
它是一个human friendly的东西
它是针对人类自己来设计的
很多东西只有人类有access
AI根本没有access
那举个例子来说
不论是公司内部你跟人家谈设计
还是公司外部跟客户谈生意
很多时候都没有一个书面的文档
都是哎 我们出去喝杯咖啡
在喝咖啡的时候
把一些重要的决策就定下来了
或者你谈生意的时候
你去吃饭
在饭桌上把东西定下来
但是AI呢
它拿不到这些信息
像这种tribal knowledge
没有付诸文字的knowledge
AI是完全拿不到的
所以这不是AI的问题
但是你也不可能说
你去跟客户喝酒的时候
你搞个摄影机
把它全部录下来再喂给AI
这个根本不可能
所以这个是一个人类社会的问题
我也不知道怎么去解决
但确实是一个槽点
就是AI能拿到的信息
还有点像一个冰山一角
有很多暗信息
或者我管它叫废墟信息
它AI还是拿不到
如果能拿到的话又会有很多很多的
应用场景可以实现
而新琦则通过她的亲身体会解释了
Agent产品缺乏人情味的问题
我现在看到很多的Agent
或者AI产品所不具备的
这个真实性
我举个例子
就比如说我们的三人主播
我们多人播客里面我们会有笑场
对吧
就哈哈哈哈笑
但是我会发现
比如说我用CreateWise
它会认为主播一哈哈哈
主播二同时叠加哈哈哈
主播三哈哈哈
一下子就是9个哈哈哈
在它认为就是一个重复词
它就一下就都剪掉了
它可能就只保留两个哈哈
可是在我看来
这个才是这个节目很有意思的地方
或者说集体的沉默
这个东西在很多的AI的软件里面
它会认为它是一个声音的silence
这个gap它是需要压缩掉的
因为你要保持一定的这种
信噪比或怎么样
或者是保持有一定的信息密度输出
但是集体沉默
很多时候是非常有意思的
当一个主播抛出一个问题的时候
如果你发现有3秒沉默
就说明这个问题非常值得你去探讨
因为它能够让两位其他主播
沉默的问题就很有意思了
但是这个目前在AI的软件里面
也是识别为我应该去掉的部分
所以这个就是在于
这种真实性的保留
当我们在说音频剪辑的时候
首先第一点你是中文还是英文
因为我知道不同的AI的产品
或者AI的Agent
对识别中文和转译中文
并且形成剪辑中文的音频的建议
这个能力和英文之间
是有很大的差别的
这是第一点
第二点就是你的这档音频节目
是一个单人的播客
还是一个多人的播客
这里面有非常非常大的差异
如果你是一个单人的博客
相对来说是最简单的
但是你是一个多人播客
它会碰到两个问题
第一个问题是多人播客
以我自己的剪辑经验来说
我希望是音频处理的时候
是分多轨的去处理的
而不是合并成一条音轨处理
是因为这个里面会涉及到
假设三个人有抢话
那抢话的这个时候
你怎么去保持一个平衡
在于说我一方面
希望听众能够听得清楚
同时我又要保留
大家在抢话过程当中那种氛围
那种热闹感
这个东西是非常考验
手艺人的这个手艺活儿的
这个东西在现在大量的AI软件里面
或者我们所谓的Agent里面
我们目前没有看到
要么是它能够允许我上传多轨
但是上传之后它连多轨对齐这一点
都很难的做到精准
第二个就是
要么它就不允许我上传多轨
它只是允许我上传单轨
但单轨就涉及到
我其实没有办法去消化在单轨里面
怎么去剪辑多人抢话环节
发表回复