E195_从工具到伙伴_七位AI Agent深度使用者的思考(2)

而这个东西恰恰是我自己认为
一档播客画龙点睛的那个
点睛的这一笔
内容质量当然是很好
但是你这档播客
会不会让我去选择订阅
我跟它的整个调性是不是匹配
恰恰是出现在这种抢话环节
面对我的吐槽邀请
有一位嘉宾却出人意料地
吐槽了这个环节本身
这位嘉宾
是身为Statsig数据科学家 博主
和AI社区Superlinear Academy
发起人的课代表立正
他是这么说的
我能吐槽一下这个吐槽吗
但是我觉得这个吐槽的做法本身
是错误的
第一个错误是你理解上的错误
第二个是使用上的错误
理解上的错误是Agents
它没有Magic对吧
它是过去的这个大语言模型
加上一些现有的工具
包括这些Protocol
一点一点做上去的
所以说你不太可能
指望它今天就做好
然后你如果觉得
今天做得不够好的话
这是理所应当的事情对吧
大家的这个心态
是从上一个时代带来的
就是大多数的工具是GUI
那GUI就是你点一个button
然后这个button就应该work
如果你点了一个button
这个button不work的话
你可以吐槽它
但是AI不是这个样子的
AI不是外挂 也不是魔法 对吧
所以说你要学会怎么用好它
才能用得好
在探索怎么用好
Agent工具这一点上
课代表曾在他本人的博客里分享过
用Manus反复尝试一项任务15次
终于成功的经历
他说
就包括Manus出了14次错
但是问题是第15次做成了
所以说他一开始就有做成的潜力
但是我前14次的使用是不够好的
那我应该吐槽Manus
还是应该吐槽我自己呢
Manus已经在它的能力之内
做得最好了
我应该吐槽我自己
就是为什么我花了14次的迭代
才把它做好
而不是一次就把它调教成功
那说明我使用AI的能力还有问题
对 这就是第二个
就是大家如果没有一个学习的路径
或者说是一个改进的路径的话
那你肯定是用不好的
你不能用一个user心态去对待AI
一定要用一个builder的心态
去对待AI
就是你一定要去使用
然后去用它去build
你如果还是就是用一个user
然后今天吐槽这个产品
没有设计到位
明天吐槽那个产品
是没有设计到位的话
那你会被这个时代落下的
听了这么多用户的喜悦也好
困惑也罢
这些问题从开发者的角度看
又是怎样的呢
我们把视角转向搭建者
我把这个问题抛给了
身为Agent搭建者的曲晓音
她创立的HeyBoss AI今年初刚上线
晓音分享了她的看法
我觉得这个问题是
当然首先存在AI Agent的LM本身
有些情况下不够智能
但是我觉得更多情况下
它是一个工作方式的变化
就举个例子
比如说特别牛逼的小天才
来到一个公司当实习生
他从来没有工作过
你让他做啥都咔咔咔
没问题 包在我身上
结果你就发现他做的呢
怎么不太靠谱
到底能做还是不能做
他认为他啥都能做
但实际上他做东西
又不太符合你的预期
他觉得这个东西有风险
他又意识不到有风险
他又无法跟你沟通
说老板这个可能一定时间内
是做不出来的
但这个可能来自于工作经验
不来自于智商
所以就是我们会发现
工作5-10年的人
他会非常明确地
跟老板讲这个预期是多少
我认为这个三天做不完
所以更多的是来自于他工作的经验
那对应到AI上
我觉得更多的是来自于
它可能同样的事情做过很多遍
它知道好还是不好
它知道做出来没做出来
准确地说不仅是它自己做没做出来
而是用户觉得它做没做出来
就是AI做完之后
用户的反馈是好还是不好
当然我觉得
我们如果有更多的这方面的data
这个data是掌握在
application layer的
Agent这个创作者
AI Agent这个公司
不掌握在OpenAI 对吧
就是说这个需求本身
老板满意不满意
这个data掌握在像我们这样的
AI application的这个公司里
如果我们有足够的data
我们是可以知道
预期有没有得到满足的
但是预期本身是需要老板来定的
当我们没有老板的数据的时候
我们不知道老板的预期是什么
所以我觉得现在AI最大的问题
就是它没有工作经验
我们需要的是给它提供工作经验
以及给它老板的反馈
好还是不好
做完了还是没做完 打几分
这样的话我觉得AI会更加的准确
还有就是你的use case
要有一定的聚拢
就比如说有些什么都能做的
从(给)孩子订饭到什么解决宇宙问题
啥都能做
那这个情况下
你的use case不是很聚焦
其实每个用户的评价体系
它没有什么pattern 对吧
就他啥都能做
像我们这种比较聚焦
我们就是做网站
做这种APP 对吧
就去帮这个小企业主做
帮创业公司做
帮营销部门做
那我们每个use case
其实可以评判
我有没有达到用户的需求
本身招我们的目的是什么
我觉得这个聚焦
我们就可以有大量的重复性数据
来判断我们好还是不好
但是如果不聚焦的话
本身这个评判体系就比较难
俞舟是哥伦比亚大学计算机副教授
她的创业公司Arklex.AI
为像新东方 沃尔玛
这样的企业级客户
内部Agent应用开发
提供框架和工具
同时也面向终端用户
提供自营Agent产品
她从技术层面给出了
“如何让Agent更听话”的
应对策略
其实Agent它不是只有一个东西
它其实有很多的
比如说我们要做Guardrail
就是防止它有各种各样子的
不好的东西出现
它其实是一个比较复杂的过程
它不是说它只是一个tool
我们卖给你就可以了
它其实我们是会教你整个一套
如果你要完成这个任务
什么样子是最好的方式
就是best practice
而且很重要的是你一定要做测试
就是你要做evaluation
如果你不知道你这个Agent
做什么是好
什么是不好的话
那你这样随便做
它肯定是没有好的最后的结果的
我们会做各种各样子的调整
根据它的评测的级来做
像这种情况的话
就是可以用Agent的workflow
来处理这些问题
在工作流方面
晓音从产品设计的角度
提出了一种具体的解决方案
我们也提供了很多的tool
其实不是通过AI来修改
而是让用户是像改PPT那样
圈一下这个字
把它弄大弄小
改个动画
我们就发现很多情况下
虽然AI也可以改
但是用户还是希望更可控的结果
所以这个情况下他们会选择
比如说字或者词
或者是图片替换
或者是加一个效果
他们倾向于用老的方法
就是Powerpoint的这种方法
而不是用AI的方法
因为觉得不太可控
所以我们在AI的这个天马行空
或者能力更强
定制化更强
但是可能不可控和可控
但是是限制性的功能相比
我其实觉得这两个都需要
最后 关于鸭哥提到的
“AI缺乏人类暗信息”
这个根本性挑战
晓音的看法是
因为我们本身的工作性质
它以前也是线上完成的
就当你造作一个网站
你联系一个巴基斯坦的外包公司
或者是Fiverr上这外包公司
它本身也是线上
它也很少会跟你握手
通过它握手的力度
来判断它是不是喜欢你
就是对我们来讲不是那么重要
所以对我们来讲
我们反而可能跟人之间的沟通来比
我们也没差多少
这是我们本身的这个赛道的
一个比较适合AI
来超越人类的一个点
但是有一些行业
像这种线下的服务行业
或者是大企业的销售
他们很多可能是在高尔夫球场
在这个包厢里完成的 对吧
那这个情况下
AI确实在这方面的
input data就不够
所以我觉得这更多的取决于
这个本身Agent它的性质
它本身这个以前要取代的
人类的工作性质
除了应对这些用户痛点
我们也很好奇
Agent搭建者们
目前还在哪些方向上寻求突破呢
俞舟教授介绍了
她和团队正在探索的前沿技术
比如说我自己的实验室里
我们也做一些
我认为非常重要的新能力
就比如说
我们称之为一个叫backtracking
就是self correction的能力
就是说它可以根据自己做的怎么样
来选择自我纠正
自我纠正的能力也很重要
还有我们称之为各种各样子的
self learning
就通过自己的方式来学习
这也很重要
而晓音则透露
比如说我们不只是讨论一个Agent
卖一个Agent给用户
我们卖的是个解决方案
就需要多个Agent的合作
为了让他合作的更好
我们需要一个AI CEO
或者AI leader Agent
来lead其他的Agent
我觉得这可能是一个发展的趋势
那这个趋势的好处就是
我们可以通过多人的力量
多个技能 不同合作的力量
来解决一些
本来单技能无法解决的问题
那么AI的合作
可以取代很多那种人本身一个团队
不仅去取代某个工种
而是取代整个公司
取代整个团队
我觉得这是一个很大的趋势
但俞舟也提醒我们
这条路上还有不少技术挑战
有很多的Agent
同时在一台机器上工作
它就会有问题
很多个Agent它要分在不同的
分布系统的机器上工作
那有更多更多的问题
就是说怎么更好的 高效的
low cost 便宜的
去处理这些问题
然后还有很多并发各种各样的问题
会导致我们说有很多东西要做
真的要应用到大型的企业中
以及提高很多的能力的话
最大的一关就是我们说的安全
就比如说一个大的企业
我们就举一个最简单的
系统上的问题好了
数据库 对吧
以前数据库是给人用的
人有权限去改数据库的东西
那现在智能体Agent
要去改这个东西 对吧
如果有同时很多的Agent
要同时去改这个数据库
我们怎么办 对吧
万一你给它改掉了以后
它这个都不一样了
它搞了半天又要恢复原来的设置
那它本身现在的数据库
是无法提供这样子比较好的
我们知道就是比较efficient
比较高效的方式来存储
以及跟Agent做连接的
比如说你一个Agent
和另一个Agent交互
哪些memory
就是你的记忆要分享给别人
哪些是可以分享
哪些是不可以分享
还有比如说这个数据库
有一些governance layer
有一些Agent可以接触某些数据
有一些Agent
不可以接触某一些数据
就跟人一样的
你没有这个clearance
你接触不到核心数据 是吧
那如果你有一些就是我们称之为
safety vulnerability的话
那你又不能做这个事情
那哪些是outward facing
哪些是inward facing等等
它里面有很多
非常具体的工作需要做
除了技术层面
产品设计
同样是搭建者们关注的重点
大模型的变化
有点像是这个人的智商水平
但是大模型更聪明
并不代表这个技能它更懂
因为这个技能本身除了聪明之外
可能还有一些行业的know how
或者是比如说对于用户的
具体这个所处use case的理解
那这个东西不一定是智商导向的
有可能是经验导向
所以对我们来讲这两个都非常重要
比如说你是一个创业者
你要做一个公司官网
你是一个小企业主
你想卖课
或者说你想卖你的咖啡店的订单
那么很多情况下
你可能需要了解这个行业
并且你还要知道
这个行业最新的玩法
你的竞争对手都在干吗
所以其实对我们来讲
更多的是能够确保
你在你的这个行业
你的网站或者你的APP
能够帮你带来更多的商业价值
那我们第一
我们需要了解你这个行业
第二 我们需要与时俱进地
了解你这个行业
就你这个行业的新变化
我们也要能跟上
第三就是AI要具备一定的品位
这个品位
其实更多的是AI本身的设计
即使你自己不懂设计
但是AI给你的这个方案
是有一定的调性的
有一定的个性的
并且符合你的品牌的预期的
所以这个品位
我觉得是非常非常重要的
这个不一定是大模型越牛逼
品位就越好
所以品位其实我觉得更多时候
来自于我们的训练
也来自于我们可能设计这个
Agent的人本身的品位
也来自于我们对于客户
他们这个行业所需要品位的理解
因为有些客户
他说不清楚他要的品位是什么
他只是告诉你这个不对
这个太土了
那么太土是什么意思
其实对我们来讲
比如说一个用户说这个网站太乱
太土 不够直观
这些词都非常的虚 对吧
我们要理解
透过现象看本质
这个小企业主如果是健身博主
他说土是什么意思
如果他是一个卖水电工
他说土是什么意思
如果是个AI创业公司的土
是什么意思
每个人的土还是不一样的
所以对我们来讲
这种对用户洞察的理解
不一定跟模型本身的优劣有关
最后在市场培育方面
俞舟提出了一项
经常被技术人忽视的关键挑战
我觉得最重要的还是大家现在都说
这个好像炒得很火
但是真实的ROI没有
在大企业中部署的很少
但其实我觉得这个东西
是时间的问题
因为大企业很多东西推进都比较慢
然后我们可以看到
其实technology is easy
people are hard
我们要重构它的这个工作的流程
我们需要说服他
重构这个生产关系是非常困难的
所以说我们通常要了解他们
怎么去教育这些员工
然后让他们更好地利用这个AI
这个部分是需要慢慢慢慢做的
不是说我这个东西今天出来了
明天就能用上
需要企业从上到下的一种
top down的方式来解决这个问题
那么这些技术和产品
如何转化为拥有壁垒的
长期商业模式呢
我们切换到商业视角
一起来听听投资和创业领域的观点
我们先请教一下AI产品出海社区
Linkloud创始人
前高瓴投资人高宁
听听他对Agent创业公司
如何打破传统SaaS壁垒的看法
新的数据
就是数据这一方其实现在看出来
不完全掌握在传统的SaaS的
这些公司的手里
比如说我是帮助医生
去做医疗诊断的记录的
那以前这些数据
也不在这些传统的SaaS公司里面
因为以前是说医生手打一些
访谈后的一些数据
填到那个表格里面 对吧
有很多做门诊SaaS的病例管理的
这样的公司
可是现在变成了语音的数据
经过AI整理了之后
这些数据是更新的
而且是更准确的
而且更丰富的
那意味着传统这些数据
根本就是落后的了 不需要的了
那这个时候新的startup
其实掌握了新的数据以后
而这些新的数据
才是客户其实想要的真正的价值
那就在于这一点的话
我觉得是很好地能去打破
所谓的传统SaaS的一些垄断的
大家都说data才是SaaS公司
最重要的一个
所谓做为system of record
但我觉得很多新的数据
其实不在传统公司手里了
第二点的话
大家会说distribution
就是渠道和客户
那我觉得这一点是所有的
就startup成长起来都会面临问题
但问题就在于如果你服务的是一些
你初创公司陪伴着一些
高速增长的客户发展起来
他们会成为未来的平台型的巨头
或者是未来的公司之后的话
那你陪伴这些独角兽
变成超级独角兽
变成上市公司
那你不就掌握了新的渠道
或者新的客户关系吗
那我觉得这一点也不是说
传统公司永远都是这么牢固的
那所以我自己还是挺positive
尤其是在一些这种所谓的

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注