E152_对话NVIDIA和五源资本__具身智能_能带领这波机器人热走多远_(2)

他们都开始应用到了机​‌​‌​​‌‌​​‌‌​​‌‌‌​‌‌​​‌‌​​‌‌‌‌​‌​​‌‌​​‌‌​​‌‌‌‌​‌​‌‌‌‌‌​‌​‌​‌‌‌​‌​​‌‌‌‌​‌​‌​‌‌‌​‌​​‌‌‌‌​‌‌‌‌​​​‌‌‌‌‌‌​​‌‌‌‌​‌​​‌‌​‌​‌​​‌‌‌‌‌‌​​‌‌​​​‌​​‌‌​​‌‌‌‌​‌‌‌​‌​​‌‌‌​‌‌‌‌​‌‌‌​‌​​‌‌​‌‌​​​‌‌​‌​‌​​‌‌‌​​‌​​‌‌‌‌‌‌​​‌‌‌‌‌​​​‌‌‌​‌‌​​‌‌‌​‌‌‌‌​‌‌‌‌‌​​‌‌​​‌‌‌‌​‌​‌‌‌​​‌‌​​‌‌​​‌‌​​‌‌‌‌​‌‌‌​‌​​‌‌‌​‌‌‌‌​‌​​‌‌​​‌‌‌​​‌​​‌‌​‌​‌​​‌‌‌‌‌‌​​‌‌‌​‌‌​​‌‌​‌‌‌​​‌‌‌‌‌‌​​‌‌‌‌​‌​​‌‌‌​​‌‌‌​‌​‌‌‌​​‌‌​‌‌‌‌‌​‌​‌‌​​​‌‌​​‌‌​​‌‌‌​​‌​​‌‌​​​‌​​‌‌​‌​‌​​‌‌‌‌​‌‌‌​‌​‌‌‌​​‌‌‌‌‌​​​‌‌​‌‌‌‌‌​‌‌‌​‌​​‌‌‌‌​‌‌‌​‌‌‌​‌​​‌‌​‌​‌‌‌​‌​‌‌‌‌‌​‌​‌​‌​​‌‌‌‌‌‌​​‌‌‌‌​‌​​‌‌​​‌‌‌‌​‌​‌​‌‌‌​‌‌‌​‌‌‌​‌​‌‌​​​‌‌‌​‌‌‌‌​‌‌‌​‌​​‌‌​‌​‌‌‌​‌​‌​‌​​‌‌​‌‌‌‌‌​‌​​‌‌‌‌​‌​‌​‌​​‌‌​‌​‌‌‌​‌‌​​‌‌‌​‌‌‌​‌‌‌​‌‌‌​‌​​‌‌‌‌​‌​​‌‌‌​​‌‌‌​‌​​‌‌​​‌‌‌​​‌​​‌‌‌‌​‌​​‌‌​​‌‌‌‌​‌​​​‌​​‌‌​‌‌‌‌‌​‌​​‌‌‌‌​‌​​‌‌‌‌​‌‌‌​‌​​‌‌​‌‌‌‌‌​‌‌‌​‌‌‌​‌‌‌​‌‌‌​‌‌‌​‌‌‌​‌​​‌‌​​‌‌‌​​‌​​‌‌​​‌‌‌‌​‌​​‌‌​​‌‌​‌​‌‌‌​‌‌​‌‌‌‌​‌‌‌‌​​​‌‌‌‌​‌​​‌‌​‌‌‌​​‌‌​‌​‌​​‌‌‌‌​‌​​‌‌​‌​‌‌‌​‌‌‌‌​​​‌‌‌‌‌​​​‌‌‌​‌‌‌‌​‌‌‌​‌‌‌​‌‌‌​‌‌‌​‌‌​​‌​​‌‌​‌​‌‌‌​‌​‌‌‌​​‌‌​‌‌​​​‌‌‌‌​‌‌‌​‌​‌‌‌​​‌‌‌‌‌​​​‌‌​‌​‌​​‌‌‌‌​‌​​‌‌‌​‌‌‌‌​‌‌​‌‌‌‌​‌‌​​‌‌‌​‌​‌‌‌‌‌​‌‌​‌‌‌‌​‌‌​‌‌‌‌​‌‌‌‌‌​​‌‌‌‌‌‌​​‌‌​‌‌‌​​‌‌‌​‌‌‌‌​‌‌​‌‌‌‌​‌‌​​‌​​‌‌​​‌‌​​‌‌‌​​‌​​‌‌‌​​‌​​‌‌​‌​‌‌‌​‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌器人的决策和认知的任务上
这个是极大的拓宽了传统机器人在控制决策方面的一些局限性
让大家觉得通过大模型的进步
看到了机器人技术快速进步的可能
第二个
在机器人技术自身的控制
仿真模仿
学习等领域
也出现了蛮多的进步
这里面也包括NVIDIA提供的各种仿真器
各种训练的这种环境
让机器人可以更快的通过模仿学习也好
通过强化学习也好
可以完成一些底层的控制和底层的仿真
足式、四足、两足
或者是一些更复杂的机型的形态
我觉得第三点
可能让过去一年发生特别大的变化的是以特斯拉为首的行业的巨头开始大量的投入人形机器人或者说具身智能相关的研究跟研发
中国跟海外也出现了非常多的创业公司
利用成熟的硬件供应链
开始在做各种足式机器人或者新形态机器人的这种研发
大家也看到了一些非常令人振奋的产品或者是demo
所以我觉得几个地方底层的技术变化和硬件平台的出现
让机器人在过去一年得到了非常多的关注
也让大家看到了快速发展的可能

Peter讲的非常好啊
我顺着你的话题正好其实你讲到了一个我非常好奇的问题
就是你提到了三点
第一是大模型的进步
第二是比如说说像NVIDIA他们研发的自主控制仿真
还有模仿学习的一些平台
接下来就是行业巨头对他们的一些推动
我想这一轮大家去关注机器人
可能很大程度上跟大模型能为机器人带来什么是有关系
记得就是你觉得大模型的进步是怎么样去影响到机器人行业的呢
我觉得首先我们先把机器人的能力或者机器人的任务拆解一下
我觉得一个经典的框架是把机器人分做感知
规划或者说决策
第三块是控制
简单的说就是机器人要知道他的环境
知道他的外部input
同时他在知道了外部的应付和自身状态的基础上
他要做短期和长期的规划跟预测
第三步是到了硬件的层面
到了执行器的层面
他需要把他想清楚的这个规划给控制执行下去
如果按照这三段来拆解的话
我觉得大模型最直接的关系是语言模型
因为有了很好的常识
拥有了很好的推理的逻辑能力
他可以对机器人的规划和控制进行上层的影响
所以我的印象是可能最开始是从Google开始22年推出的SayCan这个技术
这个大模型跟机器人执行结合
后面除了规划又在规划跟感知
通过视觉语言模型
像palm e这样的模型
在23年推出的时候
实现了感知跟规划的结合
然后又到了23年底的时候
也是Google推出的像RT 1
RT 2这样的模型
把控制的环节也通过大模型的方式
通过transformer的方式
把控制环节也有大模型去推动和实现
所以我们看到的一个趋势是
大模型不仅是在上层的机器人的规划上面
也开始进入了机器人的感知和控制等底层的任务环节
而这一点是机器人领域发展了这么多年
可能第一次出现了这样一个由学习算法驱动
有一个非常大的一个预训练的模型来推动控制的一个变化
这也是可能过去一年我们看到的技术上面最大的突破
那你提到PaLM-E、RT 1
它其实研发出来有一段时间了
为什么是这个时间点火呢
是说大家从平台研究出来了
到真正的使用落地还需要一段时间
是吗
我觉得像谷歌这种研究院出来的东西
其实是非常新型的一些想法
我觉得PaLM-E最大的特点是把Google的传统的语言模型
就是Palm那个语言模型跟机器人的的能力进行了结合
其实在此之前大家没有试图把机器人跟大语言模型的上层的这个推理能力进行结合
这是一个发展的过程
就像17年我们出现了transformers但是真正到了20年我们可能才出现了GPT3到了23年才出现了GPT4
所以他这个技术的成熟扩散需要一定的时间
机器人的比较有挑战的地方是因为我们的实体和测试的环境并不像纯语言模型一样这么方便
所以当这个模型真正应用到机器人的场景的时候
是需要一些之间的RT 1
RT 2在我看来也是transformer技术逐渐扩散的结果
其实在transformer技术成熟过后
我们先是出现了video transformer的方式
将视频跟transformer的这个encoding进行结合
那么对于RT 1 RT 2来说
更重要的是把机器人的执行动作跟transformer这个框架进行结合
这个也是可能在过去一年才开始有大家去积极的研究和尝试的一个方向
刚刚Peter也提到了第二点
在机器人的这种自主控制的平台
包括仿真
还有模仿学习的平台
可以说NVIDIA是这一块的
应该是说行业的领军者跟推动者了
就是Lily你要不要跟我们讲一下
这些平台是怎么样去促进机器人行业的发展的
NVIDIA的机器人平台台包含三个部分
这三个部分从上往下看的架构分为第一个部分我们叫做训练training
Training我们就可以训练机器人的一些类似于基础模型
还有一些像可以应用于具身智能或者机器人的一些大语言模型
生成式AI等现在比较主流的一些模型
来增加机器人的一些自主交互的一些AI能力
包括还有甚至像强化学习训练的部分
那也是属于机器人训练的部分
可以提供一个端到端的机器人的一个强化学习训练的一个执行的一个模型
第二部分是我们叫做仿真
仿真的话其实这个就要提到我们NVIDIA的一个我们叫做之前可能大家都听到非常热的一个名词叫做Omniverse
NVIDIA在基于Omniverse的基础上
其实打造了一个专门给机器人用来做的一个数字孪生的仿真平台
NVIDIA Isaac Sim其实就是我们专门给机器人做的一个仿真平台
那它可以提供一个数字孪生的一个环境
帮大家快速的做现实环境中作为机器人开发的一些工作
那我们可以快速的完成sim to real整个一个开发流
同时的话
在第三部分我们叫做inference
也叫runtime
其实就是机器人本体的部分
机器人本体的部分NVIDIA也提供了比如说像我们的嵌入式计算平台
包括一些我们做了一些AI算法增强的一些机器应用
包含感知的部分
包括决策规划的部分
以及对场景理解的部分
以及交互式的一些大语言模型的部分
这一部分其实我们有在从训练和仿真侧有助力到端侧的一些应用的部署
所以我觉得我们是分三个部分帮助大家完成整个机器人的一个开发流
其实你提到的这三个部分我都还挺感兴趣的
你可不可以简单的每一个环节插播一个小案例给听众解释一下
就比如说你说到的强化学习训练
包括仿真模型
包括inference的这个推理模型
它是怎么样去帮助机器人行业的
就可不可以给大家一个更加形象化的例子
Ok我们先说一下训练的部分
比如说你要完成机器人的抓取的一个动作
那这个里面其实有包含到你需要机器人对这个场景进行理解
那这个里面可能会用到我们
比如说像我们叫做VLM视觉类的大模型对场景的一些理解
还有一些比如说我们可能会用到RL
我们叫做reinforcement learning的一些模型
我来做端到端的一些动作指令的一些训练
包括他还会有一些比如说像大语言的模型
他可能会理解人的一些指令的一些交互
就比如说你说让他去抓一个苹果
或者拿一个水之类的那这些模型其实它会有各个环节都会有一些模型训练的一些工作在里面
当然这些是比较符合这个具身智能
或者我们叫做生成式AI的一些应用仿真的部分
其实我觉得这个如果是做机器人开发的同学们应该会很好理解仿真对于机器人环节的一个非常重要的一个作用
因为我们在现实生活中
如果我们要开发一个机器人应用的话
它是一个很刚体的一个结构
你在对他做一些开发的时候
如果你直接的做一些功能性的开发
你会发现他有很多的不可控因素
高风险高成本
它其实是需要你很长时间的
你对传感器的校准
硬件的校准的一个过程
那在仿真环境里
如果你的仿真平台是一个数字孪生的
和真实世界的gap基本上没有的情况下
其实你会非常容易的进行你算法功能的开发
比如说你可以在你的机器人的本体上
在仿真平台上做一些传感器的增加或者删减
在仿真的环境里来完成你的功能
比如说从A点走到B点
做一些物体的抓取
当然你这个里面会集成非常多的
比如说像触觉的传感器
各种视觉类的传感器
就是一句话简单概括
在仿真环境里你可以实现和真实环境一模一样的开发和测试的效果
但是在仿真环境里
你会发现你的开发的时间会大大缩短
而且没有任何的风险代价成本
也没有任何的危险系数
也就是因为我们的仿真和真实世界中间的这个gap
我们把它缩到了零
这样的情况下
你在仿真平台里面验证的算法

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注