这些其实都可以做一些非常精准的描述
所以在这样的一个情况下
在仿真平台上我们还有另外一项技术叫做虚拟数据集的合成
也就是说在仿真环境里面
我们可以通过随机域的生成形式
可以生成非常庞大的一个数据集
而且这个数据集是自带标签的
就是标注好的数据集
这个其实节省了大家比如说去真实世界
你需要先拍照采集数据集
然后再做数据的清洗标注这样的一个过程
你在虚拟的环境里
举个例子
我们经常会有
比如说像电子电路版
我们叫做PCB板的一个缺陷检测
如果你在现实世界里面
你想采集一个缺陷检测的话
你其实是需要收集大量的负样本
而且负样本其实有的时候是不太好收集的
然后你再进行一个采集数据
但是在仿真环境里
你可以指定一处缺陷
然后进行随机化
它其实就会变成一组非常庞大的缺陷数据的一个样本集
这样你就可以进行检测
同理的比如说像一些家庭的场景
现在我们有一些机器人的研究在做一些to c比如说家庭服务类的集群
其实家庭整体的数据集是比较私密的
我们很难拿到一些公开的数据集来仿真家庭的一些场景
在仿真环境里面
其实我们也可以做大量的这种家庭数据的一些样本
这个随机化可以随机化到一个小的
比如说电路板
一个小的杯子
这样的一个具体的一个小零部件
也可以达到一个场景整体的随机化
比如说一个仓库
一个工厂
一个家庭的环境都可以进行随机化
所以我觉得回答您的问题
第一个从图形图像以及物理的引擎
流体的引擎上
我们可以精准的描述现实场景
第二点从数据的泛化增强上
我们可以产生大量的虚拟数据集和一些随机测试的环境
来帮助你提升模型的泛化性以及整个算法的鲁棒性
所以在这两个层面上
就可以保证机器人在仿真环境里面就能极大程度的完成到它本体的一些写功能的开发和测试
我们在实验室里有测试过
比如说在用机械臂抓取一些物体
在仿真环境里面我们测试试完以后
把模型直接部署到机械臂上
它就可以直接完成一个抓取动作
那你觉得我们在仿真里面训练到一个什么样的程度了
可以让机器人去这个物理世界训练呢
我觉得这个其实有一点需要
每一个用力都不太一样
因为有一些可能结构化会比较强一点的那相对来说它就不太需要太大量的一个训练
它就可以精准的识别出来这个物体
进行一个准确的抓取
但有一些比如说是在一个非常杂乱无章的非结构化的环境下
它就需要非常大量的一个样本数据集
比如说他从一堆零部件里面抓一个零件的时候
这种他就需要对这个零部件具有多角度更强大的一个数据进行训练
才能提升它整体模型的一个准确度
我觉得每一个用例其实区别蛮大的
所以看场景对不对
对
还是看场景
但是我觉得就是在仿真平台里面
至少我们现在可以做数据集大量的一个增强跟补充
所以这个其实是提升你模型准确度很重要的一个环节
就是数据的基础
Peter有补充的吗
对
其实大家讨论真实数据还是仿真环境
其实大家可能要注意的一点是
很多仿真环境的数据其实是由真实世界的数据清洗训练和增强的
也就是说如果你没有真实物理世界大量数据的采集和清晰标注的话
其实你很难在这个基础上生成仿真的数据
因为中间可能会出现大量的不真实或者说不匹配的这种情况
我觉得过去两三年最大的变化是以transformer和diffusion这些结构和算法为代表的技术的成熟
让我们根据少量采集的真实世界的数据
生成更多的permutation的拟真度和准确度得到了极大的增强
所以我觉得可能未来也会是这样的一个平衡
就是少量的数据是靠真实世界采集的
因为采集的数据成本比较高
大量的数据是在采集的真实数据基础上进行的增强和深沉而成的对
接下来我觉得也是大家非常关心的一个环节
就是我们讲到机器人的商业化
Peter你觉得在更加垂直跟更加泛化的这个机器人的商业化上
你更看好谁
或者说趋势有发生什么样的变化
这是一个大家很关注问题
但是要给大家喷个冷水的是
其实通用机器人今天没有什么商业化的先例
或者说今天还在非常早期
虽然大家对机器人的商业化充满了很高的期待
但是我们要意识到
其实今天的通用机器人还是在一个前期研究和底层的这个技术突破
技术探索的一个阶段
所以今天真正出现在市场上
或者已经有商业化
有确切的产品化的机器人产品
基本上都是各种专业场景
或者说各种具体的细分场景的落地
而即便如此
其实真正成功的
真正规模能够达到百万台甚至千万台的机器人的这个场景也是非常少的
发表回复