克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
东谈主类只需要演示五次,就能让机器东谈主学会一项复杂技术。
英伟达实验室,提倡了机器东谈主查考数据零落问题的新处治决议——DexMimicGen。
五次演示之后,DexMimicGen就不错平直师法出1000个新的demo。
而且可用性强,用这些新demo查考出的机器东谈主,在仿真环境中的任务奏效用不错高达97%,比用真东谈主数据效果还要好。
参与此神气的英伟达科学家范麟熙(Jim Fan)以为,这种用机器查考机器的式样,处治了机器东谈主边界最大的痛点(指数据汇集)。
同期,Jim Fan还预言:
机器东谈主数据的将来是生成式的,统共机器东谈主学习历程的将来也将是生成式的。
值得一提的是,DexMimicGen三名共团结作都是李飞飞的“徒孙”,具体说是德克萨斯大学奥斯汀分校(UT奥斯汀)助清醒释朱玉可(Yuke Zhu)的学生。
而且三东谈主均为华东谈主,当今都在英伟达究诘院实习。
5次演示,生成1000条数据
如前所述,DexMimicGen不错仅字据东谈主类的5次演示,生成1000个新DEMO。
在统共实验中,作家成立了9个场景,涵盖了3种机器东谈主状貌,共进行了60次演示,得回了21000多个生成DEMO。
在仿真环境当中,用DexMimicGen生成数据查考出的战术履行整理抽屉这一任务,奏效用可达76%,而单纯使用东谈主工数据唯独0.7%。
关于积木拼装任务,奏效用也从3.3%种植到了80.7%。
奏效用最高的任务是罐子分类,更是高达97.3%,只用东谈主工数据的奏效用相通唯独0.7%。
举座来看,在仿真环境中,生成数据让机器东谈主在作家想象的九类任务上的奏效用均昭彰增多。
比拟于baseline要领,用DexMimicGen生成的数据也更为有用。
迁徙到真正环境之后,作家测试了易拉罐分拣的任务,收尾仅用了40个生成DEMO,奏效用就达到了90%,而不使用生成数据时的奏效用为零。
除此除外,DexMimicGen还展现了跨任务的泛化智商,使查考出的战术在多样不同任务上推崇细致。
针对启动情状散播变化,DexMimicGen也体现出了较强的鲁棒性,在更平素的启动情状散播D1和D2上测试时,仍然大约领有一定的奏效用。
将仿真要领迁徙到施行
DexMimicGen是由MimicGen鼎新而成,MimicGen也出自英伟达和UT奥斯汀的调治团队。
朱玉可和范麟熙都参与过MimicGen的责任,该后果发表于CoRL 2023。
MimicGen的中枢想想,是将东谈主类示范数据分割成以想象物体为中心的片断,然后通过变换物体相对位置和姿态,在新环境中复现东谈主类示范轨迹,从而完毕自动化数据生成。
DexMimicGen则在MimicGen系统的基础上,针对双臂机器东谈主智谋操作任务作念了鼎新和扩张,具体包括几个方面:
引入并行、阿谀、规定三种子任务类型,以符合双臂智谋操作任务的需求;对应三种子任务类型,想象了异次序行、同次序行和睦序握住等机制,以完毕双臂的寂然动作、精密协同和特定规定操作;完毕了“施行-模拟-施行”的框架,通过构建数字孪生,将DexMimicGen拓展到了实质机器东谈主系统的愚弄。责任历程上,DexMimicGen会当先对东谈主类示范进行汇集和分割。
究诘东谈主员通过佩带XR头显,良友适度机器东谈主完成想象任务,在这一过程中就会产生一小批示范数据,作家针对每个任务汇集了5~10个东谈主类示范样本。
这些东谈主类示范样本会按照并行、阿谀、规定三种子任务界说被切分红片断——
并行子任务允许两臂寂然履行;阿谀子任务条目两臂在关键时刻同步动作;规定子任务则章程了某些子任务必须在另一些子任务完成后身手履行。总之,在示范数据被切分后,机器东谈主的每个手臂会得到我方对应的片断围聚。
在数据生成最先时,DexMimicGen立时化模拟环境中物体的位置、姿态等数据,独立时礼聘一个东谈主类示范当作参考。
关于现时子任务,DexMimicGen管帐算示范片断与现时环境中关键物体位置和姿态的变换。
之后用该变换对参考片断中的机器东谈主动作轨迹进行处理,以使履行这一变换后的轨迹大约与新环境中物体位置匹配。
生成变换后,DexMimicGen会选藏每个手臂的动作部队,手指要害的通顺则平直重放示范数据中的动作。
在统共过程中,系统陆续查验任务是否奏效完成,若是一次履行奏效完成了任务,则将履行过程记载下来当作有用的演示数据,失败则将数据丢弃。
之后等于将生成过程陆续迭代,直到得回满盈量的演示数据。
汇集好数据后,作家用DexMimicGen生成的演示数据查考师法学习战术,战术的输入为RGB相机图像,输出为机器东谈主动作。
临了是模拟到施行的迁徙,相通地,作家使用DexMimicGen在数字孪生环境中生成的大范围演示数据,查考师法学习战术。
之后作家对在数字孪生环境中评估查考得到的战术进行调优,以提高其泛化性能和鲁棒性,并迁徙到实质机器东谈主系统中。
作家简介
DexMimicGen的共团结作有三东谈主,都是UT奥斯汀的华东谈主学生。
何况三东谈主均出自李飞飞的学生、浙大学友朱玉可(Yuke Zhu)助清醒释门下,他们辩认是:
博士生Zhenyu Jiang,本科就读于清华,2020年投入UT奥斯汀,展望将于来岁毕业;硕士生Yuqi Xie(谢雨都),本科是上海交大和好意思国密歇根大学联培,展望毕业时辰亦然来岁;博士生Kevin Lin,本科和硕士辩认就读于UC伯克利和斯坦福,本年加入朱玉可课题组读博。朱玉可的另一重身份是英伟达的究诘科学家,团队的另外两名老成东谈主也都在英伟达。
他们辩认是Ajay Mandlekar和范麟熙(Jim Fan),也都是李飞飞的学生,Mandlekar是统共DexMimicGen神气组中唯独的非华东谈主。
另外,Zhenjia Xu和Weikang Wan两名华东谈主学者对此神气亦有孝顺,统共团队的单干如下:
△华文为机翻,仅供参考
神气主页:
https://dexmimicgen.github.io/论文地址:https://arxiv.org/abs/2410.24185参考聚积:[1]https://x.com/SteveTod1998/status/1852365700372832707[2]https://x.com/DrJimFan/status/1852383627738239324— 完 —
量子位 QbitAI · 头条号签约
眷注咱们,第一时辰获知前沿科技动态