星海系列:东说念主形机器东说念主与AI大模子之Robot+AI的Transformer之旅

星海系列:东说念主形机器东说念主与AI大模子之Robot+AI的Transformer之旅

➢ 从 Transformer 到多模态大模子的演进与应用。Transformer 不仅在言语 处理上粗野应用,还膨胀至图像、视频、音频等多模态任务。诸如 Stable Diffusion、VideoPoet 和 MusicLM 等模子展现了其巨大的生成才调,鼓舞了 多模态大模子(MLLM)的发展。

➢ 机器东说念主施行寰宇至数据化的冲破:RT-2、RoboCat 与 MimicGen。RT-2 通过大限制的视觉-言语预检修,将视觉识别与初级机器东说念主限制荟萃,达成了机 器东说念主在复杂任务和未见环境中的巨大泛化才调。RoboCat 则基于 Gato 模子, 展示了多任务和多具身平台上的自我迭代学习才调,概况快速符合新任务并生成 跨任务计谋。英伟达的 MimicGen 自动生成宽阔效法学习数据,灵验减少了东说念主 工干涉,擢升了机器东说念主学习的遵循。

➢ 特斯拉 FSD,端到端算法成为主流,数据为关键。2020 年 FSD 引入 Transformer 模子,走向了数据开始的模子范式,2024 岁首 FSD V12 竣工接受 神经汇集进行车辆限制,从机器视觉到开始决策齐将由神经汇集进行限制。FSD V12 概况模拟东说念主类驾驶决策,成为自动驾驶范围全新发展旅途。

➢ 英伟达 Robocasa:具体智能关键节点,初次论证 real-sim-real。通过升 级模拟平台并构建模拟框架,基于厨房场景和原子任务、复合任务、确切寰宇三 个场景网罗活动数据集并进行末端评估。阐述模拟器的丰富千般性以及视觉和物 理确切性显贵改善了模拟成果,实验末端初次论证了 real-sim-real 可行。

➢ 后续演绎:在机器东说念主 real-sim-real 可行,讲解存在 scaling law 的基础 上,捏续推选可实践任务的泛化才调,迈向信得过的 AGI 智能化:1)李飞飞 Rekep: 一种针对机器东说念主操作任务的新式空间和时代不休暗意技艺,提供了一种三任务闭 环的搞定决策。通过关键点不休解构机器东说念主活动,将操作活动分为多阶段,并构 建子策划不休和旅途不休,基于此提议一种三任务闭环的搞定决策。同期,融入 大型视觉模子和视觉-言语模子,运用 VLM 和 GPT-4o 生成 Rekep 不休,幸免 了手动指定 Rekep 的需要。2)1x 寰宇模子:首证膨胀定律,能通过宽阔学习 清爽周围环境。通过宽阔真的切数据学习和模拟,机器东说念主概况量度复杂的物体互 动,清爽周围环境,并生动支吾闲居任务。1x 的进展初次在机器东说念主上讲解了膨胀 限定。3)GR-2 的高效四肢量度与泛化才调。由字节跨越研讨团队建造的第二代 机器东说念主大模子,凭借大限制视频预检修和多模态学习技巧,展示了不凡的泛化能 力与多任务通用性。4)数字表亲:机器东说念主检修法优化,以更低的老本获取更好 的泛化才调。在保留数字孪生上风的基础上,数字表亲发扬出了更强的符合才调 和鲁棒性,成效达成了从模拟到施行的零样本移动,为机器东说念主学习在复杂、多变 真的切环境中的应用拓荒了新的可能性。

免责声明:咱们尊重学问产权、数据诡秘,只作念本体的网罗、整理及共享,论述本体来源于汇集,论述版权归原撰写发布机构通盘,通过公开正当渠说念获取,如波及侵权,请实时考虑咱们删除,如对论述本体存疑,请与撰写、发布机构考虑

Rekep机器东说念主模子模态任务发布于:广东省声明:该文不雅点仅代表作家本东说念主,搜狐号系信息发布平台,搜狐仅提供信息存储空间办事。




Powered by 数字视野网 @2013-2022 RSS地图 HTML地图