李飞飞创业的神情交出了第一个产物:一个能从单张相片生成近似游戏 3D 场景的 AI 系统。从恶果是功能来看,比所谓的文生图、文生视频强了好多,而且还撑捏交互修改,是不是元寰宇的寰宇,就要来了?
李飞飞创立的 World Labs 推出了首个神情 —— 一个能从单张相片生成近似游戏 3D 场景的 AI 系统,其专有性在于撑捏交互且不错修改。
World Labs 的系统能为场景提供交互恶果和动画,举例篡改物体的神采和动态拯救配景灯光。
该系统属于一个新兴的 AI 类别——“寰宇模子”(World Models),许多此类模子不错模拟游戏和 3D 环境,但时常存在伪影和一致性问题。
初创公司 Decart 的 Minecraft 模拟寰宇模子 Oasis 阔别率较低,何况容易“健忘”关卡布局。
World Labs 在官方博客中提到,当今的大精深生成式 AI 器具生成的是 2D 实际,比如图像或视频,而生成 3D 实际则提高了截止力和一致性。
这将改变咱们制作电影、游戏、模拟器以偏执他物理寰宇数字推崇样式的景色。
World Labs 的系统将图片改革为可交互和探索的 3D 场景。用户不错通过使用箭头键或 WASD 出动,然后单击并拖动鼠标来探索这些 AI 生成的场景。
这些场景在浏览器中及时渲染,并配备可调的模拟景深恶果(DoF)。
官网上提供了一个调度景深的滑块,景深恶果越强,配景物体就越磨叽。
World Labs 的设施确保了生成的场景在生成后保捏不变,并顺从基本的物理法例,具有一定的实体感和深度感。
World Labs 还撑捏模拟推拉变焦,同期拯救录像机的位置和视野:
World Labs 还提到,大精深生成模子揣测的是像素,而揣测 3D 场景则具有许多上风:
捏久的现实感:一朝生成了一个寰宇,它会保捏领路。若是你暂时离开视野,然后再纪念,场景不会发生变化。这种捏久性提供了更连贯的体验,幸免了传统生成模子中场景不一致的情况。 及时截止:在生成场景后,用户不错及时在场景中目田出动。举例,你不错停驻来仔细不雅察一朵花的细节,大概绕过一个边际,望望背后守密了什么。这种及时互动使场景更具千里浸感和探索性。 正确的几何结构:World Labs 生成的寰宇顺从 3D 几何的基本物理章程。这些场景具有实体感和深度感,与某些 AI 生成视频的梦境性质变成对比,更濒临现实体验。深度图是将 3D 场景投影到二维空间的一种景色,它通过像素的神采浅深来抒发物体的遐迩。
举例,离录像机较近的像素可能被默契为亮色,而较远的像素则为暗色。这种景色直不雅地展示了场景的三维空间结构,为修复者和用户贯穿场景的深度和布局提供了病笃器具。
通过这些特质,World Labs 的技巧为生成式 AI 3D 场景奠定了坚实基础,并大幅提高了实际的交互性、确凿性和一致性。
临了,World Labs 还展示了一条视频,作家 Brittani Natali 将 World Labs 的技巧与 Midjourney、Runway、Suno、ElevenLabs、Blender 和 CapCut 等器具相伙同的责任经由。
本文由东谈主东谈主皆是产物司理作家【江天 Tim】,微信公众号:【有新Newin】,原创/授权 发布于东谈主东谈主皆是产物司理,未经许可,退却转载。
题图来自Unsplash,基于 CC0 左券。