OpenAI 发布 AI 智能体 Operator，能像东谈主类一样自主操控浏览器，有哪些技艺亮点？

发布日期：2025-03-04 06:15 点击次数：161

奥特曼指导团队毫无预警地开启半小时「Operator」在线直播，初次揭秘能像东谈主类一样使用电脑的AI。

演示中，AI智能体不仅不错精确联接指示，还能自主完成各样任务。

而它的独到之处在于，不错顺利与网页交互——打字、点击、转化，简直一气呵成。

比如，自动填写繁琐的在线表单、上网购物、创建花样包、处理叠加性浏览器任务等等。

「Operator」背后操盘手即是Computer-Using Agent （CUA），冲突了特定编程接口的局限，像东谈主类一场顺利与GUI进行交互。

从此，通往AGI谈路上的又一大瓶颈被扫除。智能体不错在数字天下中四处行动了！

OpenAI官博将此称为，AI与数字天下的「通用界面」。

「Operator」究竟有多横蛮？

在多个测试环境中，CUA告成率令东谈主瞠目：在OSWORLD上完成盘算推算机使用任务告成率高达38.1%，比此前SOTA升迁近16%；在WebArena上完成浏览器使用任务告成率达到58.1%，性能飙升22%。

不外与东谈主类（72.4%和78.2%）相较之下，AI的才略如故有所差距。

在WebVoyager上，CUA更是达到了惊东谈主的87%。

好音书是，「Operator」终于上线。而坏音书是，现在独一Pro好意思国用户才略体验。

为了弥补这一缺憾，奥特曼提前剧透了，o3-mini顺利在ChatGPT中「开源」，Plus用户会有更多用量。

天然然则，咱们其实也不错用国产「Operator」替代一波（手动狗头）

跟着Operator的弘扬发布，总裁Greg也再一次强调，「2025年，就是智能体之年」。

话未几说，顺利演出示。

AI接管PC订餐，但直播小翻车

咱们不错在Operator中弃取OpenTable，让它订一张今晚7点在Beretta的两东谈主位子。

不错看到，输入查询后，Operator会实例化指示，创建在云霄运行的浏览器操作。

随后，Operator转到了搜索Beretta的URL。相适时东谈主惊喜的是，OpenTable默许的地址是弗吉尼亚，但它自动更正为旧金山。

再比如，咱们作念饭需要鸡蛋、菠菜、鸡大腿和辣椒。在纸上写下这些食材后，就不错顺利传给Operator，同期告诉他咱们偏好的商店是Gus。

在这种情况下，Operator很快就字据GPT-4o的视觉功能联接了图中的兴趣，还明白Gus商店是那里。

接下来，就像OpenTable一样，它实例化了一个浏览器，然后启动了购买要道。

要是在以前，要是咱们想用智能体践诺雷同操作，就必须细目特定网站有API，况兼这个API有一切所需的功能，关连词，大部分网站都是莫得API的。

而CUA通过教模子使用咱们日常使用的基本界面，它就解锁了一系列以前无法造访的软件！

不错看到，在践诺操作的流程中，Operator进行了一些内在独白，回顾出了念念维链。

然后它弃取了鸡蛋，点击了添加按钮。而且每践诺一个操作还会给电脑截个图，这样它就知谈我方的操作对电脑有什么影响。

接下来，它点击搜索框，输入菠菜。这种选用行动、握取屏幕截图、创建子筹谋的轮回会一直持续，直到任务完成。

天然，东谈主类也不错随时接过Operator的扫尾权，这就保证了用户随时不错扫尾Operator，并向它发出指示。

兴趣兴趣的是，东谈主类接管之后，Operator并不成看到咱们在接管模式下作念的事——这就保证了巧妙性。

接下来，OpenAI的商议者给它下达了一项新任务：用StubHub买四张本周末旧金山枭雄队比赛、票价500以下的门票。

很是真的的是，Operator小翻车了一下。

那就让它试试，买明早圣玛丽澳网公开赛的门票。Operator立马大开引擎，张开搜索。

随后，商议者们让Operator定10个中等披萨，指示发出后，它会主动向东谈主类证据任务。

而在骨子购买时，也会需要东谈主类登录我方的账号，才略完成下一步操作。

问题来了：要是Operator买错东西、订错货仓了若何办呢？无用驰念，这种情况下，东谈主类需要随时证据，它才略不时行动。

要是它遭遇骗取网站，对此还会有一个辅导注入监视器，功能跟防病毒软件一样，不错不雅察和监视它的操作，遭遇可疑之处立马住手。

L3级AGI达成，开启下一场东谈主机交互翻新

复古Operator的中枢技艺Computer-Using Agent（CUA），被西宾用于与图形用户界面GUI（在屏幕上看到的按钮、菜单和文本框）进行交互，就像东谈主类一样。这就让它具有了很高的生动性，无需依赖操作系统或特定网页API，从而能够完成各式数字化任务。

更进一步的，通过将高档GUI感知与结构化问题科罚才略鸠合在一谈，CUA还不错将任务理解为多款式筹谋，并在遭遇挑战时自安妥纠错。

CUA能够如斯之强，是因为诞生在OpenAI多年舛误商议——多模态、推理和安全性限制基础之上。通过交融GPT-4o的视觉才略、深度推理技艺和创新的强化学习方法，研发团队攻克了AI操作盘算推算机的诸多技艺难关。

其最大的突破在于，已矣了通用界面。

传统AI频频被局限于有利的API，而CUA不错像东谈主类一样操作任何软件器具。这意味着，AI能安妥简直总共的盘算推算机环境，科罚AI始终以来难以波及的「长尾」数字使用场景。

还紧记此前，彭博爆料的OpenAI里面AGI阶梯图吗？Operator的出世，意味着L3级智能体时期弘扬开启！

下一个方针，OpenAI还将推广智能体的动作空间。接下来几周/几个月，咱们还将会看到更多的智能体。

此外，他们还筹谋敞开API接口，闪开拓者能够基于CUA构建自界说的盘算推算机智能体。

OpenAI下场智能体Operator，概况将成为下一场东谈主机交互翻新的起首。

盘算推算机使用智能体：AI与数字天下交互的通用界面

那么，CUA具体是若何责任的？

技艺讲解：https://cdn.openai.com/operator_system_card.pdf

如下是它的责任旨趣图，CUA领会过处理「原始像素数据」来联接屏幕上露馅的内容，并使用杜撰鼠标和键盘完成操作。

它不错践诺多款式任务、应付作假并安妥随机变化。

基于这些上风，使得CUA能够在各式数字环境中阐扬作用，比如填写表单和浏览网站，而无需依赖特定的API。

字据用户的指示，CUA通过一个鸠合感知、推理和行动的迭代轮回来运行：

感知：从盘算推算机截取的屏幕快照被添加到模子的高下文中，为其提供现时盘算推算机情状的视觉参考。推理：CUA使用念念维链（CoT）算计下一步操作，同期研究现时和往日的屏幕快照过甚践诺的操作。这种内在独白通过让模子评估不雅察内容、追踪中间款式并进行动态诊疗来提高任务完成的恶果。行动：CUA践诺操作——点击、转化或输入——直到判断任务完成或需要用户输入。尽管它不错自动完成大多数款式，但对于敏锐操作（如输入登录信息或处理考据码表单），CUA会寻求用户证据。刷新SOTA，但与东谈主类差一大截

CUA在盘算推算机使用和浏览器使用的基准测试中，通过使用妥洽的屏幕、鼠标和键盘界面，刷新了SOTA。

浏览器使用

WebArena和WebVoyager专为评估网页浏览AI智能体，在浏览器中完成履行任务的性能而瞎想。

WebArena哄骗自托管的开源离线网站，模拟履行任务场景，举例电子商务、在线商店内容治理系统（CMS）以及外交论坛平台等。WebVoyager则测试模子在亚马逊、GitHub和Google舆图等在线及时网站上的任务完成表露。

在这些基准测试中，CUA通过合并个通用界面设定了新程序。该界面将浏览器屏幕视为「像素」，并通过鼠标和键盘践诺操作。

如前所述，在基于网页的任务中，CUA在WebArena上的任务告成率为58.1%，而在WebVoyager上达到了惊东谈主的87%。

尽管CUA在职务相对浮浅的WebVoyager上表露出较高的告成率，但在更复杂的基准测试（如WebArena）中，CUA仍需进一步优化，以收缩与东谈主类表露之间的差距。

比如，让CUA去「剑桥辞书的Plus专区，无用登录，平凡作念一个语法小测试，然后告诉我你考了些许分」。

只见AI一步一步找到测验，并启动刷题，最终赢得满分12分。

在屏幕左侧，不错潜入看到它每一步操作流程，其中「束缚截图」（New screenshot）是复古它完成任务的蹙迫款式。

生涯中购物常会遭遇退款问题，CUA也能算了了。

给定一个完好的指示——我应该能从2023年2月取消的订单中赢得些许退款，包括运脚？

CUA就会投入购物平台one-stop-shop，大开「我的订单」，并通过日历、订单号查找总共可用的信息，然后盘算推算得出退款总金额：406.53。

再比如，破解一个复杂推理题——6阶多格骨牌（Polyominoes）组合状貌，以及在总共阵势中，独一2行阵势有些许种。

CUA一样是通过屏幕截图，盘算推算找到最终解：「在35种不同的6阶多格骨牌组合中，有12种阵势独一两行。」

对于法子员们来说很是使用的场景——更新名见地许可，CUA也能作念到。

盘算推算机使用

OSWorld是一个评估模子扫尾完好操作系统（如Ubuntu、Windows和macOS）才略的基准测试。

在该基准测试中，CUA告成率达到了38.1%。

此外，商议东谈主员还不雅察到测试时的性能推广（test-time scaling），即当允许更多操作款式时，CUA性能会进一步升迁。

下图比较了CUA和之前SOTA模子在不同最大允许款式下的表露。

东谈主类在该基准测试中的表露为72.4%，因此CUA仍有显耀的修订空间。

以下可视化示例展示了CUA若何完成多种程序化OSWorld任务。

假定你想要下载Python在线课程，现在依然告成下载Week 0课程课本，剩下几周PDF文献的下载，王人备不错交给AI去作念。

这类叠加性任务，AI最擅长不外了，而且你还会有大把期间去作念别的事。

比较之下，在图片压缩的任务中，CUA似乎很是「纠结」。

在诊疗图片质料时，不仅叠加了数次「设为60%」，期间还一度出现了160%、360%这种奇怪的设定。

不外，在一番逶迤之后，CUA最终如故完成了任务。

CUA并非100%可靠

现在，OpenAI通过Operator商议预览版提供了CUA——一种不错上网为你践诺任务的智能体。

前边依然提到了，Operator现在也只面向好意思国的Pro用户敞开，进口是operator.chatgpt.com。

与任何早期技艺一样，CUA还仅仅一个初出茅屋的AI，并不成在总共场景中雄厚运行。

不外，它依然在多种情况下讲授了其实用性，OpenAI但愿将这种可靠性拓展到更多任务场景。

不才表中，他们展示了CUA在Operator中字据辅导词完成少许检修的表露，以说明其已知的上风和颓势。

其中，OpenAI明白指出：对于不同的网站和用户界面，CUA可靠性会有所不同。

CUA在践诺浮浅叠加的UI责任比较擅长。

即即是合并个任务，CUA的可靠性可能会字据态状任务的状貌而改动。在这种情况下，不错通过以下状貌进行修订：

提供具体的期间细节（比如，用「上昼9点到12点」而不是无极地说「从上昼9点启动的全天」）提供对于应该使用哪些UI界面元素来查找扫尾的辅导（比如，辅导「稽查筛选器部分」）

简言之，越具体，AI更容易联接你的意图。

当CUA需要与它在西宾流程中很少贸易过的UI界面进行交互时，它很难准确判断若何适合地使用这些UI。

这泛泛会导致无数的试错流程和低效的操作。

此外，CUA在文本剪辑方面并不精确。它时常在处理流程中犯好多作假，或者提供带有作假的输出。

是以，能我方用电脑的AI，对东谈主类满盈安全吗？

OpenAI是这样说的：在开拓CUA时，他们将安全性行动了高大任务，以应付「智能体造访数字天下所带来的挑战」。比如，它会绝交「购买刀兵」之类的无益任务。

而在以后，通过荟萃的真的天下反应，他们还会束缚修订安全措施。

热点资讯