新加坡国立大学的谋略团队近期公布了一项令东谈主详实的谋略遵循,他们针对Claude这一东谈主工智能(AI)系统进行了宽绰的才能测试,测试遮掩了向上20个不同的利用场景。
在测试中,Claude展现出了惊东谈主的电脑操控才能,不仅冒失应付完成手机上的日常任务,还冒失在复杂的办公环境中中途落发。谋略团队杰出遴荐了热点手游《崩坏:星穹铁谈》动作测试对象之一,通过浅薄的指示,如“帮我完成今天的模拟寰球”,Claude便能自动实施游戏中的各项任务,包括驱动构兵、恭候铁心并退出,通盘这个词过程怒放自如。
值得戒备的是,Claude的操控并非浅薄的机械重迭,而是基于对游戏法例和联想的长远判辨。它冒失把柄游戏界面的不同任务进行智能革新,展现出极高的无邪性和安妥性。
除了在游戏界限的出色发扬,Claude在办公场景中通常大放异彩。谋略团队联想了一个基于Claude Computer Use API的自动化GUI框架,该框架涵盖了系统提醒、情状不雅察、推理范式等多个模块。通过这个框架,Claude冒失实施包括网页搜索、责任历程处分以及办公坐褥力软件操作等在内的多项日常办公任务。
举例,在Amazon和Apple的官方网站上,Claude冒失告捷完成下单购物的全过程,包括遴荐商品神思、树立以及填写成绩地址等技艺,无需东谈主工插手。
尽管在复杂网页操作和办公软件使用中,Claude也遭受了部分挑战,但举座而言,其发扬也曾相称出色。谋略团队还圆润地公开了通盘测试用例的具体信息,供其他谋略者和建设者参考和进一步探索。这一举措无疑将鼓动AI时期在更多界限的利用和发展。