AI让手机任务自动跑起来!我国高校最新盘考,简化出动配置操作

AI让手机任务自动跑起来!我国高校最新盘考,简化出动配置操作

MOE KLINNS Lab投稿

量子位 | 公众号 QbitAI

AI自若碳基生物双手,致使能让你的手机我方玩我方!

你没听错——这其实即是出动任务自动化。

在AI飞快发展下,这渐渐成为一个新兴的热点盘考限度。

出动任务自动化讹诈AI精确捕捉并理解东谈主类意图,进而在出动配置(手机、平板电脑、车机末端)上高效推论千般化任务,为那些因融会局限、肉体条目扫尾或身处特殊情境下的用户提供前所未有的通俗与维持。

匡助视障东谈主群用户完成导航、阅读或网上购物援救老年东谈主使用手机,朝上数字范畴匡助车主在驾驶过程中完成发送短信或调节车内环境替用户完成日常生存中广阔存在的重迭性任务……

姆妈再也不嫌重迭竖立多个日期事项会心烦了。

最近,来自西安交通大学智能收罗与收罗安全训导部重心实践室 (MOE KLINNS Lab)的蔡忠闽教化、宋云鹏副教化团队(团队主要盘考地点为智能东谈主机交互、搀杂增强智能、电力系统智能化等),基于团队最新AI盘考后果,改革性提议了基于视觉的出动配置任务自动化决议VisionTasker。

这项盘考不仅为普通用户提供了更智能的出动配置使用体验,也展现出了对特殊需求群体的关爱与赋能。

基于视觉的出动配置任务自动化决议

团队提议了VisionTasker,一个鸠集基于视觉的UI清醒和LLM任务测度的两阶段框架,用于迟缓已毕出动任务自动化。

该决议有用舍弃了示意UI对视图端倪结构的依赖,提高了对不同应用界面的相宜性。

值得负责的是,讹诈VisionTasker无需广阔数据进修大模子。

VisionTasker从用户以当然讲话提议任务需求开动责任, Agent开动清醒并推论指示。

具体已毕如下:

1、用户界面清醒

VisionTasker通过视觉的递次作念UI清醒来理解息争释用户界面。

最初Agent识别并分析用户界面上的元素及布局,如按钮、文本框、笔墨标签等。

然后,将这些识别到的视觉信息改革成当然讲话描绘,用于解释界面内容。

2、任务测度与推论

接下来,Agent讹诈大讲话模子导航,把柄用户的指示和界面描绘信息作念任务测度。

将用户任务拆解为可推论的身手,如点击或滑动操作,以自动鞭策任务的完成。

3、握续迭代以上过程

每一步完成后,Agent王人会把柄最新界面和历史动作更新其对话和任务测度,确保每一步的决策王人是基于面前高下文的。

这是个迭代的过程,将握续进行直到判断任务完成或达到预设的扫尾。

用户不仅能从交互中自若双手,还不错通过可见指示监控任务程度,并随时中断任务,保握对通盘历程的限度。

最初是识别界面中的小部件和文本,检测按钮、文本框等元素荒谬位置。

关于莫得文本标签的按钮,讹诈 CLIP 模子基于视觉运筹帷幄来推断其可能功能。

随后,系统把柄 UI 布局的视觉信息进行区块辨别,将界面分割成多个具有不同功能的区块,并对每个区块生成当然讲话描绘。

这个过程还包括文本与小部件的匹配,确保正确清醒每个元素的功能。

最终,悉数这些信息被改革为当然讲话描绘,为大讲话模子提供明晰、语义丰富的界面信息,使其或然有用地进行任务测度和自动化操作。

实践评估

实践评估部分,该名目提供了对三种UI清醒的相比分析,分别是:

GPT-4VVH(视图层级)VisionTasker递次

对比清楚,VisionTasker在多个维度上比其他递次有显赫上风。

此外,在惩处跨讲话应用时也进展出了精致的泛化智商。

△ 实践1中使用到的常见UI布局

标明VisionTasker的以视觉为基础的UI清醒递次在清醒息争释UI方面具有明显上风,尤其是在靠近千般化和复杂的用户界面时尤为明显。

△跨四个数据集的单步瞻望准确性

著述还进行了单步瞻望实践,把柄面前的任务景色和用户界面,瞻望接下来应该推论的动作或操作。

扫尾清楚,VisionTasker在所稀有据集上的平均准确率达到了67%,比基线递次提高了15%以上。

果真宇宙任务:VisionTasker vs 东谈主类

实践过程中,盘考东谈主员运筹帷幄了147个果真的多身手任务来测试VisionTasker的进展,这些任务涵盖了国内常用的42个应用程序。

与此同期,团队还竖立了东谈主类对比测试,由12名东谈主类评估者手动推论这些任务,然后VisionTasker的扫尾进行相比。

扫尾清楚,VisionTasker在大多数任务中能达到与东谈主类相称的完成率,况兼在某些不熟识的任务中进展优于东谈主类。

△本体任务自动化实践的扫尾 “Ours-qwen”是指使用开源Qwen已毕VisionTasker框架,”Ours”示意使用文心一言算作LLM

团队还评估了VisionTasker在不同条目下的进展,包括使用不同的大讲话模子(LLM)和编程演示(PBD)机制。

VisionTasker 在大多数直不雅任务中达到了与东谈主类相称的完成率,在熟识任务中略低于东谈主类但在不熟识任务中优于东谈主类。

△VisionTasker迟缓完成任务的展示

论断

算作一个基于视觉和大模子的出动任务自动化框架,VisionTasker克服了现阶段出动任务自动化对视图层级结构的依赖。

通过一系列对比实践,阐明其在用户界面进展上卓越了传统的编程演示和视图层级结构递次。

它在4个不同的数据集上王人展示了高效的UI示意智商,进展出更平常的应用性;并在Android手机上的147个果真宇宙任务中,非凡是在复杂任务的惩处上,进展了出卓越东谈主类的任务完成智商。

此外,通过集成编程演示(PBD)机制,VisionTasker在职务自动化方面有显赫的性能栽种。

现在,该责任已以谨慎论文的边幅发表于2024年10月13-16日在好意思国匹兹堡举行的东谈主机交互顶级会议UIST(The ACM Symposium on User Interface Software and Technology)。

UIST是东谈主机交互限度专注于东谈主机界面软件和本领改革的CCF A类顶级学术会议。

原文一语气:https://dl.acm.org/doi/10.1145/3654777.3676386

名目一语气:https://github.com/AkimotoAyako/VisionTasker

— 完 —

量子位 QbitAI · 头条号签约

关注咱们,第一时辰获知前沿科技动态






Powered by 数字视野网 @2013-2022 RSS地图 HTML地图