跟着东说念主工智能时间的束缚率先,大型谈话模子(LLMs)正在改造咱们与图形用户界面(GUI)的互动方式。本文综述了如何附近LLMs增强GUI自动化代理的才调,通过当然谈话指示兑现敌手机和电脑的智能操作。这种时间的发展不仅提高了自动化的纯真性和智能性,还为GUI自动化领域带来了新的询查场合和应用远景。
来自《Large Language Model-Brained GUI Agents: A Survey》综述转头
这篇著述要处理的问题是如何附近大型谈话模子(LLMs)来增强图形用户界面(GUI)自动化代理的才调。具体来说,询查如何通过LLMs的阐扬注解复杂GUI元素和基于当然谈话指示自主实行为作来兑现更智能、更纯的确自动化。
该问题的询查关连责任包括早期的基于剧本或法例的措施、比年来引入的机器学习和计较机视觉时间、以及最近的大型谈话模子在GUI自动化中的应用。
附近大型谈话模子(LLMs)来增强GUI自动化代理的措施:
架构和经过:一个基本的LLM驱动GUI代理的架构,包括操作环境、辅导工程、模子推理、看成实行和内存治理五个主要组件。操作环境郑重感知面前环境景况,辅导工程构建输入辅导以指点LLM进行推理,模子推理生成主义和看成,看成实行模拟用户操作,内存治理用于追踪多门径任务的景况。
平台特定感知:针对不同平台(出动教导、Web、桌面操作系统),代理使用不同的器具和时间来感知环境景况。举例,出动教导使用Accessibility API,Web使用Selenium,桌面操作系统使用Windows UI Automation。
辅导工程:辅导工程是要害门径,波及将用户苦求、环境景况、可用看成等信息整合成一个结构化的输入辅导。公式:Prompt=User Request+Agent Instruction+Environment States+Action Documents+Demonstrated Examples+Complementary Information
模子推理:模子推理部分将结构化辅导输入到LLM中,生成主义和看成。LLM不错生成多种类型的输出,包括想象、看成和补充信息。
看成实行:看成实行部分将推理后果漂浮为具体的用户界面操作,如点击、输入文本、滚动等。代理还使用各样器具和时间来增强其操作才调,如API调用和AI器具。
要害问题及申报
问题1:LLM-brained GUI代理在架构和经过上有哪些要害组件?它们各自的作用是什么?
LLM-brained GUI代理的架构包括五个主要组件:操作环境、辅导工程、模子推理、看成实行和内存治理。
操作环境:郑重感知面前环境景况,包括通过截图、控件属性和UI元素树等方式获取GUI的视觉和结构信息。
辅导工程:将用户指示和环境数据整合成结构化输入,确保LLMs大概理奉命务需求并生成合适的看成。辅导包括用户指示、环境景况、看成文档、示范示例和补充信息等。
模子推理:通过LLMs生成主义和看成。推理过程包括想象和看成揣测两个主要门径。想象部分将永远任务剖释为可治理的子任务,并使用链式想维(CoT)等措施进行想象;看成揣测部分则将想象后果漂浮为具体的看成序列。
看成实行:将推理后果漂浮为推行的看成,这些看成不错是圭臬的UI操作、原生API调用或AI器具的使用。通过这些看成,代理大概在GUI环境中实行复杂的任务。
内存治理:关于多步任务的实行至关紧迫。短期操心(STM)用于存储面前任务的关连信息,而永远操心(LTM)则用于存储历史任务数据和计策。通过内存治理,代理大概在多步任务中保握连接性和一致性。
这些组件共同确保LLM-brained GUI代理大概高效、准确地实行复杂的GUI自动化任务。
问题2:LLM-brained GUI代理在数据采集和预处理方面有哪些具体的措施和门径?
数据采集:
用户指示:不错通过东说念主工想象、现存数据集或LLM生成。东说念主工想象的指示需要确保隐蔽各样推行应用场景,现存数据集不错提供运转的指示样本,而LLM生成则不错扩展指示的各样性和复杂性。
环境感知:包括GUI截图、控件属性和UI元素树等。截图不错通过屏幕捕捉器具获取,控件属性和UI元素树则不错通过特殊的器具和库提真金不怕火。
任务轨迹:需要记载代理实行任务过程中的每一步操作,包括点击、输入、滚动等,以生成完满的任务轨迹。
数据预处理:
数据清洗:去除叠加、无效或诞妄的数据,确保数据的准确性和一致性。
去重:识别并摒弃数据集中的叠加项,幸免对模子磨练形成侵略。
形状化:将数据调遣为稳当模子磨练的形状,如长入的数据结构和编码方式。
数据增强:通过变换、扩张和剪辑等妙技增多数据集的各样性和复杂性,提高模子的泛化才调。
通过这些数据采集和预处理门径,LLM-brained GUI代理大概得回高质料、各样化的磨练数据,从而普及其在复杂GUI环境中的发扬。
问题3:LLM-brained GUI代理在模子推理和看成实行方面有哪些鼎新的时间和措施?
模子推理:
想象和看成揣测:将永远任务剖释为可治理的子任务,并使用链式想维(CoT)等措施进行想象。看成揣测部分则将想象后果漂浮为具体的看成序列。
多模态处理:联结文本和图像信息,普及模子对复杂GUI环境的解析才调。举例,使用视觉谈话模子(VLM)和视觉变换器(ViT)联结文本和图像数据进行推理。
强化学习:通过强化学习优化代理的看成选拔和实行计策,迥殊是在需要多步操作和永远想象的任务中发扬优异。
看成实行:
圭臬UI操作:包括点击、输入、滚动等基本的用户界面操作。
原生API调用:附近特定应用的API进行更复杂的任务操作,如文献操作、蚁集苦求等。
AI器具的使用:集成OCR、图像生成、数据分析等AI器具,普及代理在复杂任务中的发扬。举例,使用DALL·E生成图像,使用ChatGPT进行文本生成和问答。
这些鼎新的时间和措施使得LLM-brained GUI代理大概在复杂多变的GUI环境中兑现高效的自动化任务,普及了代理的稳当性和智能化水平。
本文由东说念主东说念主齐是居品司理作家【陈宇明】,微信公众号:【码个蛋】,原创/授权 发布于东说念主东说念主齐是居品司理,未经许可,谢绝转载。
题图来自Unsplash,基于 CC0 左券。