智谱 CogAgent-9B:开启 GUI Agent 技术新时代,引领智能交互变革

在数字化时代,图形用户界面(GUI)已成为人机交互的核心。智谱AI最新开源的CogAgent-9B-20241220模型,标志着GUI Agent技术的重大进步。本文将详细介绍CogAgent-9B的技术架构、优化、应用与性能评估,以及GUI Agent的未来展望。

CogAgent的诞生与发展

1.1 CogAgent-9B-20241220的发布

CogAgent-9B-20241220是基于视觉语言模型(VLM)的开源GUI代理模型,它的独特之处在于仅依赖于屏幕截图作为输入,不需要HTML等文本表征。这一创新使得CogAgent能够在各种基于GUI交互的场景中应用,如个人电脑、手机、车机设备等。

1.2 CogAgent执行过程

CogAgent-9B-20241220执行用户指令的过程如下:

  • 以GUI截图为唯一的环境输入,结合已经完成的动作历史,计算当前GUI截图中最合适的动作。
  • 根据更新后的历史动作和截图,计算后续的操作。
  • 重复上述过程,直到CogAgent认为指令执行完毕。

CogAgent-9B的技术架构与优化

2.1 模型基座和结构升级

CogAgent使用更强大的视觉语言模型GLM-4V-9B作为基座模型,大幅提升了模型的基座图像理解性能。在视觉处理模块上,CogAgent实现了更高效统一的视觉处理模块,支持1120×1120原生高分辨率图像输入。

2.2 数据集丰富与完善

CogAgent团队广泛收集并整合了多种数据集,包括无监督数据和GUI指令微调数据集。这些数据集的丰富性和多样性为CogAgent提供了更广泛的训练和测试基础,使其能够更好地适应实际应用场景。

2.3 预训练与后训练策略优化

在预训练阶段,CogAgent引入了GUI Grounding预训练方法,通过屏幕截图和layout对,构造界面子区域和layout表征的对应关系。在后训练阶段,CogAgent采用了更科学的GUI agent后训练策略,使模型具备了更强的分析、推理、预测能力。

CogAgent-9B的应用与性能评估

CogAgent-9B-20241220在多个数据集上的测试结果显示了其卓越的性能。尤其是在Screenspot、OmniAct、CogAgentBench-basic-cn、OSworld等数据集上,CogAgent均取得了领先的成绩。模型在多平台、多类别的GUI agent及GUI grounding benchmarks上取得了当前最优的结果。

CogAgent-9B的主要功能

  • GUI理解和操作: CogAgent-9B能够理解并操作图形用户界面(GUI),执行如点击按钮、输入文本等任务,极大地提升了与GUI交互的自动化能力。

  • 屏幕截图输入: 模型仅依赖屏幕截图作为输入,无需HTML等文本表征,使其在多种设备上应用灵活,简化了操作流程。

  • 高分辨率处理: 支持高达1120×1120像素的高分辨率图像输入,CogAgent-9B能够处理更复杂的视觉信息,提高了操作的精确度。

  • 双语交互:支持中文和英文的屏幕截图和语言交互,增强了模型的国际化应用能力,满足全球用户的需求。

  • 预测GUI操作:根据用户指定的任务和历史操作,CogAgent-9B能够预测下一步的GUI操作,实现自动化任务的智能执行。

  • 自动化任务执行:CogAgent-9B能模拟用户操作,自动化执行一系列GUI任务,提高了工作效率和减少了重复劳动。

  • 跨平台应用:适用于个人电脑、手机、车机等多种基于GUI交互的场景,展现了极强的跨平台、跨系统泛化能力。

  • 性能领先:在多个GUI操作数据集上取得了领先成绩,显示了CogAgent-9B卓越的性能。

CogAgent-9B的技术原理

  • 视觉语言模型(VLM):CogAgent-9B构建在强大的视觉语言模型GLM-4V-9B之上,能够处理视觉数据(如屏幕截图)和文本信息,实现对GUI元素的理解和操作。

  • 双流注意力机制:采用双流注意力机制,将视觉元素映射到它们的文本标签或描述,增强了模型预测用户意图和执行相关操作的能力。

  • GUI Grounding预训练:在预训练阶段,CogAgent-9B引入了GUI Grounding预训练方法,通过屏幕截图和layout对,构造界面子区域和layout表征的对应关系,提升模型对视觉输入和GUI界面的基础理解能力。

  • 数据集丰富与完善:CogAgent-9B团队广泛收集并整合了多种数据集,包括无监督数据和GUI指令微调数据集,为模型提供了广泛的训练和测试基础。

  • 预训练与后训练策略优化:CogAgent-9B在预训练阶段引入了GUI Referring Expression Generation (REG)和GUI Referring Expression Comprehension (REC)任务,以构建界面子区域与布局表征的对应关系。在后训练阶段,采用了更科学的GUI agent后训练策略,使模型具备了更强的分析、推理、预测能力。

  • 模型推理及思维链优化:CogAgent-9B将思维链分解为Status(当前屏幕状态)、Plan(全局计划)、Action(下一步自然语言描述)、Operation(下一步形式语言描述),并通过随机采样混合多种模式训练数据,灵活调整和控制推理过程中的实际输出。

  • 动作空间完善:CogAgent-9B明确了基础动作空间,并新增了LLM、QUOTE_TEXT、LAUNCH等高级动作,增强了模型的使用工具和交互能力。

CogAgent-9B的项目地址

CogAgent-9B-20241220 在 Screenspot、OmniAct、CogAgentBench-basic-cn 和 OSWorld 等数据集上进行了测试,并与 GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick 等模型进行了比较。结果显示,CogAgent 在多个数据集上取得了领先的结果,证明了其在 GUI Agent 领域强大的性能。

 

CogAgent-9B的应用场景

  • 自动化测试:在软件开发中,CogAgent-9B可以用于自动化测试,模拟用户操作来测试应用程序的GUI,提高测试效率和覆盖率。

  • 智能助手:作为智能个人助理,CogAgent-9B可以帮助用户自动完成日常任务,如日程管理、邮件处理等。

  • 客户服务:在客户服务领域,CogAgent-9B可以通过自动化操作来辅助客服人员,快速响应客户需求并执行相关操作。

  • 智能家居控制:CogAgent-9B可以集成到智能家居系统中,通过GUI控制家中的各种智能设备。

  • 智能座舱:在汽车领域,CogAgent-9B可以用于智能座舱系统,通过GUI与车载信息娱乐系统交互,提供更安全、便捷的驾驶体验。

GUI Agent的未来展望

随着CogAgent-9B-20241220的发布,GUI Agent的研究和工程热又迈入一个新的台阶。智谱表示此版CogAgent模型已被应用于智谱AI的GLM-PC产品,并预计在2025年Q1会开展公测。GUI Agent产品有望在更多的应用领域中得到应用,如智能家居、智能座舱等,为用户提供更智能、更便捷的交互体验。
智谱AI开源的CogAgent-9B模型,以其强大的功能、先进的技术原理和广泛的应用场景,为GUI Agent领域带来了新的发展机遇。随着技术的不断迭代和优化,CogAgent-9B有望在未来的智能体领域中发挥越来越重要的作用,引领AI智能体“看懂”屏幕的新潮流。

 

© 版权声明

相关文章