智谱技术开源CogAgent-9B模型，赋能AI智能体精准“解读”GUI界面-快讯-智快网

智谱技术开源CogAgent-9B模型，赋能AI智能体精准“解读”GUI界面

发布时间：2024-12-27 09:18 来源：ITBEAR 作者：冯璃月

近日，智谱技术团队在官方公众号上宣布了一项重大进展，正式开源了名为CogAgent-9B-20241220的基座模型。这款模型是基于GLM-4V-9B进行训练的，专为智能体（Agent）任务设计，具有极高的实用价值。

CogAgent-9B-20241220的最大特点是其独特的输入方式。与以往需要HTML等文本表征的模型不同，它仅需屏幕截图作为输入，便能根据用户指定的任意任务，结合历史操作，精准预测下一步的GUI（图形用户界面）操作。这一特性使得CogAgent能够广泛应用于个人电脑、手机、车机设备等基于GUI交互的各类场景。

相较于去年12月开源的第一版CogAgent模型，新版本在多个方面实现了显著提升。在GUI感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面，CogAgent-9B-20241220均展现出了卓越的性能。它还支持中英文双语的屏幕截图和语言交互，进一步拓宽了其应用范围。

CogAgent的输入简洁明了，仅包含三部分：用户的自然语言指令、已执行的历史动作记录和GUI截图。无需任何文本形式表征的布局信息或附加元素标签，这使得模型的输入处理更加高效和便捷。

CogAgent的输出则涵盖了四个方面，包括思考过程、下一步动作的自然语言描述、下一步动作的结构化描述以及下一步动作的敏感性判断。其中，思考过程部分显式输出了模型理解GUI截图和决定下一步操作的思考过程，包括状态和计划两部分，输出内容可通过参数进行控制。自然语言形式的动作描述被加入历史操作记录，便于模型理解已执行的动作步骤。结构化描述则以类似函数调用的形式，描述了下一步操作及其参数，便于端侧应用解析并执行。

在动作空间方面，CogAgent包含了GUI操作和拟人行为两类。GUI操作是基础动作，如左键单击、文本输入等；而拟人行为则是高级动作，如应用启动、调用语言模型等。模型还对下一步动作的敏感性进行了判断，将动作分为“一般操作”和“敏感操作”两类，后者指可能带来难以挽回后果的动作。

为了验证CogAgent-9B-20241220的性能，智谱技术团队在多个数据集上进行了测试，并与GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick等模型进行了比较。结果显示，CogAgent在多个数据集上均取得了领先的结果，充分证明了其在GUI Agent领域的强大实力。

更多>同类内容