GAIA: 一个严苛的智能体基准

发布时间:2024-07-09 16:22:35 已收录 阅读:292次

什么是智能体?

一句话: 智能体是基于大语言模型 (LLM) 的系统,可以根据当前用例的需要调用外部工具,也可以不调用,并根据 LLM 的输出进行后续步骤的迭代。工具可以包括从 Web 搜索 API 到 Python 解释器的任何东西。

形象类比: 所有程序都可以描述为图表。先做 A,再做 B。If/else 分支是图中的岔路口,但它们不会改变图的结构。我们将 智能体 定义为: LLM 输出将改变图结构的系统。智能体决定调用工具 A 或工具 B 或不调用任何工具,它决定是否再运行一步: 这些都会改变图的结构。您可以将 LLM 集成到一个固定的工作流中,比如在 LLM judge 中,但这并不是一个智能体系统,因为 LLM 的输出不会改变图的结构。

下面是两个执行 检索增强生成 的不同系统的插图: 一个是经典的,其图结构是固定的。但另一个是智能体的,图中的一个循环可以根据需要重复。

Classical vs Agentic RAG

智能体系统赋予大语言模型 (LLM) 超能力。详情请阅读 我们早期关于 Transformers Agents 2.0 发布的博客

GAIA 是智能体最全面的基准测试。GAIA 中的问题非常难,突出了基于 LLM 的系统的某些困难。

以下是一个棘手问题的例子:

在 2008 年的画作《乌兹别克斯坦的刺绣》中展示的水果中,哪些是 1949 年 10 月海洋班轮早餐菜单的一部分,该班轮后来作为电影《最后的航程》的漂浮道具使用?请将这些水果按逗号分隔的列表给出,并根据它们在画作中的排列顺时针顺序,从 12 点位置开始。使用每种水果的复数形式。

你可以看到这个问题涉及几个难点:

  • 以约束格式回答。

  • 多模态能力,需要从图像中读取水果。

  • 需要收集多个信息,有些信息依赖于其他信息:

    • 图片中的水果

    • 用作《最后的航程》漂浮道具的海洋班轮的身份

    • 上述海洋班轮 1949 年 10 月的早餐菜单

  • 上述内容迫使正确的解决路径使用几个链式步骤。

解决这个问题需要高水平的计划能力和严格的执行力,这恰恰是 LLM 难以应对的两个领域。

因此,它是测试智能体系统的绝佳测试集!

在 GAIA 的 公开排行榜 上,GPT-4-Turbo 的平均成绩不到 7%。最高的提交是一种基于 Autogen 的解决方案,使用了复杂的多智能体系统并利用 OpenAI 的工具调用功能,达到了 40%。

下面让我们继续

上一篇:已经是第一篇
下一篇:已经是最后一篇

版权声明:本站文章由 移动应用开发网 发表

转载请注明出处:GAIA: 一个严苛的智能体基准 _ 移动应用开发网

评论区

表情

共0条评论
  • 看了这么棒的一篇内容,你难道不想评论点什么吗~