GAIA: 一个严苛的智能体基准

首页 > 智能化

GAIA: 一个严苛的智能体基准

发布时间：2024-07-09 16:22:35 已收录作者：管理员阅读：868次

什么是智能体？

一句话: 智能体是基于大语言模型 (LLM) 的系统，可以根据当前用例的需要调用外部工具，也可以不调用，并根据 LLM 的输出进行后续步骤的迭代。工具可以包括从 Web 搜索 API 到 Python 解释器的任何东西。

形象类比: 所有程序都可以描述为图表。先做 A，再做 B。If/else 分支是图中的岔路口，但它们不会改变图的结构。我们将 智能体 定义为: LLM 输出将改变图结构的系统。智能体决定调用工具 A 或工具 B 或不调用任何工具，它决定是否再运行一步: 这些都会改变图的结构。您可以将 LLM 集成到一个固定的工作流中，比如在 LLM judge 中，但这并不是一个智能体系统，因为 LLM 的输出不会改变图的结构。

下面是两个执行检索增强生成的不同系统的插图: 一个是经典的，其图结构是固定的。但另一个是智能体的，图中的一个循环可以根据需要重复。

Classical vs Agentic RAG

智能体系统赋予大语言模型 (LLM) 超能力。详情请阅读我们早期关于 Transformers Agents 2.0 发布的博客。

GAIA 是智能体最全面的基准测试。GAIA 中的问题非常难，突出了基于 LLM 的系统的某些困难。

以下是一个棘手问题的例子:

在 2008 年的画作《乌兹别克斯坦的刺绣》中展示的水果中，哪些是 1949 年 10 月海洋班轮早餐菜单的一部分，该班轮后来作为电影《最后的航程》的漂浮道具使用？请将这些水果按逗号分隔的列表给出，并根据它们在画作中的排列顺时针顺序，从 12 点位置开始。使用每种水果的复数形式。

你可以看到这个问题涉及几个难点:

以约束格式回答。
多模态能力，需要从图像中读取水果。
需要收集多个信息，有些信息依赖于其他信息:

图片中的水果
用作《最后的航程》漂浮道具的海洋班轮的身份
上述海洋班轮 1949 年 10 月的早餐菜单

上述内容迫使正确的解决路径使用几个链式步骤。

解决这个问题需要高水平的计划能力和严格的执行力，这恰恰是 LLM 难以应对的两个领域。

因此，它是测试智能体系统的绝佳测试集！

在 GAIA 的公开排行榜上，GPT-4-Turbo 的平均成绩不到 7%。最高的提交是一种基于 Autogen 的解决方案，使用了复杂的多智能体系统并利用 OpenAI 的工具调用功能，达到了 40%。

下面让我们继续

上一篇：已经是第一篇

下一篇：已经是最后一篇

版权声明：本站文章由 移动应用开发网 发表

转载请注明出处：GAIA: 一个严苛的智能体基准 _ 移动应用开发网

评论区

表情

共0条评论

看了这么棒的一篇内容，你难道不想评论点什么吗~

站内搜索

博主信息

移动应用开发网

致力于IT技术应用及智能化学习和研究。

博主推荐

热门标签