Agentic Ai 推理规模：优化性能和成本效率的五个关键维度

Rifx.Online
Machine Learning , Generative AI , AI Applications
05 Mar, 2025

了解 AI Agent 的定价

1. 简介

围绕 ChatGPT（通常是生成式 AI）的讨论，现在已经演变为 agentic AI。虽然 ChatGPT 主要是一个可以生成文本回复的聊天机器人，但 AI Agent 可以自主执行复杂的任务，例如，进行销售、计划旅行、预订航班、预订承包商来完成房屋工作、订购披萨。下图说明了 agentic AI 系统的演变。

图：Agentic AI 演变（作者供图）

比尔·盖茨最近设想了一个未来，我们将拥有一个 AI Agent，它能够处理和响应自然语言并完成许多不同的任务。盖茨以计划旅行为例。

通常情况下，这将涉及您自己预订酒店、航班、餐厅等。但是，AI Agent 将能够利用其对您偏好的了解，代表您预订和购买这些东西。

虽然 AI Agent 的好处是显而易见的，但它们也伴随着高昂的价格标签 :) 在本文中，我们深入探讨了如何对编排多个 LLM Agent 的 agentic AI 系统进行定价/规模调整。

我们首先考虑影响 LLM 推理规模调整的维度，例如，

输入和输出上下文窗口，
模型大小，
首个 token 延迟、最后一个 token 延迟；
吞吐量。

然后，我们将这些维度外推到 agentic AI：

将 token 延迟映射到执行第一个 Agent 与完整编排的延迟；
将（前一个）Agent 的输出与整体执行状态/上下文理解一起考虑为后续 Agent 的输入上下文窗口大小的一部分；
适应 agentic 执行中固有的不确定性。

2. 生成式 AI 和 Agentic AI 架构模式

生成式和 agentic AI 解决方案的范围各不相同，我们预计它们将通过不同的应用程序/平台进入企业领域。例如，这可以通过以下方式实现：

直接使用基于 LLM 的应用程序，例如 ChatGPT；
嵌入在 SaaS 产品或企业平台中的 LLM，例如 Salesforce、ServiceNow；或
使用企业数据进行微调的基础模型，用于战略用例。

因此，作为第一步，我们确定并概述了当今相关的生成式 AI 和 agentic AI 架构模式。

图：生成式 AI 生命周期（作者供图）

2.1 黑盒 LLM API

这是经典的 ChatGPT 场景，我们对 LLM API/UI 具有黑盒访问权限。类似的 LLM API 可用于其他自然语言处理 (NLP) 核心任务，例如，知识检索、摘要、自动更正、翻译、自然语言生成 (NLG)。

提示是这里主要的交互机制，可以包含用户查询和任务。

图：LLM API（作者供图）

提示是指调整用户输入，为 LLM API 提供正确的上下文和指导 — 以最大限度地提高获得“正确”响应的机会。它导致了提示工程作为一门专业学科的兴起，提示工程师系统地进行试验，记录他们的发现，以得出“正确”的提示来得出“最佳”响应。

请参阅我之前关于企业提示存储的文章，详细讨论了提示工程、冲突提示的问题以及将它们整合为提示模板的形式。

2.2 嵌入式 LLM 应用程序

在本节中，我们讨论嵌入在企业平台中的 LLM，例如 Salesforce、SAP、ServiceNow；或者作为即用型企业应用程序在 LLM 提供商的应用商店中提供，例如 Google、Open AI。

企业 LLM 应用程序有可能通过提供企业就绪型解决方案来加速 LLM 的采用。但是，您需要像使用第三方机器学习 (ML) 模型一样谨慎 — 验证 LLM/训练数据所有权、知识产权 (IP)、责任条款。

数据所有权：数据对于受监督的 AI/ML 系统至关重要，特别是对于 LLM 而言，LLM 通常在公共数据集上进行训练，这些数据集的 AI/ML 训练数据使用权尚未明确定义，并且将来可能会发生变化。例如，参考Reddit 的声明，他们表示将开始对从其极其人性化的档案中学习的企业 AI/ML 模型收费。

鉴于此，不仅要协商训练数据的所有权问题，还要协商输入数据、输出数据和其他生成数据的所有权问题，这一点至关重要。另一方面，了解/评估企业应用程序提供商将如何使用由于其与用户的交互而接收/生成的数据也很重要。

图：嵌入在企业应用程序/平台中的 LLM 应用程序（作者供图）

2.3 LLM 微调/特定领域的 SLM

LLM 本质上是通用的。为了充分发挥 LLM 在企业中的潜力，需要使用企业知识（以文档、维基、业务流程等形式捕获）对其进行情境化。在大多数情况下，这种情境化是通过使用企业数据对 LLM 进行微调来实现的 — 创建一个特定领域的小型语言模型 (SLM)。

微调需要获取预先训练的 LLM，并使用（较小的）企业数据对其进行重新训练。

从技术上讲，这意味着更新训练好的神经网络的最后一层（或几层）的权重，以反映企业数据和任务。

鉴于此，需要访问基础模型权重才能执行微调，这对于封闭模型（例如 GPT）是不可能的。这就是开源预训练 LLM 派上用场的地方，例如 Meta AI 的 LLaMA 系列 LLM。斯坦福 Alpaca 项目表明，可以以 600 美元的价格对 LLaMA 进行微调 — 达到与 ChatGPT 相当的模型性能。因此，

微调 LLM 不一定需要很复杂或昂贵。

图：使用企业数据进行 LLM 微调（作者供图）

2.4 Retrieval-Augmented-Generation (RAG)

Fine-tuning 是一个计算密集型过程。

RAG 通过在提示中提供额外的上下文来提供 fine-tuning 的可行替代方案——将检索/响应建立在给定的上下文中。

这可以采用一组文档的形式，这些文档首先使用索引文档或向量搜索进行检索，然后作为上下文提供给提示以限制响应。如今，大多数 LLM 平台都允许提示相对较大，因此可以将此企业上下文嵌入为提示的一部分。

给定一个用户查询，RAG 管道实际上由以下 3 个阶段组成：

图：检索增强生成 — RAG (作者提供)

Retrieve：将用户查询转换为嵌入（向量格式），以将其相似度分数（搜索）与其他内容进行比较。
Augment：使用从向量存储中检索到的搜索结果/上下文，该向量存储保持最新状态并与底层文档存储库同步。
Generate：通过使检索到的块成为提示模板的一部分来生成上下文相关的响应，该模板为 LLM 提供了关于如何回答查询的额外上下文。

2.5 Agentic AI — LLM 编排

这是企业将能够通过编排/组合多个现有 AI 代理来开发新的企业 AI 代理的未来。下图突出了此类参考 AI 代理平台的关键组件：

代理市场
编排层
集成层
共享内存层
治理层，包括可解释性、隐私、安全性等。

图：AI 代理平台参考架构 (作者提供)

给定一个用户任务，我们提示 LLM 进行任务分解——这与 Gen AI 有重叠。不幸的是，这也意味着今天的 agentic AI 系统受到大型语言模型 (LLM) 的推理能力的限制。例如，GPT4 任务分解的提示

生成一个量身定制的电子邮件活动，以在一个月内实现 100 万美元的销售额，适用的产品及其性能指标可在 [url] 处获得。连接到 CRM 系统 [integration] 以获取客户姓名、电子邮件地址和人口统计详细信息。

在图 3 中有详细说明：(分析产品) — (确定目标受众) — (创建量身定制的电子邮件活动)。

图 3：营销用例的 Agentic AI 执行 (作者提供)

然后，LLM 监视执行/环境并根据需要自主调整。在这种情况下，代理意识到它无法实现其销售目标，并自主添加了任务：(寻找替代产品) — (利用客户数据来个性化电子邮件) — (执行 A/B 测试)。

鉴于需要编排多个代理，因此需要一个集成层来支持不同的代理交互模式，例如，代理到代理 API、代理 API 提供供人类使用的输出、人类触发 AI 代理、带有环路中人类的 AI 代理到代理。底层 AgentOps 平台需要支持集成模式。

同样重要的是要提到，对于大多数用例，都需要与企业系统（例如，本例中的 CRM）集成。例如，请参阅 Anthropic 最近提出的模型上下文协议 (MCP)，用于将 AI 代理连接到企业数据所在外部系统。

鉴于此类复杂任务的长期性质，内存管理是 Agentic AI 系统的关键。一旦启动了最初的电子邮件活动，代理就需要监控该活动 1 个月。

这需要任务之间的上下文共享以及在较长时间内保持执行上下文。

这里的标准方法是将代理信息的嵌入表示保存到向量存储数据库中，该数据库可以支持最大内积搜索 (MIPS)。为了快速检索，使用近似最近邻 (ANN) 算法，该算法返回大约前 k 个最近邻，并以准确性为代价进行权衡，以获得巨大的速度提升。

最后，治理层。我们需要确保用户共享的特定于任务的数据，或跨任务的用户配置文件数据；仅与相关代理共享（隐私、身份验证和访问控制）。请参阅我之前关于负责任的 AI 代理的文章，讨论了用于实现一个管理良好的 AI 代理平台的关键维度，这些维度涉及幻觉护栏、数据质量、隐私、可重复性、可解释性等。

3. LLM 推理规模调整维度

在本节中，我们将深入探讨如何执行推理规模调整，以部署第 2 节中讨论的一些架构模式之后的生成式 AI 用例。

大型语言模型 (LLM) 推理规模调整取决于许多用例维度，主要包括：

输入和输出上下文窗口：高层次上，单词被转换为 token，像 Llama 这样的模型运行大约 4k-8k 个 token，或者大约 3000–6000 个英文单词。
模型大小：我们是以全精度运行模型，还是运行量化版本？
首个 token 延迟、token 间延迟、最后一个 token 延迟；最后，
吞吐量：定义为 LLM 在给定时间内可以处理的请求数量。

让我们首先考虑批处理场景。在这里，我们主要知道我们的输入和输出上下文长度；因此重点是优化吞吐量。（由于执行的离线/批处理性质，延迟在这里并不重要。）为了实现高吞吐量：

确定您的 LLM 是否适合一个 GPU？
如果不是，应用流水线/张量并行来优化所需的 GPU 数量。然后，将批处理大小增加到尽可能大。

对于流式场景，我们需要考虑吞吐量和延迟之间的权衡。为了理解延迟，让我们看一下典型 LLM 请求的处理阶段：预填充和解码（如下图所示）。

图：LLM 处理阶段：预填充和解码（作者提供）

预填充是指按下“enter”键到屏幕上出现第一个输出 token 之间的延迟。解码发生在生成响应中的其他单词时。在大多数请求中，预填充占端到端延迟的 20% 以下，而解码占 80% 以上。

鉴于此，大多数 LLM 实现倾向于在生成 token 后立即将它们输出回客户端——以减少延迟。

总而言之，在流模式下，我们主要关心首次 token 的时间，因为这是客户端等待第一个 token 的时间。之后，以下 token 的生成速度要快得多，并且生成速率通常快于普通人的阅读速度。

请注意，对于RAG 管道，即使是首个 token 延迟也可能非常高。

这是因为 RAG 通常针对整个上下文窗口，以将检索到的（相关）文档的块添加到输入上下文/提示中。在顺序模型中，我们必须等待最终结果；因此，我们关心端到端延迟。这是生成（响应）输出序列中所有 token 的时间。

最后，关于延迟和吞吐量之间的权衡——增加批处理大小（同时通过 LLM 运行多个请求）往往会使延迟变差，但吞吐量更好。当然，升级底层硬件/GPU 可以同时提高吞吐量和延迟。请参阅 Nvidia 关于LLM 推理规模调整的教程，以详细讨论此主题。

4. Agentic AI 推理规模调整注意事项

在第 3 节中，我们详细讨论了影响单个 LLM 用例的规模调整/定价维度。在本节中，我们将相同的概念扩展到 agentic AI——它可以被认为是多个 LLM 用例/agent 的编排。

Andrew Ng 最近谈到了这方面：

如今，许多 LLM 输出都供人类使用。但在一个 agentic 工作流程中，LLM 可能会被反复提示以反映和改进其输出、使用工具、计划和执行多个步骤，或实现协作的多个 agent。因此，在向用户显示任何输出之前，我们可能会生成数十万个或更多的 token。这使得快速 token 生成变得非常理想，并使较慢的生成成为充分利用现有模型的瓶颈。

下面我们重点介绍了将 LLM 扩展到 agentic AI 推理规模调整的关键步骤：

图：Agentic AI 推理规模调整/定价维度（作者提供）

4.1 Agent 可观察性

Token 延迟映射到agent 处理延迟。首个 token 与端到端 token 延迟的讨论映射到在这种情况下完整编排/分解计划的首个 agent 与端到端执行延迟。

因此，我们需要平衡在 agent 执行完成时立即流式传输 agent 执行输出的需求，以及在完整编排执行终止后输出结果的需求。

有关详细讨论，请参阅我之前关于 AI agent 的有状态表示的文章文章，该文章支持 agentic 编排的实时和批处理可观察性。

4.2 Agentic 上下文窗口大小

一个 agent 的输出成为下一个 agent 在多 agent 编排中执行的输入。因此，很可能（至少一部分）前一个 agent 的输出以及整体执行状态/上下文理解（存储在内存管理层中）将成为传递给下一个 agent 的输入上下文的一部分——这需要作为 agentic 上下文窗口大小要求的一部分来考虑。

4.3 Agentic AI 执行中的非确定性

最后，我们需要考虑 agentic AI 系统中固有的非确定性。例如，让我们考虑一下下图所示的电子商务场景。

图：具有非确定性的电子商务场景（作者提供）

执行计划中有两个非确定性运算符：“检查信用”和“交付模式”。“交付模式”的选择表明用户可以直接从商店取货或将其运送到他的地址。鉴于此，运输是一项非确定性任务，并且可能不会在实际执行期间被调用。

总而言之，考虑到编排中存在“选择”运算符，我们不知道作为特定执行的一部分将执行的确切任务/agent。

这里可以应用不同的策略，包括完全扁平化执行计划，以确定可以作为最佳情况和最坏情况（峰值）场景的一部分执行的任务/agent。

请参阅我们的 ICAART 2024 论文（约束启用的自主 agent 市场：发现和匹配），详细讨论了适用于 agentic AI 执行中非确定性的策略。

5. 结论

虽然自主 AI 系统的优势显而易见，但它们也是复杂的系统，从推理定价的角度来看，很难对其进行“规模化”。

为此，我们在本文中概述了如何对生成式和自主 AI 系统执行推理规模调整。我们首先确定了当今流行的关键架构模式。然后，我们重点介绍了影响已识别架构模式的推理规模调整的相关维度，例如 LLM API、RAG 等。然后，我们提供了一个映射，以将已识别的维度（来自单个 LLM 用例）外推到 LLM 代理的编排中——就像在自主 AI 的情况下一样。

我们认为，有效地对生成式/自主 AI 系统进行定价是将其投入生产的关键，这项工作将对推动其企业采用做出重大贡献。