Type something to search...
Agentic Ai 推理规模:优化性能和成本效率的五个关键维度

Agentic Ai 推理规模:优化性能和成本效率的五个关键维度

了解 AI Agent 的定价

1. 简介

围绕 ChatGPT(通常是生成式 AI)的讨论,现在已经演变为 agentic AI。虽然 ChatGPT 主要是一个可以生成文本回复的聊天机器人,但 AI Agent 可以自主执行复杂的任务,例如,进行销售、计划旅行、预订航班、预订承包商来完成房屋工作、订购披萨。下图说明了 agentic AI 系统的演变。

图:Agentic AI 演变(作者供图)

比尔·盖茨最近设想了一个未来,我们将拥有一个 AI Agent,它能够处理和响应自然语言并完成许多不同的任务。盖茨以计划旅行为例。

通常情况下,这将涉及您自己预订酒店、航班、餐厅等。但是,AI Agent 将能够利用其对您偏好的了解,代表您预订和购买这些东西。

虽然 AI Agent 的好处是显而易见的,但它们也伴随着高昂的价格标签 :) 在本文中,我们深入探讨了如何对编排多个 LLM Agent 的 agentic AI 系统进行定价/规模调整。

我们首先考虑影响 LLM 推理规模调整的维度,例如,

  • 输入和输出上下文窗口,
  • 模型大小,
  • 首个 token 延迟、最后一个 token 延迟;
  • 吞吐量。

然后,我们将这些维度外推到 agentic AI:

  • 将 token 延迟映射到执行第一个 Agent 与完整编排的延迟;
  • 将(前一个)Agent 的输出与整体执行状态/上下文理解一起考虑为后续 Agent 的输入上下文窗口大小的一部分;
  • 适应 agentic 执行中固有的不确定性。

2. 生成式 AI 和 Agentic AI 架构模式

生成式和 agentic AI 解决方案的范围各不相同,我们预计它们将通过不同的应用程序/平台进入企业领域。例如,这可以通过以下方式实现:

  • 直接使用基于 LLM 的应用程序,例如 ChatGPT;
  • 嵌入在 SaaS 产品或企业平台中的 LLM,例如 Salesforce、ServiceNow;或
  • 使用企业数据进行微调的基础模型,用于战略用例。

因此,作为第一步,我们确定并概述了当今相关的生成式 AI 和 agentic AI 架构模式。

图:生成式 AI 生命周期(作者供图)

2.1 黑盒 LLM API

这是经典的 ChatGPT 场景,我们对 LLM API/UI 具有黑盒访问权限。类似的 LLM API 可用于其他自然语言处理 (NLP) 核心任务,例如,知识检索、摘要、自动更正、翻译、自然语言生成 (NLG)。

提示是这里主要的交互机制,可以包含用户查询和任务。

图:LLM API(作者供图)

提示是指调整用户输入,为 LLM API 提供正确的上下文和指导 — 以最大限度地提高获得“正确”响应的机会。它导致了提示工程作为一门专业学科的兴起,提示工程师系统地进行试验,记录他们的发现,以得出“正确”的提示来得出“最佳”响应。

请参阅我之前关于企业提示存储的文章,详细讨论了提示工程、冲突提示的问题以及将它们整合为提示模板的形式。

2.2 嵌入式 LLM 应用程序

在本节中,我们讨论嵌入在企业平台中的 LLM,例如 Salesforce、SAP、ServiceNow;或者作为即用型企业应用程序在 LLM 提供商的应用商店中提供,例如 Google、Open AI。

企业 LLM 应用程序有可能通过提供企业就绪型解决方案来加速 LLM 的采用。但是,您需要像使用第三方机器学习 (ML) 模型一样谨慎 — 验证 LLM/训练数据所有权、知识产权 (IP)、责任条款。

数据所有权:数据对于受监督的 AI/ML 系统至关重要,特别是对于 LLM 而言,LLM 通常在公共数据集上进行训练,这些数据集的 AI/ML 训练数据使用权尚未明确定义,并且将来可能会发生变化。例如,参考Reddit 的声明,他们表示将开始对从其极其人性化的档案中学习的企业 AI/ML 模型收费。

鉴于此,不仅要协商训练数据的所有权问题,还要协商输入数据、输出数据和其他生成数据的所有权问题,这一点至关重要。另一方面,了解/评估企业应用程序提供商将如何使用由于其与用户的交互而接收/生成的数据也很重要。

图:嵌入在企业应用程序/平台中的 LLM 应用程序(作者供图)

2.3 LLM 微调/特定领域的 SLM

LLM 本质上是通用的。为了充分发挥 LLM 在企业中的潜力,需要使用企业知识(以文档、维基、业务流程等形式捕获)对其进行情境化。在大多数情况下,这种情境化是通过使用企业数据对 LLM 进行微调来实现的 — 创建一个特定领域的小型语言模型 (SLM)。

微调需要获取预先训练的 LLM,并使用(较小的)企业数据对其进行重新训练。

从技术上讲,这意味着更新训练好的神经网络的最后一层(或几层)的权重,以反映企业数据和任务。

鉴于此,需要访问基础模型权重才能执行微调,这对于封闭模型(例如 GPT)是不可能的。这就是开源预训练 LLM 派上用场的地方,例如 Meta AI 的 LLaMA 系列 LLM。斯坦福 Alpaca 项目表明,可以以 600 美元的价格对 LLaMA 进行微调 — 达到与 ChatGPT 相当的模型性能。因此,

微调 LLM 不一定需要很复杂或昂贵。

图:使用企业数据进行 LLM 微调(作者供图)

2.4 Retrieval-Augmented-Generation (RAG)

Fine-tuning 是一个计算密集型过程。

RAG 通过在提示中提供额外的上下文来提供 fine-tuning 的可行替代方案——将检索/响应建立在给定的上下文中。

这可以采用一组文档的形式,这些文档首先使用索引文档或向量搜索进行检索,然后作为上下文提供给提示以限制响应。如今,大多数 LLM 平台都允许提示相对较大,因此可以将此企业上下文嵌入为提示的一部分。

给定一个用户查询,RAG 管道实际上由以下 3 个阶段组成:

图:检索增强生成 — RAG (作者提供)

  • Retrieve:将用户查询转换为嵌入(向量格式),以将其相似度分数(搜索)与其他内容进行比较。
  • Augment:使用从向量存储中检索到的搜索结果/上下文,该向量存储保持最新状态并与底层文档存储库同步。
  • Generate:通过使检索到的块成为提示模板的一部分来生成上下文相关的响应,该模板为 LLM 提供了关于如何回答查询的额外上下文。

2.5 Agentic AI — LLM 编排

这是企业将能够通过编排/组合多个现有 AI 代理来开发新的企业 AI 代理的未来。下图突出了此类参考 AI 代理平台的关键组件:

  • 代理市场
  • 编排层
  • 集成层
  • 共享内存层
  • 治理层,包括可解释性、隐私、安全性等。

图:AI 代理平台参考架构 (作者提供)

给定一个用户任务,我们提示 LLM 进行任务分解——这与 Gen AI 有重叠。不幸的是,这也意味着今天的 agentic AI 系统受到大型语言模型 (LLM) 的推理能力的限制。例如,GPT4 任务分解的提示

生成一个量身定制的电子邮件活动,以在一个月内实现 100 万美元的销售额,适用的产品及其性能指标可在 [url] 处获得。连接到 CRM 系统 [integration] 以获取客户姓名、电子邮件地址和人口统计详细信息。

在图 3 中有详细说明:(分析产品) — (确定目标受众) — (创建量身定制的电子邮件活动)。

图 3:营销用例的 Agentic AI 执行 (作者提供)

然后,LLM 监视执行/环境并根据需要自主调整。在这种情况下,代理意识到它无法实现其销售目标,并自主添加了任务:(寻找替代产品) — (利用客户数据来个性化电子邮件) — (执行 A/B 测试)。

鉴于需要编排多个代理,因此需要一个集成层来支持不同的代理交互模式,例如,代理到代理 API、代理 API 提供供人类使用的输出、人类触发 AI 代理、带有环路中人类的 AI 代理到代理。底层 AgentOps 平台需要支持集成模式。

同样重要的是要提到,对于大多数用例,都需要与企业系统(例如,本例中的 CRM)集成。例如,请参阅 Anthropic 最近提出的模型上下文协议 (MCP),用于将 AI 代理连接到企业数据所在外部系统。

鉴于此类复杂任务的长期性质,内存管理是 Agentic AI 系统的关键。一旦启动了最初的电子邮件活动,代理就需要监控该活动 1 个月。

这需要任务之间的上下文共享以及在较长时间内保持执行上下文。

这里的标准方法是将代理信息的嵌入表示保存到向量存储数据库中,该数据库可以支持最大内积搜索 (MIPS)。为了快速检索,使用近似最近邻 (ANN) 算法,该算法返回大约前 k 个最近邻,并以准确性为代价进行权衡,以获得巨大的速度提升。

最后,治理层。我们需要确保用户共享的特定于任务的数据,或跨任务的用户配置文件数据;仅与相关代理共享(隐私、身份验证和访问控制)。请参阅我之前关于负责任的 AI 代理文章,讨论了用于实现一个管理良好的 AI 代理平台的关键维度,这些维度涉及幻觉护栏、数据质量、隐私、可重复性、可解释性等。

3. LLM 推理规模调整维度

在本节中,我们将深入探讨如何执行推理规模调整,以部署第 2 节中讨论的一些架构模式之后的生成式 AI 用例。

大型语言模型 (LLM) 推理规模调整取决于许多用例维度,主要包括:

  • 输入和输出上下文窗口:高层次上,单词被转换为 token,像 Llama 这样的模型运行大约 4k-8k 个 token,或者大约 3000–6000 个英文单词。
  • 模型大小:我们是以全精度运行模型,还是运行量化版本?
  • 首个 token 延迟、token 间延迟、最后一个 token 延迟;最后,
  • 吞吐量:定义为 LLM 在给定时间内可以处理的请求数量。

让我们首先考虑批处理场景。在这里,我们主要知道我们的输入和输出上下文长度;因此重点是优化吞吐量。(由于执行的离线/批处理性质,延迟在这里并不重要。)为了实现高吞吐量:

  • 确定您的 LLM 是否适合一个 GPU?
  • 如果不是,应用流水线/张量并行来优化所需的 GPU 数量。然后,将批处理大小增加到尽可能大。

对于流式场景,我们需要考虑吞吐量和延迟之间的权衡。为了理解延迟,让我们看一下典型 LLM 请求的处理阶段:预填充和解码(如下图所示)。

图:LLM 处理阶段:预填充和解码(作者提供)

预填充是指按下“enter”键到屏幕上出现第一个输出 token 之间的延迟。解码发生在生成响应中的其他单词时。在大多数请求中,预填充占端到端延迟的 20% 以下,而解码占 80% 以上。

鉴于此,大多数 LLM 实现倾向于在生成 token 后立即将它们输出回客户端——以减少延迟。

总而言之,在流模式下,我们主要关心首次 token 的时间,因为这是客户端等待第一个 token 的时间。之后,以下 token 的生成速度要快得多,并且生成速率通常快于普通人的阅读速度。

请注意,对于RAG 管道,即使是首个 token 延迟也可能非常高。

这是因为 RAG 通常针对整个上下文窗口,以将检索到的(相关)文档的块添加到输入上下文/提示中。在顺序模型中,我们必须等待最终结果;因此,我们关心端到端延迟。这是生成(响应)输出序列中所有 token 的时间。

最后,关于延迟和吞吐量之间的权衡——增加批处理大小(同时通过 LLM 运行多个请求)往往会使延迟变差,但吞吐量更好。当然,升级底层硬件/GPU 可以同时提高吞吐量和延迟。请参阅 Nvidia 关于LLM 推理规模调整的教程,以详细讨论此主题。

4. Agentic AI 推理规模调整注意事项

在第 3 节中,我们详细讨论了影响单个 LLM 用例的规模调整/定价维度。在本节中,我们将相同的概念扩展到 agentic AI——它可以被认为是多个 LLM 用例/agent 的编排。

Andrew Ng 最近谈到了这方面:

如今,许多 LLM 输出都供人类使用。但在一个 agentic 工作流程中,LLM 可能会被反复提示以反映和改进其输出、使用工具、计划和执行多个步骤,或实现协作的多个 agent。因此,在向用户显示任何输出之前,我们可能会生成数十万个或更多的 token。这使得快速 token 生成变得非常理想,并使较慢的生成成为充分利用现有模型的瓶颈。

下面我们重点介绍了将 LLM 扩展到 agentic AI 推理规模调整的关键步骤:

图:Agentic AI 推理规模调整/定价维度(作者提供)

4.1 Agent 可观察性

Token 延迟映射到agent 处理延迟。首个 token 与端到端 token 延迟的讨论映射到在这种情况下完整编排/分解计划的首个 agent 与端到端执行延迟。

因此,我们需要平衡在 agent 执行完成时立即流式传输 agent 执行输出的需求,以及在完整编排执行终止后输出结果的需求。

有关详细讨论,请参阅我之前关于 AI agent 的有状态表示的文章文章,该文章支持 agentic 编排的实时和批处理可观察性

4.2 Agentic 上下文窗口大小

一个 agent 的输出成为下一个 agent 在多 agent 编排中执行的输入。因此,很可能(至少一部分)前一个 agent 的输出以及整体执行状态/上下文理解(存储在内存管理层中)将成为传递给下一个 agent 的输入上下文的一部分——这需要作为 agentic 上下文窗口大小要求的一部分来考虑。

4.3 Agentic AI 执行中的非确定性

最后,我们需要考虑 agentic AI 系统中固有的非确定性。例如,让我们考虑一下下图所示的电子商务场景。

图:具有非确定性的电子商务场景(作者提供)

执行计划中有两个非确定性运算符:“检查信用”和“交付模式”。“交付模式”的选择表明用户可以直接从商店取货或将其运送到他的地址。鉴于此,运输是一项非确定性任务,并且可能不会在实际执行期间被调用。

总而言之,考虑到编排中存在“选择”运算符,我们不知道作为特定执行的一部分将执行的确切任务/agent。

这里可以应用不同的策略,包括完全扁平化执行计划,以确定可以作为最佳情况和最坏情况(峰值)场景的一部分执行的任务/agent。

请参阅我们的 ICAART 2024 论文(约束启用的自主 agent 市场:发现和匹配),详细讨论了适用于 agentic AI 执行中非确定性的策略

5. 结论

虽然自主 AI 系统的优势显而易见,但它们也是复杂的系统,从推理定价的角度来看,很难对其进行“规模化”。

为此,我们在本文中概述了如何对生成式和自主 AI 系统执行推理规模调整。我们首先确定了当今流行的关键架构模式。然后,我们重点介绍了影响已识别架构模式的推理规模调整的相关维度,例如 LLM API、RAG 等。然后,我们提供了一个映射,以将已识别的维度(来自单个 LLM 用例)外推到 LLM 代理的编排中——就像在自主 AI 的情况下一样。

我们认为,有效地对生成式/自主 AI 系统进行定价是将其投入生产的关键,这项工作将对推动其企业采用做出重大贡献。

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

AI 研究报告和论文写作 合并两个系统指令以获得两个模型的最佳效果 Perplexity AI 的 Deep Research 工具提供专家级的研究报告,而 OpenAI 的 ChatGPT-o3-mini-high 擅长推理。我发现你可以将它们结合起来生成令人难以置信的论文,这些论文比任何一个模型单独撰写的都要好。你只需要将这个一次性提示复制到 **

阅读更多
让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

Non members click here作为一名软件开发人员,多年来的一个发现总是让我感到惊讶,那就是人们还在 Excel

阅读更多
使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

10 个常见问题解答 本文是我推出的一个名为“10 个常见问题解答”的新系列的一部分。在本系列中,我旨在通过回答关于该主题的十个最常见问题来分解复杂的概念。我的目标是使用简单的语言和相关的类比,使这些想法易于理解。 图片来自 [Solen Feyissa](https://unsplash.com/@solenfeyissa?utm_source=medium&utm_medi

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

在AI军备竞赛中分辨事实与虚构 DeepSeek AI真的是它所宣传的游戏规则改变者,还是仅仅聪明的营销和战略炒作?👀 虽然一些人将其视为AI效率的革命性飞跃,但另一些人则认为它的成功建立在借用(甚至窃取的)创新和可疑的做法之上。传言称,DeepSeek的首席执行官在疫情期间像囤积卫生纸一样囤积Nvidia芯片——这只是冰山一角。 从其声称的550万美元培训预算到使用Open

阅读更多
Type something to search...