Type something to search...
构建高效ai代理的经验教训:成功与失败的关键因素分析

构建高效ai代理的经验教训:成功与失败的关键因素分析

我们在去年九月上线了一个物流 AI 代理,它能够自主检索失货,与承运商、客户和仓库进行沟通,并安排交付/退货。如果发生丢失或损坏,它可以从运输公司那里索取退款。我的团队和我还构建了其他AI代理系统,例如一个贸易标志 AI 代理,在互联网上搜索侵犯您知识产权的行为并采取行动。

AI 代理的话题现在正受到广泛关注,接近于生成性 AI 的整体关注度:

Image 2

Google趋势显示“生成性 AI”(蓝色)和“AI 代理”的搜索情况。来源:trends.google.com

代理 AI 和非代理生成性 AI 之间有什么区别? 这是我AI 代理逐步指南中的概述。

Image 3

传统 AI 与代理 AI,图片来源:Maximilian Vogel

AI 代理原型可以小且简单。在商业环境中,典型的生产性 AI 代理通常具有广泛而复杂的工作流程,以提供商业价值。 下面是一个示例(所示部分仅占总工作流程的约 7%)。

Image 4

代理工作流程可能变得相当复杂。图片来源:Maximilian Vogel。详细信息在这里

但现在让我们讨论我在 AI 代理项目中学到的东西:

1. 事实与虚构:准确性的斗争

对于聊天机器人或 AI 伴侣,有许多质量标准:CX、原创性、个性、创造力、语气或延迟。我们认为代理的标准也会类似。

我们了解到情况并非如此。

对于 端到端 AI 代理解决复杂任务,唯一的标准是准确性:如果它根据规则正确分类、提取、评估和处理输入数据,它就会成为巨大的效率提升器。如果它在 5%、3% 或有时甚至仅 1% 的情况下处理不正确,它可能会向客户和合作伙伴发送完全错误的信息、决策、报价、订单或协议。在没有严格的人类监督下,它无法使用,因此破坏了我们所有提高效率的努力

在初始开发阶段后,我们所有项目的关键问题是提高准确性:避免幻觉、不完整的提取、错误的分类和不充分的评估。有时这感觉就像过去的软件开发,你花费了大量时间进行测试和修复。

2. 要有雄心壮志:80%及以上的复杂任务全自动端到端处理显然是可能的

代理 AI 可以做的事情超过传统的生成性 AI。这不仅仅是在这里和那里增加一点自动化。这实际上是关于真正自动化团队或部门的大部分工作。 换句话说,真正完全替代大量人类工作。

理解“80%全自动端到端处理”意味着什么是极其重要的:系统可以决定每个案例是否属于它可以解决的20%案例。它处理的80%中,通常能以98%、99%或99.8%的准确性处理——见上面的准确性。其余的20%会被转交给其他人。

所以80%并不意味着它正确解决了80%,错误解决了20%,你必须猜测哪个案例属于80%,哪个属于20%。

全自动处理真正意味着什么。图片来源:Maximilian Vogel

3. 通过基于 KPI 的协议说服利益相关者、合作伙伴和客户

With AI workers, we can really write our promises in blood, and this approach can sell a project:

  • Don’t promise to build software with features a, b, c.
  • Promise the customer that you will process x percent of the cases in their company fully automatically and correctly.

Tell them in figures what percentage of their problems you will solve. End to end, completely, securely, reliably.

And most importantly, tie your compensation to that promise.

(But don’t kill yourself or your company by making this promise based on a gut feeling: First analyze 300, 500, 800 real and representative cases.)

4. 低代码、无代码很好,但不适合生产

关于如何通过几行代码、几次点击,或者仅仅通过在一个可以完成你工作的平台上雇佣它们来设置 AI 代理的讨论很多。

这些代理可以清理我的收件箱并将电子邮件分类到特定文件夹吗? 也许。 这些代理能够完成员工的工作,例如保险文员、物流履行经理或人力资源经理吗? 100% 安全、24/7 并且无需人工监督? 不,甚至不接近。

我们使用这些代理平台来玩耍或演示,但我们无法激励它们将准确性从 80% 提高到 99% 或 100%。

5. 思考帕累托

维尔弗雷多·帕累托是一位意大利工程师和博学者,他真正改变了我的职业生涯。他发现大多数社会现象中存在类似的不平等。社会中20%的人拥有80%的财富。或者一个更近期的例子:5%的用户生成了90%的社交媒体互动。

帕累托思维意味着完全专注于重要的、统计上相关的案例,并忽略其余部分。真正地忽略。不要讨论,不要深入,不要计划。

在我的AI代理项目中,帕累托思维意味着完美解决 那15或20个案例,这些案例占据了80%到90%的工作量。投入有限的时间和金钱来自动化80%,而将20%留给以往的处理方式(人力团队、外部呼叫中心、忽略,随便)。

否则,这将会发生:我对帕累托规则的最大违反是在客户的要求下,实施一个稀有而复杂的流程,和基本案例一起进行。我们后来在分析中看到,每个月大约有3个人在使用这个流程。这几乎让我哭了。 对于我们在工程和测试上花费的资金,我们本可以带着铜管乐队把这3个用户从家里请出来,让他们的请求由高级副总裁现场处理。

以下是在线银行案例分布的一个例子:

典型的银行用例中的帕累托分布。图片来源:马克西米连·福戈尔

6. 您可以使用代理 AI 或 AI 框架 — 但您不必这样做。

我们已经在 Python 中实现了所有代理, 我真的不知道还有谁会选择其他语言。现在,您在 AI 和数据相关工作中可以获得很多库,未来您将获得更多。我对框架的确定性要小得多。使用像

这样的框架可能是有意义的,但它也可能增加显著的开销和复杂性。您所需的一些代理功能和工作流程可能在您的框架中不受支持。

我们在纯 Python、LlamaIndex 和 LangChain 中实现了我们的代理。在纯 Python 中(我们使用很多库,但没有代理框架),实现大型且极其灵活的代理系统是可能的且不太困难。

这里这里这里这里 是一些框架的比较和深入研究。

我的个人建议:

  • 为您最喜欢的框架和纯 Python 解决方案创建一个平衡计分卡。
  • 尝试,或者让您的开发人员尝试,在每个框架与纯 Python 中解决两个困难案例,并比较结果和代码。

7. 100% 幻觉自由处理是可能的

LLMs(大型语言模型)会产生幻觉。LRMs(大型推理模型)则较少,但它们也会偶尔产生幻觉。这是一个固有属性,由于在预训练期间数据的高度压缩(通常训练标记与参数的关系约为 100:1)。目前的模型架构无法完全解决这个问题。

在我们大多数生产应用中,我们必须100% 幻觉自由。出于责任、安全和声誉原因。因此,我们必须自己解决这个问题。我们的策略是沙盒化模型。这些是对我们有效的方法:

  • 输出(例如分类、提取)被强制为JSON 结构,并通过Pydantic检查,以确保仅允许的数据是可能的。发送给客户/合作伙伴的文档根据邮件或文档模板填写。
  • 将预测与允许响应的数据库进行检查,例如,如果模型引用了一个具有先例效力的案例(我们必须确保它没有虚构该案例)。
  • 函数调用在下一步的路由中(从允许函数的列表中)。
  • 定量输出经过合理性检查。

错误答案仍然是可能的——就像人类操作员一样——但不会是根本错误的答案,例如,包含不存在产品的报价。

这个过程还使系统在提示注入和其他恶意攻击方面 100% 安全。即使攻击成功,沙盒化也可以防止任何不良事件的发生。

Image 7

沙盒化模型:如何实现 100% 幻觉自由处理。图片来源:Maximilian Vogel

8. 永远、永远、永远不要使用标准提示模板

这里是一个 LangChain 的 RAG 标准提示:

您是一个问答任务的助手。使用以下检索到的上下文来回答问题。如果您不知道答案,请直接说您不知道。最多使用三句话,并保持答案简洁。

Question: {question}
Context: {context}
Answer:

您是否以类似的方式编写提示?希望不是。

这甚至不是一个起点。这毫无意义。

从提示工程的角度来看,这个提示缺乏构成良好提示的几乎所有要素: 示例很少、输出格式、边缘情况处理、推理、将响应限制在上下文中等等。

很多人仍然认为提示不需要那么好,我只需要好的数据、良好的 RAG 设置、好的框架、好的代码,然后它就会工作。不!在合理复杂的情况下,以及超出 POC 的范围,您可能会通过这种方法获得每个数据点 80%、90%、95% 的准确性。运气好一些。对于大多数在商业环境中运行的系统,您需要的是 98%、99%、99.5% 的准确性。而且您永远无法通过像上面这样的提示达到这个目标。

以下是一个真实提示模板与上面示例模板的比较(我不得不模糊真实提示):

AI 代理的真实提示。图片来源:Maximilian Vogel

9. 这是一个在我的许多 AI 代理项目中有效的提示模板的结构

基于一个真实的例子。更多片段和示例 这里

AI 代理提示的结构。图片来源:Maximilian Vogel

10. 雇佣最优秀的黑带提示工程师

最后两个部分可能让你看到,提示工程对 AI 代理项目来说有点挑战。事实上,我认为提示工程是代理项目中最大的单点故障。我们已经解决了这个问题——通常是非常痛苦的。但我见过许多项目在原型或 MVP 阶段夭折。参与的人常常耸耸肩说:“我们的错误率和幻觉没有降到一个真正可用的水平。”

优秀的提示工程是高度准确的 AI 代理最重要且几乎总是必要的组成部分。每个人都知道这一点。但每个人也相信你可以在几周内自学这个技能,成为一名 提示的绝地大师

实际上,你做不到。

最优秀的提示工程师 像模型一样以随机方式思考,知道最新的架构及其优缺点,知道如何与 7B、47B 和 180B 模型进行最佳对话,但也能够跳出框框进行创造性思考,拥有数据科学家的科学知识,知道如何评估 AI,当然还具备多年的提示编写经验。

好吧,这些人并不存在。所以,我们选择了下一个最佳选择。那些在应用程序中成功编写大型提示的工程师(不仅仅是与 ChatGPT 聊天),他们知道如何在大型数据集上系统地评估 AI,并热爱数学。

如果你不抓住雇佣这些人的机会,准备好学习很多 以通过提示将你的代理提升到完美的准确性:这里这里这里 是一些资源,供经验丰富的提示工程师向这个绝地大师级别迈进。

11. 构建您自己的推理

LRMs,或称大型推理模型,已经在市场上存在几个月了。它们进行思考,然后给出输出。从技术上讲,这基于思维链(CoT)。

为什么不在生成输出之前进行推理,以提高输出质量和准确性呢?

当然可以。但您不应该使用供应商的默认推理。

并不是因为它不好,而是因为它不够具体。

对于特定问题,您应该进行特定推理,以完成与您试图实现的目标相关的所有心理检查。 就像数学推理与考虑国际象棋走法或考虑刑事辩护策略是不同的,推理应该是极其具体的案例。您可以通过定义输出轻松地将其包含在模型预测中,如下例所示(“type”属性显示分类的最终结果):

{
  "reasoning": "The customer's case relates to an item that was negligently destroyed by a family member in their own household. The type of damage falls under the household insurance. Liability coverage is excluded because the damage was not caused to a third party.",
  "type": "home_content"
}

12. 代理简单原型化,但要达到生产级软件却非常困难

在 AI 代理中存在一个悖论:一个可工作的原型往往可以在几天内构建,但生产就绪的软件通常需要几个月。

更糟糕的是,大多数 AI 团队,即使在大型公司中,也远未准备好。而且 C-suite 很难理解这一点。

“为什么我们的 AI 团队,构建了那个在某些东西即将损坏时总是闪烁橙色的华丽预测维护系统,却在我们尝试构建 AI 代理时完全失败?一定是因为 AI 还做不到这一点。”

你我都知道原因:在大多数 AI 代理项目中,极高的准确性是关键,因为你需要端到端地完成,而无需人工协助。在大多数前代理 AI 项目中,这不是问题:预测维护系统通常有很高的假阳性和假阴性比例,但仍然可以有用,因为最终会有人类审核结果。

Image 10

AI 代理悖论:原型简单,生产就绪却非常困难。图片来源:Maximilian Vogel, 由 Vectors Market 创建的高级经理图标 — Flaticon

13. 您需要一个产品冠军

无论是否使用 AI,有时候一切归结于人:为了成功的 AI agent 项目,您需要一个真正需要解决问题的人。一个有愿景的人来推动这个项目。我们在成功的项目中有过这样的人员(亲爱的合作伙伴、同事,如果您在阅读这篇文章——您知道我指的是谁!)

通常,这个人甚至不是 IT 人员或 AI 专家。在我们的案例中,通常是来自业务部门的人。了解自己工作和市场的人。能够在企业审批迷宫中引导 AI 项目,并将其推进到首次上线之后。能够超越日常业务进行思考的智能远见者。具有改变流程的勇气,并能够向高层管理层提出理由。

简而言之,您在公司中能找到的最接近英雄的角色。 这也是商业中最稀缺的资源之一。在一个案例中,当我们失去了那个人,项目也随之失败。没有人真正感到负责,项目逐渐每周死去,目标不再被追求。

那真是很多!

我希望这能帮助您实施您的 AI Agent 并使其准备好投入生产!

衷心感谢所有与我一起实施 AI-Agent 项目并支持我讲述这个故事的人,包括 Almudena、Andrii、Axel、Christian、Enis、Eren、Jochen、Hoa、Imke、Josip、Kilian、Kirsten、Leo、Max、Michael、Mohammed、Nico、Nikhil、Nino、Rocky、Sanja、Stefan、Thomas、Vanessa 以及许多其他人!

(标题图像由 Midjourney 生成)

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

AI 研究报告和论文写作 合并两个系统指令以获得两个模型的最佳效果 Perplexity AI 的 Deep Research 工具提供专家级的研究报告,而 OpenAI 的 ChatGPT-o3-mini-high 擅长推理。我发现你可以将它们结合起来生成令人难以置信的论文,这些论文比任何一个模型单独撰写的都要好。你只需要将这个一次性提示复制到 **

阅读更多
让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

Non members click here作为一名软件开发人员,多年来的一个发现总是让我感到惊讶,那就是人们还在 Excel

阅读更多
使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

10 个常见问题解答 本文是我推出的一个名为“10 个常见问题解答”的新系列的一部分。在本系列中,我旨在通过回答关于该主题的十个最常见问题来分解复杂的概念。我的目标是使用简单的语言和相关的类比,使这些想法易于理解。 图片来自 [Solen Feyissa](https://unsplash.com/@solenfeyissa?utm_source=medium&utm_medi

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

在AI军备竞赛中分辨事实与虚构 DeepSeek AI真的是它所宣传的游戏规则改变者,还是仅仅聪明的营销和战略炒作?👀 虽然一些人将其视为AI效率的革命性飞跃,但另一些人则认为它的成功建立在借用(甚至窃取的)创新和可疑的做法之上。传言称,DeepSeek的首席执行官在疫情期间像囤积卫生纸一样囤积Nvidia芯片——这只是冰山一角。 从其声称的550万美元培训预算到使用Open

阅读更多
Type something to search...