Type something to search...
未来保障 AI 代理:在快速发展的环境中构建适应性系统的 5 种策略

未来保障 AI 代理:在快速发展的环境中构建适应性系统的 5 种策略

没有公司愿意投入资源开发软件,却因为人工智能的普遍进步而使其变得无关紧要…

每个人都在试图破解密码… 什么是利用语言模型的下一个重大框架?

对于初创公司来说,危险在于将一切押注于单一方面——比如 RAG (Retrieval-Augmented Generation) 或提示工程,正如我们过去所看到的那样。

但为未来做好准备的最佳方法不是选择一个赢家…

而是构建能够随着环境变化而发展的、集成的、适应性强的系统。

公司应该投资于结合多种 AI 能力的灵活框架,使他们能够随着新技术的出现而转型——而不会被锁定在单一的、可能转瞬即逝的趋势中。

避免过度依赖

下图显示了像 GPT-3 这样的技术是如何在早期飙升(2021 年达到 50 的峰值),但随后衰落(到 2025 年降至 20),而 RAG 和 Agentic Workflows 正在激增(到 2025 年接近 80 和 60)。押注于一个技术会面临过时的风险。

以问题为先

构建能够满足真实用户需求和市场需求的解决方案,而不仅仅是最热门的 AI 趋势。

面向未来

适应性系统可以整合新兴趋势。

AI Agents 发展领域

AI Agents 正受益于标准化架构和增强的基本功能,如语言理解和任务自动化。

这些改进得益于基础 AI 技术的广泛采用和研究。

滞后因素

  • 开发者工具:虽然存在通用框架,但专门为 AI agent 开发(例如,agent 专用 IDE)量身定制的工具尚未得到充分开发。
  • 协作环境:AI Agents 之间或与人类实时协作的系统尚未成熟。
  • 安全性和风险合规性:确保 agents 安全运行并符合法规的强大标准和工具滞后。
  • 调试和精细调整:由于其“黑盒”性质,查明和修复复杂 AI agents 中的问题仍然具有挑战性。
  • 可检查性:理解 AI Agent 做出特定决策的原因仍然很困难,这限制了在关键应用中的信任和采用。

在与 AI Agent 开发者的形成性访谈中,Microsoft Research 确定了核心挑战:

  1. 难以审查长篇 AI Agent 对话以定位错误
  2. 当前工具缺乏对交互式调试的支持
  3. 需要工具支持来迭代 AI Agent 配置

基于这些需求,Microsoft Research 开发了一种交互式多 agent 调试工具 AGDebugger,它具有用于浏览和发送消息的 UI,编辑和重置先前 agent 消息的功能,以及用于导航复杂消息历史记录的概览可视化。

在与 14 名参与者的两部分用户研究中,Microsoft Research 确定了用户控制 agents 的常见策略,并强调了交互式消息重置对于调试的重要性。

他们的研究加深了对用于调试日益重要的 agentic 工作流程的界面的理解。

我们如何设计能够使开发者有效地调试多 agent AI 团队的系统?

开发者如何使用这样的系统来调试和改进 agent 工作流程?

一些参与者指出,迭代 AI Agent 配置目前是一个缓慢而费力的过程。

在调试过程中,开发者通过更改系统提示、从团队中添加或删除 AI Agents 或更改可用工具的选择来不断调整其 AI Agent 配置。

目前,开发者必须从头开始重新启动工作流程,才能测试任何给定更改的有效性。

在对话后期出现错误的情况下,开发者必须等待相当长的时间才能观察到任何影响。

此外,由于 LLMs 的随机性,相同的错误可能并不总是发生,这需要多次运行才能对补救措施获得信心。

所有这些都大大减慢了调试过程。

为此,参与者表示希望在关键点“冻结”对话,然后在隔离且在内存中的有问题的上下文时迭代潜在的修复方案。

开发者需求

了解 AI Agents 之间交换的消息。

AI Agent 调试工具需要公开 AI Agents 之间发送的消息,以便用户可以了解对话的细节以及 AI Agents 如何完成任务。

这对于识别工作流程中发生错误的位置非常重要。

中断对话并发送新消息。

用户应该能够在任何时候暂停/中断工作流程,并向 AI Agents 发送新消息。

一旦确定了故障点,重置到工作流程中的先前点,用户需要能够重置到工作流程中的早期点,以便尝试引导 agents 到备用路径。

更改 AI Agent 配置。

AI Agent 调试工具应该允许用户更改 AI Agent 的配置,例如使用的提示或模型,以便试验修复。

(1) 如果我从这一点重试工作流程会发生什么? (2) 如果生成了这条备选消息,会发生什么?

GDebugger 帮助用户交互式地调试和控制他们的 agent 团队。

用户可以交互式地发送新消息,控制消息的流程,并查看 agent 消息的历史记录。

用户可以通过重置和编辑消息来恢复到工作流程中的较早点

概述可视化帮助用户理解长对话和编辑历史,并以交互式可视化方式呈现。

上面的交互式概述是一个可视化,总结了 AI Agent 的对话。

每次重置都会分叉当前的对话并创建一个新的对话会话,表示为一个新列。

用户可以切换消息颜色以表示消息类型、发件人或收件人。 鼠标悬停时会显示消息详细信息,单击会导航到消息历史记录视图中的完整消息。

[## Interactive Debugging and Steering of Multi-Agent AI Systems

arxiv.org](https://arxiv.org/abs/2503.02068)

[## COBUS GREYLING

www.cobusgreyling.com](https://www.cobusgreyling.com)

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

AI 研究报告和论文写作 合并两个系统指令以获得两个模型的最佳效果 Perplexity AI 的 Deep Research 工具提供专家级的研究报告,而 OpenAI 的 ChatGPT-o3-mini-high 擅长推理。我发现你可以将它们结合起来生成令人难以置信的论文,这些论文比任何一个模型单独撰写的都要好。你只需要将这个一次性提示复制到 **

阅读更多
让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

Non members click here作为一名软件开发人员,多年来的一个发现总是让我感到惊讶,那就是人们还在 Excel

阅读更多
使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

10 个常见问题解答 本文是我推出的一个名为“10 个常见问题解答”的新系列的一部分。在本系列中,我旨在通过回答关于该主题的十个最常见问题来分解复杂的概念。我的目标是使用简单的语言和相关的类比,使这些想法易于理解。 图片来自 [Solen Feyissa](https://unsplash.com/@solenfeyissa?utm_source=medium&utm_medi

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

在AI军备竞赛中分辨事实与虚构 DeepSeek AI真的是它所宣传的游戏规则改变者,还是仅仅聪明的营销和战略炒作?👀 虽然一些人将其视为AI效率的革命性飞跃,但另一些人则认为它的成功建立在借用(甚至窃取的)创新和可疑的做法之上。传言称,DeepSeek的首席执行官在疫情期间像囤积卫生纸一样囤积Nvidia芯片——这只是冰山一角。 从其声称的550万美元培训预算到使用Open

阅读更多
Type something to search...