
未来保障 AI 代理:在快速发展的环境中构建适应性系统的 5 种策略
- Rifx.Online
- AI Applications , AI Research , Machine Learning
- 08 Mar, 2025
没有公司愿意投入资源开发软件,却因为人工智能的普遍进步而使其变得无关紧要…
每个人都在试图破解密码… 什么是利用语言模型的下一个重大框架?
对于初创公司来说,危险在于将一切押注于单一方面——比如 RAG (Retrieval-Augmented Generation) 或提示工程,正如我们过去所看到的那样。
但为未来做好准备的最佳方法不是选择一个赢家…
而是构建能够随着环境变化而发展的、集成的、适应性强的系统。
公司应该投资于结合多种 AI 能力的灵活框架,使他们能够随着新技术的出现而转型——而不会被锁定在单一的、可能转瞬即逝的趋势中。
避免过度依赖
下图显示了像 GPT-3 这样的技术是如何在早期飙升(2021 年达到 50 的峰值),但随后衰落(到 2025 年降至 20),而 RAG 和 Agentic Workflows 正在激增(到 2025 年接近 80 和 60)。押注于一个技术会面临过时的风险。
以问题为先
构建能够满足真实用户需求和市场需求的解决方案,而不仅仅是最热门的 AI 趋势。
面向未来
适应性系统可以整合新兴趋势。
AI Agents 发展领域
AI Agents 正受益于标准化架构和增强的基本功能,如语言理解和任务自动化。
这些改进得益于基础 AI 技术的广泛采用和研究。
滞后因素
- 开发者工具:虽然存在通用框架,但专门为 AI agent 开发(例如,agent 专用 IDE)量身定制的工具尚未得到充分开发。
- 协作环境:AI Agents 之间或与人类实时协作的系统尚未成熟。
- 安全性和风险合规性:确保 agents 安全运行并符合法规的强大标准和工具滞后。
- 调试和精细调整:由于其“黑盒”性质,查明和修复复杂 AI agents 中的问题仍然具有挑战性。
- 可检查性:理解 AI Agent 做出特定决策的原因仍然很困难,这限制了在关键应用中的信任和采用。
在与 AI Agent 开发者的形成性访谈中,Microsoft Research 确定了核心挑战:
- 难以审查长篇 AI Agent 对话以定位错误
- 当前工具缺乏对交互式调试的支持
- 需要工具支持来迭代 AI Agent 配置
基于这些需求,Microsoft Research 开发了一种交互式多 agent 调试工具 AGDebugger,它具有用于浏览和发送消息的 UI,编辑和重置先前 agent 消息的功能,以及用于导航复杂消息历史记录的概览可视化。
在与 14 名参与者的两部分用户研究中,Microsoft Research 确定了用户控制 agents 的常见策略,并强调了交互式消息重置对于调试的重要性。
他们的研究加深了对用于调试日益重要的 agentic 工作流程的界面的理解。
我们如何设计能够使开发者有效地调试多 agent AI 团队的系统?
开发者如何使用这样的系统来调试和改进 agent 工作流程?
一些参与者指出,迭代 AI Agent 配置目前是一个缓慢而费力的过程。
在调试过程中,开发者通过更改系统提示、从团队中添加或删除 AI Agents 或更改可用工具的选择来不断调整其 AI Agent 配置。
目前,开发者必须从头开始重新启动工作流程,才能测试任何给定更改的有效性。
在对话后期出现错误的情况下,开发者必须等待相当长的时间才能观察到任何影响。
此外,由于 LLMs 的随机性,相同的错误可能并不总是发生,这需要多次运行才能对补救措施获得信心。
所有这些都大大减慢了调试过程。
为此,参与者表示希望在关键点“冻结”对话,然后在隔离且在内存中的有问题的上下文时迭代潜在的修复方案。
开发者需求
了解 AI Agents 之间交换的消息。
AI Agent 调试工具需要公开 AI Agents 之间发送的消息,以便用户可以了解对话的细节以及 AI Agents 如何完成任务。
这对于识别工作流程中发生错误的位置非常重要。
中断对话并发送新消息。
用户应该能够在任何时候暂停/中断工作流程,并向 AI Agents 发送新消息。
一旦确定了故障点,重置到工作流程中的先前点,用户需要能够重置到工作流程中的早期点,以便尝试引导 agents 到备用路径。
更改 AI Agent 配置。
AI Agent 调试工具应该允许用户更改 AI Agent 的配置,例如使用的提示或模型,以便试验修复。
(1) 如果我从这一点重试工作流程会发生什么? (2) 如果生成了这条备选消息,会发生什么?
GDebugger 帮助用户交互式地调试和控制他们的 agent 团队。
用户可以交互式地发送新消息,控制消息的流程,并查看 agent 消息的历史记录。
用户可以通过重置和编辑消息来恢复到工作流程中的较早点
概述可视化帮助用户理解长对话和编辑历史,并以交互式可视化方式呈现。
上面的交互式概述是一个可视化,总结了 AI Agent 的对话。
每次重置都会分叉当前的对话并创建一个新的对话会话,表示为一个新列。
用户可以切换消息颜色以表示消息类型、发件人或收件人。 鼠标悬停时会显示消息详细信息,单击会导航到消息历史记录视图中的完整消息。
[## Interactive Debugging and Steering of Multi-Agent AI Systems
arxiv.org](https://arxiv.org/abs/2503.02068)
[## COBUS GREYLING