释放代理搜索：构建强大搜索功能的实践指南

Rifx.Online
Generative AI , Large Language Models , AI Applications
16 Feb, 2025

tldr

代理工作流，得益于生成式人工智能的进步，正在通过启用创新架构来改变企业解决方案，这些架构能够应对复杂挑战并揭示以往传统方法无法达到的模式。本文基于我们之前的帖子，ReAct Agents from Scratch，我们探讨了如何从零开始构建一个基础的代理工作流。

在这篇后续文章中，我们深入探讨如何构建一个以搜索为驱动的系统，该系统通过API工具与多个环境无缝集成。我们通过引入额外工具和设计一个轻量级的、以搜索为驱动的用户界面来增强我们之前的学习，使用户能够执行需要分解、规划和整合的复杂查询。文章的核心是演示如何使用基于ReAct的代理实现一个代理搜索系统。

本指南提供了丰富的实用资源，包括逐步说明、Python代码示例和创建能够访问和整合来自不同环境信息的用户界面的指南。虽然我们选择了Gemini 2.0作为首选的LLM，但该架构支持您选择的任何模型。

使用Imagen 3 (Vertex AI)生成的图像

基础模型的快速进步为代理应用程序解锁了前所未有的机会，使曾经不可想象的能力成为可能。这些模型为构建智能代理奠定了基础，这些代理作为不可或缺的助手、战略同事和个性化教练。从创建网站和收集数据到规划旅行、进行研究、管理客户账户和谈判交易，这些代理准备改变我们的工作和生活方式。它们能够提供的潜在经济和社会价值深远，标志着技术驱动创新的关键转折点。

由AI驱动的代理代表了一个新兴领域，目前尚未建立完全的理论框架来定义、开发或评估它们。本文的目的是阐明关键概念、定义、基本机制和设计选择，并突出代理工作流和代理的一般挑战和局限性。

我们的重点将集中在三个主要主题上：工具选择、推理和故障处理。我们将采用建设者的心态，而不仅仅是理论上讨论这些方面——实际编码创建一个从头开始的代理搜索系统。这种方法将帮助我们理解代理的操作模式、组件如何交互以及这些工作流可以如何以替代方式构建。

在整个过程中，我们将讨论我们的设计选择，强调我们在何处选择简单以保持简约和可接近性。我们还将探讨更高级实现可能的不同之处。通过保持实用和扎根于实际，我们旨在创建一个代理框架，使集成工具（如API）作为功能构建块变得简单。

让我们开始吧！

回顾：

在我们之前的博客中，我们探讨了如何从零开始构建一个 ReAct agent，提供了一个逐步指南来组装建立框架所需的组件。在那个练习中，我们实现了两个工具——维基百科搜索和谷歌搜索——并使用涉及常见世界知识的命令行查询测试了代理，这些知识可以通过这些工具解决。主要目标是理解在具体设置中，Think-Act-Observe 循环是如何运作的。我们演示了使用草稿板来实现短期记忆，并通过多样的查询测试系统以评估其功能。

在本文中，我们将通过引入额外的 40 个工具来扩展原始设置，涵盖各种类别。我们还将通过扩展工具目录、实现工具功能注册表以及创建基于 Streamlit 的搜索界面来增强系统。此界面将为文本和图像提供代理搜索能力，为 ReAct agent 框架带来更具互动性和用户友好的体验。下面是工具注册表的快照：

架构概述：

系统的架构（如下所示）无缝集成了 用户交互、推理和执行。在其核心，代理搜索用户界面作为用户定义任务的入口。这些任务随后由 ReAct 代理处理，该代理使用 Gemini 作为其推理引擎。为了有效地执行任务，代理连接到我们之前讨论的工具注册表——这是一个为商业、媒体、位置服务和知识领域定制的动态 API 目录。

为了保持专注和连续性，代理使用草稿板作为短期记忆，捕捉其推理步骤、工具选择和观察。一旦根据推理选择了相关工具，代理通过 API 连接到特定环境，执行任务并捕捉响应。这种推理、工具选择和观察集成的迭代循环确保了与用户意图一致的精确结果。

该图还突出了架构的模块化，展示了代理可以通过其工具注册表与之交互的多种环境，如谷歌服务、人口统计分析和图像处理。这种结构化但灵活的设计确保了可扩展性和适应性，使 ReAct 代理成为现实应用中的强大系统。关于 ReAct 代理机制的更深入解释已在之前的博客中探讨。

我们的代理架构结合了一系列丰富的工具，分类以优化 AI 驱动的工作流。搜索工具提供对网络、新闻和图像信息的实时访问，确保全面和最新的结果。位置工具提供精确的地理和商业洞察，从寻找本地服务到检索详细的地点信息。网络工具通过提供公共 IP 和位置信息来增强连接性。媒体工具满足事件发现、视频内容和歌词的需求，而商业工具简化产品搜索、职位列表和财务见解。趣味工具通过问答题、笑话和动物事实增添趣味，创造实用性和娱乐性之间的平衡。此外，AI 工具驱动先进的多模态推理，将文本和图像结合以进行复杂的数据处理。

使这一架构真正强大的不仅是单个工具的功能，而是它们组合的无限可能性。通过跨类别链接工具——例如将搜索洞察与位置信息连接或通过 AI 推理增强媒体发现——我们的系统实现了无缝、智能的搜索。这种互联性使其能够以高效且高度适应的方式解决复杂问题。

该架构中的一个关键设计决策是将所有 API 与其定义、参数选项和访问要求进行映射，包括认证机制（例如，访问密钥）。每个 API 都被封装为可调用的函数，使 ReAct 代理能够无缝执行操作。值得注意的是，我们选择不依赖于函数调用。相反，重点是赋予代理独立确定正确工具集的能力，并根据查询或过去的观察推导输入参数，从而有效地进行 API 调用。虽然可以实现一个额外的函数调用层，但我们选择了简单性，展示了 Gemini 2.0 的能力，这是一个最先进的 LLM。通过精心设计的提示，代理可以准确选择和调用工具，而无需预定义的函数调用。

同样，我们决定在代理的推理过程中不对每个 LLM 调用使用结构化输出。相反，系统直接传递原始 API 响应，避免后处理。这个设计选择是为了保持系统的完全独立，并允许其处理原始数据，而不是依赖于中间步骤。从理论上讲，预处理和后处理请求与响应的中间层可以提高鲁棒性并减少偶尔的失败。然而，即使没有这些增强，系统在其当前形式下也已证明可靠。

用于代理的核心提示如下所示。它与我们之前在从零开始设计代理时使用的提示相匹配，保持了一致性和实现的简单性。完整提示，包括工具描述和额外的保护措施，以帮助代理克服故障和问题，可以在这里找到。

代理和工具注册表的完整实现可以在这里和这里找到。

你是一个 ReAct（推理与行动）代理，负责回答以下查询：

查询: {query}
图像上下文: {image_context}

你的目标是推理查询并决定最佳行动方案以准确回答。

之前的推理步骤和观察: {history}

可用工具: {tools}

指令：

分析查询、之前的推理步骤和观察。
决定下一步行动：使用工具或提供最终答案。
以以下 JSON 格式响应：

如果你需要使用工具：

{
    "thought": "你对接下来该做什么的详细推理",
    "action": {
        "name": "工具名称（维基百科、谷歌或无）示例：GOOGLE, WIKIPEDIA, MULTIPLE_CAT_FACTS等。确保忽略名称。",
        "reason": "你选择这个工具的解释",
        "input": "如果与原始查询不同，则为工具的特定输入"
    }
}

如果你有足够的信息来回答查询：

{
    "thought": "你的最终推理过程",
    "answer": "你对查询的全面回答"
}

工具选择

工具选择在决定人工智能代理的成功中起着至关重要的作用，直接影响其在不同环境中处理多样任务的能力。虽然没有通用的方法来识别最佳工具集，但深思熟虑的实验、分析和优化可以指导这一过程朝着最佳配置发展。

添加工具增强了代理的能力，但也增加了复杂性。更大的工具集要求代理分配更多上下文用于工具描述，并做出关于使用哪些工具的决策，这可能影响效率。就像人类掌握各种工具一样，当人工智能代理被过多选项压倒时，其有效性可能会下降。

实验对于确保所选工具能有效提高代理的性能至关重要。这涉及使用不同工具组合测试代理，识别冗余工具，并分析移除某个工具对结果的影响。如果移除某个工具不会降低性能，那么简化设置是更好的选择。那些频繁导致错误或在没有改进的情况下需要大量提示的工具应被替换或优化。例如，在我们的试验中，我们注意到某些工具需要额外的指导才能有效运行。我们引入了辅助说明和负面示例，以说明不正确的行为并澄清所需的方法。

在涉及复杂查询且需要多个工具的工作流中，代理通常在整合阶段遇到挑战，错过了我们最初要求它们解决的关键见解/答案。例如，当处理需要与多个工具交互的多步骤任务时，代理可能无法正确整合输出并填充占位符。为此，我们加入了保护措施和引导说明（如下所示）作为原始提示的补充信息。负面示例在帮助代理避免常见陷阱方面特别有效。这种方法将在示例运行中进一步详细说明，这里将展示这些优化的影响。

重要事项：
避免使用如下示例中的占位符，而是用真实值和摘要填充。

以下是比特币当前状态的摘要：

价格：（该部分将包含从 GOOGLE_FINANCE_SEARCH 获取的比特币价格。由于价格是动态的，我无法在这里提供。）
交易趋势（过去12个月）： 根据谷歌趋势数据，比特币搜索兴趣在过去一年中波动显著。（插入对提供的谷歌趋势数据的简要总结/解释，突出峰值和低点，并在价格数据可用时将其与价格变动相关联。提及趋势是否显示出上升或下降模式。）
最新新闻：（该部分将总结从 GOOGLE_NEWS_SEARCH 获取的前1-3篇新闻文章。由于我没有这些文章的原始文本，因此无法在这里提供摘要。）

免责声明：上述信息基于公开可用数据，不应被视为财务建议。在做出任何投资决策之前，请咨询财务专业人士。

可供人工智能代理使用的工具定义了其能力和行动范围，塑造了其可以执行的任务范围。这一原则在许多生成式人工智能应用和系统中显而易见。例如，ChatGPT 利用网络搜索、Python 执行和图像生成等工具来扩展其功能。检索增强生成（RAG）系统结合文本检索器、图像检索器和 SQL 执行器，以处理更复杂的查询。类似地，多模态人工智能代理集成多种工具，以实现文本、代码和视觉输出之间的无缝交互。

选择合适的工具集需要在增强能力和保持简洁之间进行仔细平衡。这个过程本质上是迭代的，涉及结构化实验、严格的错误分析和持续优化指导。最后一节中的示例将说明这些策略如何推动改进并解决生成式人工智能工具集成中的常见挑战。

推理

有效的推理是人工智能驱动的问题解决中最具挑战性的方面之一。与人类不同，人工智能代理通常缺乏对上下文的直观理解，这迫使它们仅依赖于其设计中编码的模式和规则。这使得选择正确工具和执行任务的过程变得复杂而微妙。即使拥有正确的工具，代理的成功也依赖于其通过问题进行推理、评估可用选项和动态适应以实现最佳结果的能力。

工具选择与这一推理过程密切相关。误解任务要求或未能理解工具能力的代理不太可能成功。例如，要求实时地图数据的查询如果代理选择了过时或不相关的资源，将会失败。同样，在使用人工智能模型时，不同的工具可能在问题的不同方面表现出色——一个工具可能准确处理特定的子任务，而另一个工具可能在效率上超越它。挑战不仅在于执行任务，而在于协调正确的工具组合，以提供全面且准确的结果。

像 ReAct 和 ReWOO 这样的框架通过结构化推理过程来应对这些挑战。ReAct 将规划与执行整合到一个无缝的工作流中，使得代理能够迭代生成、执行和完善其计划。另一方面，ReWOO 将规划与执行解耦，允许更为审慎的方法。它首先通过自动检查或单独的验证器验证计划，确保在继续之前不选择无效或“幻觉”的工具。这种分层结构减少了错误并增强了解决方案的可靠性。

ReWOO 进一步通过将任务分解为可管理的子任务来实现模块化。规划者识别依赖关系和并行执行的机会，而工作者则使用适当的工具处理每个子任务的执行。依赖关系得到系统管理，输出由求解器综合，以产生一个连贯的结果。通过将推理分为规划、验证和执行，ReWOO 确保每一步都能为解决方案的整体准确性和效率做出贡献。

最终，有效的推理和深思熟虑的工具选择是相辅相成的。通过采用强调结构化推理、强大验证和系统执行的框架，人工智能代理能够更好地应对现代问题解决的复杂性，提供既精确又高效的解决方案。

接下来，让我们探索具体示例，展示我们设计的系统如何无缝地结合在一起处理复杂查询，展示有效的工具使用和推理。

实操示例

1. 查找当前位置和识别感兴趣的地点

在下面的示例中，用户询问附近的天文活动和观星地点，促使代理逐步分解请求。“推理追踪”揭示了代理的内部思维过程：首先识别用户的位置，然后分别在谷歌搜索中查找天文活动和德克萨斯州弗里斯科附近的潜在观星地点。每个“迭代”代表代理推理的新阶段——确定用户的位置、搜索网络和综合收集的信息。最后，“助手响应”将发现汇编成一个清晰的推荐列表，说明了这种代理方法如何透明地记录其提供上下文相关答案的每一步。

用户查询

您能帮我找出这个月在我附近发生的天文活动并建议好的观星地点吗？

推理追踪

迭代 1

{
    "thought": "用户正在询问他们附近的天文活动和观星地点。我需要使用当前位置来提供相关搜索。我将首先获取当前位置，然后在该位置进行谷歌搜索，查找这个月的天文活动，然后在该位置进行谷歌搜索，查找好的观星地点。",
    "action": {
        "name": "CURRENT_LOCATION",
        "reason": "需要确定用户的位置，以找到附近的活动和地点。",
        "input": null
    }
}

迭代 2

{
    "thought": "我已经获得了用户的位置（德克萨斯州弗里斯科）。现在我需要搜索弗里斯科这个月的天文活动和同一区域的好观星地点。我将对两者都使用谷歌搜索。",
    "action": {
        "name": "GOOGLE_SEARCH",
        "reason": "查找德克萨斯州弗里斯科这个月的天文活动",
        "input": "astronomy events this month Frisco, Texas"
    }
}

迭代 3

{
    "thought": "我已经找到了在德克萨斯州弗里斯科这个月发生的天文活动。现在我需要在同一区域找到好的观星地点。我将使用谷歌搜索来查找。",
    "action": {
        "name": "GOOGLE_SEARCH",
        "reason": "查找德克萨斯州弗里斯科附近的好观星地点",
        "input": "good stargazing spots near Frisco, Texas"
    }
}

迭代 4

{
    "thought": "我已经收集了关于德克萨斯州弗里斯科附近的天文活动和好观星地点的信息。现在，我将总结发现并向用户提供全面的答案。"
}

助手响应

好的，我可以帮您！这是我为您找到的德克萨斯州弗里斯科这个月的天文活动和观星地点：

天文活动：

弗里斯科星空节：该活动每月的第二个星期六在弗里斯科公园举行。您可以观察行星、星星和其他天体。

好的观星地点：

弗里斯科公园：这个公园多次被提及为一个好的观星地点，并且也举办弗里斯科星空节。然而，一些Reddit用户提到，由于其位于城市内，可能存在光污染。
拉菲斯城市天文中心：这个中心作为观星地点获得了积极的评价。
西德尔山州立公园：距离弗里斯科大约30分钟车程，被认为是一个好的观星地点。
其他提到的地点：路易斯维尔湖、坦迪山自然保护区、农民分支历史公园、帕尔公园、风冲湾公园。

观星小贴士：

黑暗的天空：寻找远离城市灯光的区域以获得更好的观星效果。虽然弗里斯科公园经常被提及，但请记住，光污染可能是一个因素。
检查天气：清澈的天空对于观星至关重要，因此在外出之前，请确保查看天气预报。

希望这能帮助您享受夜空！

在之后对同一查询的运行中，系统通过选择不同的工具来处理相同的子问题——识别事件和地点，展示了适应性。尽管工具选择通常是准确的，但在检测相关事件方面明显失败。

系统首先确定用户在德克萨斯州弗里斯科的位置。然后，它通过谷歌事件和地图API系统地搜索本地活动和地图，以编制推荐。在分析该地区的提供后，助手错误地得出没有安排天文活动的结论，尽管确实识别出几个潜在的观星地点。

这个案例展示了系统的适应能力和在事件检测方面需要改进的地方。它揭示了一个有趣的挑战：多个工具可以解决类似的子任务，有时第二好的工具产生的结果比主要选项更好——这表明我们应该考虑使用共识方法，结合两个工具的结果。

用户查询

您能帮我找出这个月在我附近发生的天文活动并建议好的观星地点吗？

推理追踪

迭代 1

{
    "thought": "用户想要找出这个月他们附近的天文活动和好的观星地点。我需要首先确定用户的当前位置，以提供相关的结果。在获取位置后，我将使用谷歌搜索查找这个月的天文活动，并使用谷歌地图搜索观星地点。",
    "action": {
        "name": "CURRENT_LOCATION",
        "reason": "用户询问“在我附近”的活动，这意味着我需要知道他们的当前位置以提供准确的信息。",
        "input": null
    }
}

迭代 2

{
    "thought": "现在我已经获得了用户的位置，我可以使用谷歌事件搜索工具查找德克萨斯州弗里斯科这个月的天文活动。然后我将使用谷歌地图搜索弗里斯科附近的观星地点。",
    "action": {
        "name": "GOOGLE_EVENTS_SEARCH",
        "reason": "我需要查找德克萨斯州弗里斯科这个月的天文活动。",
        "input": "astronomy events in Frisco, Texas this month"
    }
}

迭代 3

{
    "thought": "我已经找到了用户位置附近的天文活动。现在我需要使用谷歌地图查找德克萨斯州弗里斯科附近的好的观星地点。",
    "action": {
        "name": "GOOGLE_MAPS_SEARCH",
        "reason": "用户询问观星地点，而谷歌地图是查找它们的完美工具。",
        "input": "stargazing spots near Frisco, Texas"
    }
}

迭代 4

{
    "thought": "我已经成功使用谷歌搜索找到了天文活动和观星地点。现在，我将向用户提供包含这些信息的全面响应。"
}

助手响应

好的，我可以帮您！根据您在德克萨斯州弗里斯科的位置，这是我找到的信息：

这个月的天文活动： 不幸的是，我没有找到这个月在弗里斯科发生的具体天文活动。然而，可能有本地天文俱乐部可能会有未列出的活动。我建议搜索“德克萨斯州弗里斯科的天文俱乐部”以获取更多信息。

德克萨斯州弗里斯科附近的好的观星地点：

弗里斯科公园：这个公园是一个受欢迎的观星地点，提供一个远离城市灯光的开阔区域。它开放到晚上10点，并且有用户评论说：“我们晚上去那里观星，玩得很开心。”
阿博尔山自然保护区的观景塔：位于普莱诺，这个地点有一个观景塔，可以俯瞰城市，增强您的观星体验。它开放到晚上11点。
学生城市灯光天文协会：这个地点是一个天文台，可能提供一个观看夜空的地方。
凯西·西伊公园：这个地点是一个城市公园，可能提供另一个观星的选择。

请注意，光污染可能会影响星星的可见性。为了获得最佳的观星体验，请尽量选择远离城市灯光的地点，在晴朗的夜晚。您可以查看当地天气预报以了解晴朗的夜晚，并查看天文日历，看看这个月是否会发生任何特定的天文事件，以使您的观星体验更好。

希望这能帮助到您！如果您还有其他问题，请告诉我。

2. 识别墨西哥Talavera瓷砖的图案和文化意义

用户查询

您能解释一下墨西哥Talavera瓷砖的图案及其文化意义吗？请包括参考图像。

推理过程

迭代 1

{
    "thought": "为了回答关于墨西哥Talavera瓷砖图案及其文化意义的问题，包括参考图像，我将首先使用 GOOGLE_IMAGE_SEARCH 来寻找相关图像。",
    "action": {
        "name": "GOOGLE_IMAGE_SEARCH",
        "reason": "这个工具将让我检索到墨西哥Talavera瓷砖图案的图像，满足用户对视觉参考的请求。",
        "input": "Mexican Talavera tile patterns"
    }
}

迭代 2

{
    "thought": "之前的图像搜索提供了许多Talavera瓷砖图案的图像。为了完全满足用户的请求，我现在将使用 GOOGLE_SEARCH 来收集这些图案的文化意义的信息。",
    "action": {
        "name": "GOOGLE_SEARCH",
        "reason": "这将提供关于墨西哥Talavera瓷砖图案文化意义的文本信息，以补充已经找到的图像。",
        "input": "cultural significance Mexican Talavera tile patterns"
    }
}

迭代 3

{
    "thought": "之前的谷歌搜索提供了关于Talavera瓷砖文化意义的文本信息。为了改善答案，我将再次使用 GOOGLE_IMAGE_SEARCH 以获得多样的图案表现。",
    "action": {
        "name": "GOOGLE_IMAGE_SEARCH",
        "reason": "这将提供更广泛的图像选择，以补充文本信息，并直接回应用户对参考图像的请求。",
        "input": "Mexican Talavera tile patterns"
    }
}

迭代 4

{
    "thought": "现在我将综合从两个搜索和图像中收集的信息，以创建一个结构完整的答案，包含图案和文化意义的部分，并融入图像链接。"
}

助手回应

墨西哥Talavera瓷砖因其鲜艳的色彩、复杂的设计和丰富的文化历史而闻名。这些瓷砖的美学之美与其与墨西哥传统和艺术的深厚联系相辅相成。

图案： Talavera图案种类繁多，通常包括：

花卉图案： 花朵，尤其是玫瑰、百合和向日葵，常常被描绘，象征着自然的美丽和丰饶。 [示例图像 1]
几何设计： 复杂的几何图案，通常包含方形、三角形和星星，常见且代表秩序和和谐。 [示例图像 2]
动物表现： 动物如鸟、蝴蝶甚至神话生物偶尔出现，增添了一丝奇幻和象征意义。 [示例图像 3]
宗教和象征图像： 虽然在纯装饰瓷砖中较少见，但某些图案包含宗教符号或代表文化信仰的图像。 [示例图像 4]

文化意义： Talavera瓷砖的文化意义深深根植于墨西哥的历史和传统。起源于墨西哥普韦布拉，这种技术和设计已经代代相传。生产过程通常是一项社区活动，加强了社区内的社会纽带。这些瓷砖不仅仅是装饰品；它们反映了国家的历史、艺术和文化身份。它们装饰着教堂、家庭和公共场所，作为墨西哥丰富遗产的视觉提醒。鲜艳的色彩和复杂的图案也代表了墨西哥文化的快乐和活力。

注意： 提供的许多图像展示的是可以在线购买的现代Talavera瓷砖设计。这反映了瓷砖在当代设计中的持续流行和广泛使用。然而，这些瓷砖与墨西哥工艺的丰富传统保持着紧密的联系。

以上示例展示了系统如何顺序使用多个工具来提供全面的回应。当用户请求有关墨西哥Talavera瓷砖图案、文化意义和参考图像的信息时，系统首先使用谷歌图像API寻找相关的瓷砖图案图像。然后，它使用谷歌搜索API收集有关瓷砖文化意义的信息，确保包括视觉和上下文元素。为了提供更多样的例子，系统再次执行谷歌图像搜索。最后，它将所有这些信息组合成一个结构化的回应，包括图案描述（如花卉图案、几何设计、动物表现和宗教图像）、文化意义和参考图像。这个过程展示了系统如何有效结合多个工具来创建完整的答案。

有趣的是，经过仔细检查，我们可以看到系统执行了两次单独的图像搜索以得出最终答案。最后一次图像搜索调用似乎是多余的，这表明该过程可以优化为仅使用两次调用——一次图像搜索和一次信息搜索——同时达到相同的全面结果。

3. 通过多模态分析实现准确的品种识别

此示例展示了系统如何使用 Gemini 2.0 多模态 API 处理多模态查询。当用户上传两只猫的图像并询问它们的品种时，系统分析视觉信息并确定它们是一只缅因猫和一只家猫。

输入图像

用户查询

识别此图像中的猫品种

推理追踪

迭代 1

{
    "thought": "用户想要识别图像中的猫品种。我将使用 GEMINI_MULTIMODAL 工具来识别图像中的猫品种。这是根据视觉数据获取品种信息的最直接方式。",
    "action": {
        "name": "GEMINI_MULTIMODAL",
        "reason": "GEMINI_MULTIMODAL 工具可以分析图像并识别猫品种。这是针对该特定查询的最直接方法。",
        "input": "识别此图像中的猫品种: tmp/uploads/20250109_124330_8836004672344479743.jpg"
    }
}

迭代 2

{
    "thought": "GEMINI_MULTIMODAL 工具提供了猫品种的可能识别，建议左侧的猫是缅因猫，右侧的猫是家猫。根据图像和工具输出，这似乎是一个合理的答案。因此，我可以在不使用其他工具的情况下提供最终答案。"
}

助手响应

左侧的猫可能是缅因猫，而右侧的猫可能是具有虎斑图案的家猫。

现在让我们通过额外的信息检索来扩展查询。这个场景通过请求识别的猫品种的事实增加了复杂性。系统使用Gemini 2.0多模态API来分析图像并识别两种品种——缅因猫和家猫。然后，它向“查找猫事实”公共API发出两个单独的调用，以检索每个品种的三个独特事实。这展示了系统高效的工作流，将图像分析与有针对性的信息检索相结合，以提供结构化、准确的响应。

用户查询

识别此图像中的猫品种，并为每种品种提供3个事实。

推理追踪

迭代 1

{
    "thought": "查询要求识别图像中的猫品种并为每种提供3个事实。我应该先使用多模态工具识别品种，然后使用`CAT_FACT`工具查找每种品种的一些事实。",
    "action": {
        "name": "GEMINI_MULTIMODAL",
        "reason": "识别图像中的猫品种。",
        "input": {
            "text": "识别此图像中的猫品种。",
            "image_path": "tmp/uploads/20250110_124935_7783489158225469156.jpg"
        }
    }
}

迭代 2

{
    "thought": "上一步识别的猫品种是缅因猫和家猫。现在我需要为每种品种找到3个事实。我将使用`MULTIPLE_CAT_FACTS`工具分别获取每种品种的事实。",
    "action": {
        "name": "MULTIPLE_CAT_FACTS",
        "reason": "查找关于缅因猫的3个事实。",
        "input": {
            "limit": 3,
            "breed": "Maine Coon"
        }
    }
}

迭代 3

{
    "thought": "我已经识别了猫品种为缅因猫和家猫，并找到了关于缅因猫的3个事实。现在我需要使用`MULTIPLE_CAT_FACTS`工具查找关于家猫的3个事实。",
    "action": {
        "name": "MULTIPLE_CAT_FACTS",
        "reason": "查找关于家猫的3个事实。",
        "input": {
            "limit": 3,
            "breed": "Domestic Shorthair"
        }
    }
}

迭代 4

{
    "thought": "我已经识别了猫品种并为每种找到了3个事实。我现在可以提供最终答案。"
}

助手响应

图像中的猫品种是缅因猫和家猫。

缅因猫事实：

缅因猫以其体型大和长而蓬松的尾巴而闻名。
它们通常被称为“温柔的巨人”，因为它们友好且随和的个性。
缅因猫有厚厚的防水毛发，有助于它们在寒冷气候中生存。

家猫事实：

与狗不同，猫没有甜味的嗜好。科学家认为这是由于关键味觉受体的突变所致。
当猫追逐猎物时，它保持头部平稳。狗和人则上下晃动头部。
猫的毛球的技术术语是“毛球”。

4. 查询解析：比特币价格、趋势和新闻

在这个示例运行中，系统通过顺序利用多个专业工具，高效地处理关于比特币当前价格、交易趋势和最新新闻的多方面查询。它首先使用谷歌财经API获取比特币的当前价格和最近市场动向，提供基础响应。接下来，系统利用谷歌趋势兴趣API分析搜索兴趣数据，提供关于交易趋势的见解。最后，它使用谷歌新闻API收集关于比特币的最新新闻文章，确保响应及时且全面。一旦收集到所有相关信息，系统将数据综合成一个结构化和详细的摘要给用户，展示其整合多个数据流以解决复杂查询的能力。

用户查询

比特币的当前价格、交易趋势和最新新闻是什么？

推理追踪

迭代 1

{
    "thought": "为了回答用户关于比特币的查询，我需要获取其当前价格、交易趋势和最近新闻。我将使用 GOOGLE_FINANCE_SEARCH 获取价格，GOOGLE_TRENDS_INTEREST 获取交易趋势（由搜索兴趣表示），以及 GOOGLE_NEWS_SEARCH 获取最新新闻。",
    "action": {
        "name": "GOOGLE_FINANCE_SEARCH",
        "reason": "这个工具将提供比特币的当前价格。",
        "input": "Bitcoin"
    }
}

迭代 2

{
    "thought": "之前的操作，GOOGLE_FINANCE_SEARCH，返回比特币的价格为 94272.91 美元，最近下跌 0.26%。然而，它没有提供交易趋势信息。为了满足用户对交易趋势的请求，我将使用 GOOGLE_TRENDS_INTEREST。",
    "action": {
        "name": "GOOGLE_TRENDS_INTEREST",
        "reason": "这个工具将提供比特币的搜索兴趣数据，提供关于交易趋势的见解。",
        "input": "Bitcoin"
    }
}

迭代 3

{
    "thought": "我已经从 GOOGLE_FINANCE_SEARCH 收到比特币的价格，并从 GOOGLE_TRENDS_INTEREST 收到过去 12 个月的搜索兴趣数据。现在我需要使用 GOOGLE_NEWS_SEARCH 获取最新新闻，以完成用户的请求。",
    "action": {
        "name": "GOOGLE_NEWS_SEARCH",
        "reason": "这将提供关于比特币的最新新闻文章，以满足用户的请求。",
        "input": "Bitcoin"
    }
}

迭代 4

{
    "thought": "我已经收到比特币的价格、搜索兴趣数据和新闻文章。我现在将这些信息综合成一个全面的答案给用户。"
}

助手响应

以下是比特币当前状态的摘要：

当前价格：

94,272.91 美元（最近下跌 0.26%）
注意：加密货币价格波动性很大，此值可能已发生变化

交易趋势： 由于谷歌趋势数据访问有限，无法提供过去一年搜索兴趣波动的详细分析。

最新新闻：

《福布斯》报道预测比特币价格将迎来与黄金相媲美的暴涨，原因是潜在的美元危机
一位交易员警告称，150,000 美元的价格目标在短期内不太可能实现（《每日霍德尔》）
关于一台丢失硬盘的法律纠纷仍在进行，该硬盘中包含约 7.5 亿美元的比特币（多个来源）
报道比特币现货ETF在推出一年后的表现（多个来源）
额外报道包括CNBC对比特币2024年表现的分析，杰米·戴蒙对比特币使用的评论，以及特拉华州检察长对比特币ATM诈骗的警告

免责声明：此信息基于公开可用数据，不应被视为财务建议。在做出投资决策之前，请咨询财务专业人士。

5. 识别具有室内座位的24小时快餐选项

在这个例子中，系统通过利用多个工具有效处理复杂查询，以确定靠近宾夕法尼亚车站的麦当劳和温迪是否24小时营业并提供室内座位。它首先使用谷歌地图搜索应用程序接口来定位该地区相关的麦当劳和温迪。识别潜在位置后，系统使用谷歌地图地点来验证每个位置的营业时间和室内座位可用性。通过这个迭代过程，系统发现靠近宾夕法尼亚车站的一家麦当劳符合24小时营业并提供室内座位的标准。然而，附近的温迪没有任何提供24小时服务和室内座位的选项，最近的选项在午夜或凌晨2点关闭。

用户查询

靠近宾夕法尼亚车站的快餐店（麦当劳和温迪）中，哪些是24小时营业并且有室内座位的？

推理追踪

迭代 1

{
    "thought": "为了准确回答查询，我需要检查靠近宾夕法尼亚车站的麦当劳和温迪的营业时间和设施。我将使用GOOGLE_MAPS_SEARCH工具查找它们的位置，然后使用GOOGLE_MAPS_PLACE检查它们的详细信息。",
    "action": {
        "name": "GOOGLE_MAPS_SEARCH",
        "reason": "这个工具将允许我找到靠近宾夕法尼亚车站的麦当劳和温迪的位置。",
        "input": "McDonald's and Wendy's near Penn Station, New York"
    }
}

迭代 2

{
    "thought": "谷歌地图搜索提供了几家靠近宾夕法尼亚车站的麦当劳和温迪的位置。为了确定哪些有24小时服务和室内座位，我需要在每个24小时营业的麦当劳位置上使用GOOGLE_MAPS_PLACE工具来验证室内座位的可用性。我将优先检查24小时营业的麦当劳位置，因为查询表明对24小时服务的偏好。",
    "action": {
        "name": "GOOGLE_MAPS_PLACE",
        "reason": "这个工具将允许我验证在之前的谷歌地图搜索中找到的24小时麦当劳位置的室内座位可用性。",
        "input": "ChIJ3xjWra5ZwokR5kFS0yuQBnw"
    }
}

迭代 3

{
    "thought": "之前的操作成功检索到了一家靠近宾夕法尼亚车站的麦当劳位置的信息。响应表明该麦当劳24小时营业并且有室内座位（'service_options': {'dine_in': true}）。为了完整回答查询，我需要检查靠近宾夕法尼亚车站的温迪是否也符合这些标准。",
    "action": {
        "name": "GOOGLE_MAPS_SEARCH",
        "reason": "这个工具将允许我找到靠近宾夕法尼亚车站的温迪位置。",
        "input": "Wendy's near Penn Station, New York"
    }
}

迭代 4

{
    "thought": "之前的谷歌地图搜索显示靠近宾夕法尼亚车站的温迪位置有几个结果。为了确定哪些有24小时服务和室内座位，我需要在每个位置上使用GOOGLE_MAPS_PLACE工具。我将优先检查看起来营业到很晚的位置。",
    "action": {
        "name": "GOOGLE_MAPS_PLACE",
        "reason": "这个工具将允许我验证靠近宾夕法尼亚车站的每个温迪位置的室内座位和营业时间。",
        "input": "ChIJmb4kM4hZwokRLAWbDkj0xos"
    }
}

迭代 5

{
    "thought": "之前的操作显示检查的温迪位置不提供室内座位。为了完整回答查询，我需要检查靠近宾夕法尼亚车站的所有温迪位置是否提供24小时服务和室内座位。",
    "action": {
        "name": "GOOGLE_MAPS_SEARCH",
        "reason": "寻找更多靠近宾夕法尼亚车站的温迪位置，并检查是否有提供24小时服务和室内座位的。",
        "input": "Wendy's near Penn Station, New York"
    }
}

迭代 6

{
    "thought": "之前的谷歌地图搜索返回了几个温迪位置。其中一个在24 W 23rd St，有室内座位并且营业到午夜。另一个在938 8th Ave，也有室内座位，并且在星期五和星期六营业到凌晨2点。为了提供完整的答案，我需要明确说明靠近宾夕法尼亚车站是否有任何24小时营业的温迪位置，且有室内座位。",
    "answer": "根据我对靠近宾夕法尼亚车站的麦当劳和温迪的搜索，我发现有一家麦当劳位置是24小时营业并且有室内座位。然而，我没有找到任何靠近宾夕法尼亚车站的温迪位置是24小时营业且有室内座位的。最近的温迪位置在午夜或凌晨2点关闭。"
}

助手回应

根据我对靠近宾夕法尼亚车站的麦当劳和温迪的搜索，我发现有一家麦当劳位置是24小时营业并且有室内座位。然而，我没有找到任何靠近宾夕法尼亚车站的温迪位置是24小时营业且有室内座位的。最近的温迪位置在午夜或凌晨2点关闭。

6. 创建问答和幽默的问答之夜计划

在下一个示例中，系统通过结合问答题、答案和笑话，有效地创建了一个问答之夜计划，以提供引人入胜的体验。它首先使用问答题工具生成10个问答题及其相应的答案，涵盖各种主题。接下来，系统利用随机笑话工具检索10个笑话，以便在问答轮之间作为轻松的休息。数据收集完成后，系统将问答之夜计划结构化为10轮，顺利整合了问题、答案和笑话。

最终输出是一个详细的计划，每轮后面都有一个笑话，保持智力挑战和娱乐之间的平衡。这展示了系统策划和组织多样内容以满足有趣、全面的问答活动需求的能力。

用户查询

创建一个包含问题、答案和轮间笑话的问答之夜计划。

推理追踪

迭代 1

{
    "thought": "为了创建一个问答之夜计划，我将使用 TRIVIA_QUESTIONS 工具获取 10 个问答题及其答案。然后我将使用 TEN_RANDOM_JOKES 工具获取笑话，以便在轮间插入。",
    "action": {
        "name": "TRIVIA_QUESTIONS",
        "reason": "该工具提供问答题和答案，满足查询的核心需求。",
        "input": "amount=10"
    }
}

迭代 2

{
    "thought": "我已经使用 TRIVIA_QUESTIONS 工具检索了 10 个问答题及其答案。现在我将使用 TEN_RANDOM_JOKES 工具获取笑话，以便在轮之间放置。",
    "action": {
        "name": "TEN_RANDOM_JOKES",
        "reason": "该工具将提供十个笑话，用作问答轮之间的休息。",
        "input": ""
    }
}

迭代 3

{
    "thought": "我已经检索了 10 个问答题及其答案和 10 个笑话。现在我将把它们结构化为一个问答之夜计划，包括轮次、问题、答案和轮间的笑话。",
    "answer": "这是一个完整的问答之夜计划，包括 10 轮，包含问题、答案和轮间的笑话。"
}

助手响应

这是您的问答之夜计划：

第 1 轮：

问题：世界上最高的山是什么？
答案：珠穆朗玛峰
笑话休息：你听说过那个听力辅助器坏掉的家伙吗？他也没听到。

第 2 轮：

问题：法国的首都是什么？
答案：巴黎
笑话休息：你怎么知道床下有大象？你的头撞到了天花板！

第 3 轮：

问题：水的化学符号是什么？
答案：H2O
笑话休息：袋鼠能跳得比帝国大厦高吗？当然可以。帝国大厦不会跳。

第 4 轮：

问题：谁画了《蒙娜丽莎》？
答案：列奥纳多·达·芬奇
笑话休息：如果你把一百万只猴子放在一百万个键盘上，其中一个最终会写出一个Java程序。其余的会写Perl。

第 5 轮：

问题：我们太阳系中最大的行星是什么？
答案：木星
笑话休息：你把鸡和臭鼬交配会得到什么？一种恶臭！

第 6 轮：

问题：地球唯一的自然卫星叫什么？
答案：月亮
笑话休息：鸡的哪一侧有更多的羽毛？外面。

第 7 轮：

问题：世界上最小的国家是什么？
答案：梵蒂冈
笑话休息：程序员为什么破产了？他用尽了所有的缓存。

第 8 轮：

问题：第二次世界大战是哪一年开始的？
答案：1939
笑话休息：你听说过那个不能变色的变色龙吗？它们有爬行动物功能障碍。

第 9 轮：

问题：世界上最长的河流叫什么？
答案：尼罗河
笑话休息：永远不要听电子的建议。它们总是消极的。

第 10 轮：

问题：黄金的化学符号是什么？
答案：Au
笑话休息：人手有多少根骨头？一把手的骨头。

7. 在德克萨斯州弗里斯科寻找高评分健身房及视频导览

在这个最后的例子中，系统通过结合基于位置的搜索与多媒体资源，有效地解决了一个多步骤查询。该过程首先使用当前位置工具确定用户的位置，将弗里斯科，德克萨斯州识别为搜索区域。接下来，系统利用谷歌本地搜索API编制附近高评分健身房的列表。使用健身房名称作为输入，随后利用YouTube搜索API查找这些健身房相关的视频导览。最后，系统综合结果，提供健身房列表，包括Life Time、Cowboys Fit、Destination Gym和LA Fitness，并附上每个健身房的视频导览链接。这种方法突显了系统整合地理定位、本地搜索和多媒体内容检索的能力，以提供针对用户查询的全面响应。

用户查询

我附近有哪些高评分的健身房，是否有视频导览可用？

推理追踪

迭代 1

{
    "thought": "为了回答用户的查询，我需要首先使用CURRENT_LOCATION工具确定他们的当前位置。然后，我将使用该位置信息作为输入进行GOOGLE_LOCAL_SEARCH，以找到高评分的健身房。最后，我将使用这些健身房的名称作为输入进行YOUTUBE_SEARCH，以找到相关视频。",
    "action": {
        "name": "CURRENT_LOCATION",
        "reason": "这个工具对于获取用户的位置是必要的，这对于找到附近的健身房至关重要。",
        "input": null
    }
}

迭代 2

{
    "thought": "我已经获得用户在德克萨斯州弗里斯科的位置。现在我将使用GOOGLE_LOCAL_SEARCH工具在该区域寻找高评分的健身房。然后，我将使用这些健身房的名称作为输入进行YOUTUBE_SEARCH，以找到相关视频。",
    "action": {
        "name": "GOOGLE_LOCAL_SEARCH",
        "reason": "这个工具将允许我在德克萨斯州弗里斯科附近找到高评分的健身房。",
        "input": "弗里斯科，德克萨斯州最好的健身房"
    }
}

迭代 3

{
    "thought": "我从GOOGLE_LOCAL_SEARCH工具获得了一份高评分健身房的列表。我的下一步是使用这些健身房的名称作为输入，使用YOUTUBE_SEARCH工具查找相关视频。",
    "action": {
        "name": "YOUTUBE_SEARCH",
        "reason": "这个工具将允许我找到与每个健身房相关的YouTube视频，从而增强用户对每个地点的理解。",
        "input": "INDUSTRIOUS - Frisco, ...Destination Dallas Texas, Hidden Gym, Frisco Athletic Center, NexGen Fitness, Anytime Fitness, Black Iron Athletics, Thrive Fitness Studio, Conquer Fitness and Performance Personal Training, Crunch Fitness - Frisco, Row House Fitness, barre3, Fire Fitness Frisco, Orangetheory Fitness, CrossFit Lowe, Body Fit Training, Life Time, Harter Strength and Conditioning, Neon Cycle + Strength, NexGen Fitness"
    }
}

迭代 4

{
    "thought": "YOUTUBE_SEARCH工具返回了与德克萨斯州弗里斯科的健身房相关的YouTube视频列表。我现在将构建一个包含健身房名称和相关YouTube视频链接的响应。"
}

助手响应

以下是在德克萨斯州弗里斯科的一些高评分健身房及相关YouTube视频链接：

Life Time:

YouTube视频: https://www.youtube.com/watch?v=n-geC9a9VwM (Life Time Frisco盛大开幕)

Cowboys Fit:

YouTube视频: https://www.youtube.com/watch?v=mXNijQUsS5w (新的Cowboys Fit健身房在弗里斯科开业)
YouTube视频: https://www.youtube.com/watch?v=zcV0fgR3pls (Cowboys Fit现在在弗里斯科的The Star开业)

Destination Gym:

YouTube视频: https://www.youtube.com/watch?v=zsaEkJsbaT4 (MUTANT on a MISSION S8E08 | Destination Gym, Dallas Texas)

LA Fitness:

YouTube视频: https://www.youtube.com/watch?v=bSfyCiBDQaw (LA Fitness导览 - 德克萨斯州弗里斯科)

其他健身房（视频可能关联度较低）：
YouTube搜索还包括了许多在初始GOOGLE_LOCAL_SEARCH中提到的其他健身房的结果，但由于广泛搜索查询的性质，视频与这些特定弗里斯科位置的相关性并不保证。您可以在此YouTube搜索链接中找到完整的结果列表: https://www.youtube.com/results?search_query=INDUSTRIOUS+-+Frisco%2C+…Destination+Dallas+Texas%2C+Hidden+Gym%2C+Frisco+Athletic+Center%2C+NexGen+Fitness%2C+Anytime+Fitness%2C+Black+Iron+Athletics%2C+Thrive+Fitness+Studio%2C+Conquer+Fitness+and+Performance+Personal+Training%2C+Crunch+Fitness+-+Frisco%2C+Row+House+Fitness%2C+barre3%2C+Fire+Fitness+Frisco%2C+Orangetheory+Fitness%2C+CrossFit+Lowe%2C+Body+Fit+Training%2C+Life+Time%2C+Harter+Strength+and+Conditioning%2C+Neon+Cycle+%2B+Strength%2C+NexGen+Fitness

注意：此列表基于搜索和YouTube视频的可用性。进一步的研究可能会产生更多结果。

减少失败

代理在与工具交互时常常会遇到挑战，失败通常源于工具使用不当、参数无效或执行逻辑缺陷。这些问题可能导致意外结果或任务中断。下面，我们讨论常见的失败场景以及有效减轻这些问题的策略。

一个常见的失败涉及调用不存在的工具，例如试图使用 get_weather 而不是有效的 get_google_search_results。尽管像 Gemini 2.0 这样的现代模型很少会幻觉工具，但通过在提示中添加限制性指令，可以有效减轻这一风险，明确约束代理使用可用的工具集。

另一个常见问题是使用正确的工具但参数不当。例如，调用 get_google_maps_place 时未提供必需字段如 hl 或 gl 可能会导致执行错误。同样，合理但不正确的参数值——例如使用无效的邮政编码 00000 调用 get_zip_info——也可能导致任务失败。前者可以通过将详细的函数定义纳入提示中来解决，明确所需和可选参数，而强大的验证逻辑可以减少此类错误。

任务执行中的逻辑失误是另一个失败来源。例如，代理可能使用 get_google_maps_search 查找咖啡馆，但未跟进使用 get_google_maps_place 验证关键细节如营业时间，导致结果不完整。这突显了层级关联的重要性，工具输出应无缝地输入到后续操作中。这种关联可以通过在提示设计中明确嵌入依赖关系来加强。

在使用工具如 get_google_news_search 时，参数不对齐也可能发生。例如，应用过于严格的过滤器——使用 tbm="blogs" 而不是 tbm="news"——可能会产生无关结果。在多步骤工作流中，复合错误可能会出现。代理可能使用 get_google_events_basic_search 检索事件，但将 location 参数与用户意图的区域不匹配，导致无关或误导性数据。即使工具和步骤选择正确，这种逻辑不对齐也可能削弱输出。为了防止这种情况，测试单个工具调用的各种参数配置并构建全面的测试套件是一种最佳实践。

速率限制和 API 限制也带来了风险。例如，反复调用 get_google_jobs_search 而未处理分页可能导致遗漏结果或超出查询限制。同样，模糊的输入到 get_google_shopping_search，如模糊的产品名称，可能返回无关或不完整的数据。

为了减少这些失败，代理必须严格验证工具输入，优雅地处理意外响应，并确保工作流中的逻辑一致性。在模拟环境中进行强有力的测试，并在部署期间进行动态监控，可以帮助识别和解决边缘情况。通过采用这些实践，代理可以在复杂的多步骤工作流中提供准确、可靠和有影响力的结果。

结束思考：

由生成式人工智能驱动的代理工作流正在重塑我们与技术的互动方式，使其变得更智能、更直观，并能够应对我们曾认为无法解决的挑战。构建这些系统不仅仅是创造工具；而是重新定义可能性——无论是解决复杂查询、设计高效工作流，还是解锁全新的用例。通过探索实际示例并将其扎根于现实应用中，本指南旨在激励您开始构建和实验。这里的潜力巨大，而这仅仅是一个开始。

在下一篇文章中，我们将深入探讨为创意和应用程序开发量身定制的类似代理工作流——敬请期待！

如果您对内容或共享的笔记本有任何问题或疑虑，请随时通过 [email protected] 或 [email protected] 联系我。您还可以在 https://www.linkedin.com/in/arunprasath-shankar/ 找到我。

我欢迎所有反馈和建议。如果您对大规模机器学习、自然语言处理或自然语言理解感兴趣，并渴望合作，我将很高兴与您联系。

释放代理搜索：构建强大搜索功能的实践指南

tldr

回顾：

架构概述：

工具选择

推理

实操示例

1. 查找当前位置和识别感兴趣的地点

用户查询

推理追踪

迭代 1

迭代 2

迭代 3

迭代 4

助手响应

用户查询

推理追踪

迭代 1

迭代 2

迭代 3

迭代 4

助手响应

2. 识别墨西哥Talavera瓷砖的图案和文化意义

用户查询

推理过程

迭代 1

迭代 2

迭代 3

迭代 4

助手回应

3. 通过多模态分析实现准确的品种识别

用户查询

推理追踪

迭代 1

迭代 2

助手响应

用户查询

推理追踪

迭代 1

迭代 2

迭代 3

迭代 4

助手响应

4. 查询解析：比特币价格、趋势和新闻

用户查询

推理追踪

迭代 1

迭代 2

迭代 3

迭代 4

助手响应

5. 识别具有室内座位的24小时快餐选项

用户查询

推理追踪

迭代 1

迭代 2

迭代 3

迭代 4

迭代 5

迭代 6

助手回应

6. 创建问答和幽默的问答之夜计划

用户查询

推理追踪

迭代 1

迭代 2

迭代 3

助手响应

7. 在德克萨斯州弗里斯科寻找高评分健身房及视频导览

用户查询

推理追踪

迭代 1

迭代 2

迭代 3

迭代 4

助手响应

减少失败

结束思考：

Tags :

Share :