颠覆想象！AI代理的进化之路：从聊天机器人到智能自主体的惊人飞跃！

随着大型语言模型（LLM）的出现，人工智能取得了巨大的飞跃。这些强大的系统彻底改变了自然语言处理，但当与代理能力结合时 — 进行推理、规划和自主行动的能力 — 它们的真正潜力才会被释放。这就是 LLM 代理发挥作用的地方，代表了我们与 AI 互动和利用方式的范式转变。

本博客旨在提供 AI 代理的全面概述，深入探讨它们的特征、组件和类型，同时探索它们的演变、挑战和潜在的未来方向。

让我们首先了解从 LLM 到 AI 代理的演变。

1. 从LLM到AI代理

LLM应用形式的演变是我们在现代应用中看到的最快发展之一。

1.1 传统聊天机器人到 LLM 驱动的聊天机器人

聊天机器人并不新鲜；在生成式人工智能（gen AI）这个词被提出之前，您可能已经在某个网站上与聊天机器人互动过。传统聊天机器人在 pre-gen AI 时代与今天的 AI 驱动的对话代理有着根本的不同。它们通常是这样运作的：

基于启发式的响应：

传统聊天机器人基于规则逻辑运作（“如果-那么”语句）。
仅限于预定义规则，无法处理复杂或模糊的查询。

固定响应：

响应是静态和预定义的。
通过检测特定关键词或短语触发。
缺乏灵活性和对话深度。

人工转接：

总是包含一个“与人工客服交谈”的按钮，以处理未解决的查询。
人工干预在处理复杂问题时仍然至关重要。

1.2 LLM驱动的聊天机器人介绍

ChatGPT的推出： 2022年11月30日，OpenAI推出了ChatGPT，它是基于GPT-3.5的第一个主流LLM应用。ChatGPT保留了熟悉的聊天机器人界面，但背后是先进的LLM技术，经过大量互联网语料库的训练。

Transformer架构： GPT（生成预训练变换器）基于2017年谷歌推出的Transformer架构。它使用自注意力机制来分析输入序列，更深层次地理解上下文。

LLM的能力： 与传统聊天机器人不同，LLM能够生成类似人类的、上下文相关的和新颖的文本。使用案例包括代码生成、内容创作、增强客户服务等。

局限性：

个性化： 在长时间对话中难以保持一致的个性化互动。
幻觉： 可能生成事实不正确但连贯的回答，基于概率而非经过验证的知识生成输出。

解决局限性：

正在探索像**检索增强生成（RAG）**这样的技术，以将输出与可靠的外部数据结合起来。
这些进展旨在减少不准确性，提高LLM驱动系统的稳健性。

1.3 从 LLM 驱动的聊天机器人到 RAG 聊天机器人和 AI 代理

RAG 聊天机器人： 检索增强生成（RAG）结合了外部数据检索与 LLM 能力，以产生准确且具有上下文基础的响应。

知识来源：

非参数知识： 从外部来源（如互联网或专有数据库）实时检索的数据。
参数知识： LLM 在其训练过程中嵌入的知识。

优势： 减少幻觉，提供最新信息，并确保可验证的响应。

提示工程： 诸如上下文学习（一次性、少量）、思维链（CoT）和 ReAct 等技术通过引导 LLM 的推理和输出生成来提高响应质量。

AI 代理： AI 代理是从增强工具、多个步骤规划和推理能力的 LLM 演变而来的。

工具使用： LLM 可以通过分析任务和通过结构化模式（例如 JSON）分配参数来调用程序定义的函数或 API。

环境： AI 代理在迭代执行环境中操作，使其能够基于反馈进行动态决策和持续适应。

代理系统： 这些是具有自主代理的计算架构，能够集成多个系统组件、做出决策并实现目标。

代理 RAG：

将 LLM 的推理、工具使用和规划能力与语义信息检索结合起来。
使动态系统能够分解任务、执行复杂查询，并利用工具进行问题解决。

从 LLM 驱动的聊天机器人到 RAG 聊天机器人和 AI 代理的过渡代表了向更智能、适应性强且集成工具的系统的转变，这些系统能够实时解决复杂问题。

2. 什么是AI代理？

一个AI代理是一个能够通过传感器感知其环境、处理这些信息并通过执行器对环境采取行动以实现特定目标的系统。可以把它看作是一个数字实体，它可以观察、思考和行动——就像人类与周围环境的互动，但以编程和有目的的方式进行。

AI代理的概念建立在理性行为的基本思想之上：代理应该采取行动，以最大化其成功实现指定目标的机会。这种理性使得AI代理与简单的响应程序有所区别。

2.1 AI代理的特征

AI代理具有几个关键特征：

自主性： 在没有人类干预的情况下操作，独立做出决策。
反应性和主动行为： 对环境变化做出反应，并采取主动措施以实现目标。
适应性： 通过处理新信息和经验来学习和发展。
目标导向： 致力于实现预定义目标或优化结果。
交互性： 与其他代理或人类进行沟通和协作。
持久性： 持续操作，监控并响应动态环境。

3. AI代理的核心组件

AI代理的核心由以下组件组成：

感知
推理
行动
知识库
学习
通信接口

3.1 感知（传感器）

这些允许智能体感知其环境。这些可以是物理传感器（摄像头、麦克风）或数字输入（数据流、用户交互）。

3.2 推理（处理器）

代理的“大脑”，处理来自传感器的信息并确定适当的行动。该组件实现代理的决策算法，并维护任何必要的内部状态。

AI 代理使用各种决策机制，例如基于规则的系统、专家系统和神经网络，以做出明智的选择并有效地执行任务。

3.3 行动（执行器）

代理影响其环境的方式，或者简单地使代理能够采取行动。这些可以是物理的（机器人手臂、扬声器）或数字的（数据库更新、显示输出）。

3.4 知识库

代理用于做出决策的信息库，包括预先编程的知识和学习到的信息。

3.5 学习

使智能体能够通过从数据和经验中学习来提高其性能。它使用强化学习、监督学习和无监督学习等技术来随着时间的推移提高AI智能体的性能。

3.6 通信接口

允许代理与其他代理、系统或人类进行交互。

我们将在下面的章节中详细介绍它们，同时说明代理的工作原理。

4. AI代理如何与环境互动

交互周期通常被称为**“感知-计划-行动”周期或“感知-行动”**周期。让我们以自动驾驶汽车为例来理解每个阶段：

4.1 感知阶段

将其视为代理的“感知”阶段：

传感器 → 处理 → 状态更新

代理通过其传感器接收输入
信息被处理和解释
当前状态根据新信息进行更新

4.2 决策阶段

这是“思考”阶段，代理：

当前状态 + 目标 → 评估选项 → 选择最佳行动

代理评估可能的行动
考虑目标和约束
根据可用信息选择最佳行动

4.3 行动阶段

这是“执行”的阶段：

执行行动 → 观察变化 → 开始新循环

选择的行动通过执行器执行
环境因而发生变化
代理通过传感器观察结果，开始新的循环。

这个循环不断重复，通常每秒多次。这个循环强大的原因在于：

1. 适应性： 如果发生意外情况，代理可以在下一个感知阶段检测到这一点，并相应地调整其行动。

2. 学习机会： 代理可以将预测结果与实际结果进行比较，以改善未来的决策。

3. 目标导向行为： 每个循环使代理更接近其目标，同时尊重约束条件。

为了程序化理解，让我们通过温控器的类比比较三个复杂程度的层次：

简单程序

## Simple program
if temperature > desired_temperature:
    turn_on_cooling()

仅遵循固定规则
不考虑后果
没有学习或适应

2. 响应程序

## Responsive program
if temperature > desired_temperature:
    if time_of_day == "peak_hours":
        turn_on_cooling_eco_mode()
    else:
        turn_on_cooling_normal()

更复杂的规则
有一定的上下文意识
仍然没有真正的智能

3. AI 代理

class SmartThermostat:
    def perceive(self):
        current_temp = get_temperature()
        time = get_time()
        electricity_price = get_current_price()
        weather_forecast = get_forecast()
        user_preferences = get_preferences()
        return Environment(current_temp, time, electricity_price, 
                         weather_forecast, user_preferences)
  
    def think(self, environment):
        possible_actions = [
            NoAction(),
            CoolNormal(),
            CoolEco(),
            PreCool(),
            WaitForOffPeak()
        ]
      
        # Evaluate each action's expected outcome
        best_action = None
        best_utility = float('-inf')
      
        for action in possible_actions:
            predicted_state = predict_future_state(environment, action)
            utility = calculate_utility(predicted_state)
          
            if utility > best_utility:
                best_action = action
                best_utility = utility
              
        return best_action
  
    def act(self, action):
        action.execute()
        monitor_results()
        update_learning_model()

考虑多个因素
预测结果
从经验中学习
优化长期目标
平衡竞争目标

这个相同的循环适用于所有 AI 代理：- 聊天机器人感知文本输入，决定适当的响应，并通过生成文本来行动 - 交易机器人感知市场数据，决定交易策略，并通过下单来行动 - 扫地机器人感知房间布局和污垢，决定清洁模式，并通过移动和激活清洁机制来行动。

5. AI代理是如何工作的？

假设你的智能冰箱不仅在你用完牛奶时重新订购牛奶——它还根据你的浏览习惯建议你改用杏仁奶。这是有帮助的，还是有点让人不安？你来决定！

这就是AI代理的本质。

AI代理能够理解人类语言（得益于LLMs），推理信息，规划行动，并在不需要持续人类输入的情况下执行任务。它们解决复杂问题，使其远比简单的自动化工具更先进。与基本脚本不同，AI代理集成到软件系统中，允许与环境进行复杂的交互。

AI代理与简单自动化的区别是什么？

它们的区别在于两个主要能力：

工具
规划

你可能见过ChatGPT在基本数学问题上出错。这是因为它只根据训练时的数据作出回应。

同样地，如果我问你85和65相乘，作为一个人，如果你已经知道答案，或者使用一个叫做计算器的工具，你可以直接回答，对吗？

你对代理做的也是同样的事情，给它们访问工具的权限。

第二个方面是规划。

以同样的数学计算为例，只有在你知道乘法，或者知道要传递给计算器的参数是85和65以及乘法时，你才能解决这个问题。

这就是规划和推理的意义。

以下是当你查询AI代理时发生的流程。

5.1 编排层（控制中心）

假设我想创建一个 AI 代理的会议调度程序，我向调度程序查询：“我想为我的所有学生举办一个网络研讨会”。

这将被视为 AI 代理的触发器。

查询可以是文本、音频、视频或图像。（您已经知道，无论数据类型如何，它始终会被转换为机器的数值）

查询将由编排层，也就是 AI 代理的控制中心来处理。

编排层有四个主要功能：

内存：维护您整个交互的记忆。
状态：存储整个过程的当前状态。
推理：指导代理的推理。
规划：步骤是什么，下一步将是什么？

它将与模型（LLM）进行交互。

5.2 模型（大脑）

模型是整个智能体的集中决策者。

它通常是一个像大型语言模型这样的AI模型。

为了理解查询、制定计划并确定下一步行动，模型使用推理和逻辑框架，例如：

ReAct （推理 + 行动）确保深思熟虑和慎重的行动
Chain-of-Thought 通过中间步骤进行推理。
Tree-of-Thoughts 探索多条路径以找到最佳解决方案

模型确定采取哪些行动，并使用特定的工具执行这些行动。

5.3 工具（手段）

通过使用工具，代理可以与外部世界进行互动。

就像我告诉你的，计算器、API、网络搜索、外部数据库等。

工具使代理能够执行超出模型能力的操作，访问实时信息或完成现实世界的任务。

6. ✅ 何时使用代理 / ⛔ 何时避免使用代理

代理在需要 LLM 确定应用程序工作流程时非常有用。但它们通常是多余的。问题是：我是否真的需要在工作流程中灵活性来有效解决当前任务？如果预先确定的工作流程太常不够用，这意味着你需要更多的灵活性。我们来举个例子：假设你正在制作一个处理冲浪旅行网站客户请求的应用程序。

你可以提前知道请求将属于 2 个类别中的一个（基于用户选择），并且你为这 2 种情况都有预定义的工作流程。

想了解旅行信息？⇒ 给他们提供一个搜索框以搜索你的知识库
想与销售人员交谈？⇒ 让他们填写联系表。

如果这个确定性的工作流程适用于所有查询，那就尽管编码吧！这将为你提供一个 100% 可靠的系统，没有让不可预测的 LLM 干扰你工作流程所带来的错误风险。为了简单和稳健，建议规范化为不使用任何代理行为。

但如果工作流程无法提前确定得那么好呢？

例如，用户想问：“我可以在周一来，但我忘记带护照，因此可能会延迟到周三，能否在周二早上带我和我的东西去冲浪，并附带取消保险？”这个问题涉及许多因素，可能没有上述预定标准能够满足这个请求。

如果预先确定的工作流程太常不够用，这意味着你需要更多的灵活性。

这就是代理设置提供帮助的地方。

在上述例子中，你可以创建一个多步骤代理，访问天气 API 以获取天气预报，使用 Google Maps API 计算旅行距离，查看员工可用性仪表板，并在你的知识库上使用 RAG 系统。

直到最近，计算机程序都被限制在预定的工作流程内，试图通过堆叠 if/else 语句来处理复杂性。它们专注于极其狭窄的任务，例如“计算这些数字的总和”或“在这个图中找到最短路径”。但实际上，大多数现实生活中的任务，比如我们上面的旅行例子，并不适合预定的工作流程。代理系统为程序打开了现实世界任务的广阔天地！

7. 应用领域

AI agents 是多功能工具，可以在广泛的领域中提高生产力、效率和智能。它们在日常应用和先进的高影响力领域中的使用越来越普遍。

8. 结论

AI 代理正在改变我们与技术的互动方式，提供前所未有的自主性、智能和适应性。从简单的反射代理到复杂的学习系统，它们正在各个行业中应用，以解决复杂问题并增强人类能力。然而，构建有效的 AI 代理面临着挑战，包括伦理问题、数据依赖性和可扩展性问题。

随着 AI 技术的不断发展，AI 代理的未来蕴含着巨大的潜力。通过关注通用 AI、人机协作以及伦理考量，我们可以创建不仅高效执行任务，还能与人类价值观相一致并对社会产生积极贡献的代理。

AI 代理是自主系统，能够感知、决策和行动以实现目标。
核心组件包括传感器、执行器、决策引擎和学习模块。
AI 代理被应用于虚拟助手、自动驾驶车辆和医疗保健等领域。

通过理解基本原理并保持对进展的关注，我们可以利用 AI 代理的力量推动创新，创造更美好的未来。