
颠覆想象!AI代理的进化之路:从聊天机器人到智能自主体的惊人飞跃!
- Rifx.Online
- Chatbots , Autonomous Systems , Ethics
- 12 Feb, 2025
- 随着大型语言模型(LLM)的出现,人工智能取得了巨大的飞跃。这些强大的系统彻底改变了自然语言处理,但当与代理能力结合时 — 进行推理、规划和自主行动的能力 — 它们的真正潜力才会被释放。这就是 LLM 代理发挥作用的地方,代表了我们与 AI 互动和利用方式的范式转变。
本博客旨在提供 AI 代理的全面概述,深入探讨它们的特征、组件和类型,同时探索它们的演变、挑战和潜在的未来方向。
让我们首先了解从 LLM 到 AI 代理的演变。
1. 从LLM到AI代理
LLM应用形式的演变是我们在现代应用中看到的最快发展之一。
1.1 传统聊天机器人到 LLM 驱动的聊天机器人
聊天机器人并不新鲜;在生成式人工智能(gen AI)这个词被提出之前,您可能已经在某个网站上与聊天机器人互动过。传统聊天机器人在 pre-gen AI 时代与今天的 AI 驱动的对话代理有着根本的不同。它们通常是这样运作的:
基于启发式的响应:
- 传统聊天机器人基于规则逻辑运作(“如果-那么”语句)。
- 仅限于预定义规则,无法处理复杂或模糊的查询。
固定响应:
- 响应是静态和预定义的。
- 通过检测特定关键词或短语触发。
- 缺乏灵活性和对话深度。
人工转接:
- 总是包含一个“与人工客服交谈”的按钮,以处理未解决的查询。
- 人工干预在处理复杂问题时仍然至关重要。
1.2 LLM驱动的聊天机器人介绍
ChatGPT的推出: 2022年11月30日,OpenAI推出了ChatGPT,它是基于GPT-3.5的第一个主流LLM应用。ChatGPT保留了熟悉的聊天机器人界面,但背后是先进的LLM技术,经过大量互联网语料库的训练。
Transformer架构: GPT(生成预训练变换器)基于2017年谷歌推出的Transformer架构。它使用自注意力机制来分析输入序列,更深层次地理解上下文。
LLM的能力: 与传统聊天机器人不同,LLM能够生成类似人类的、上下文相关的和新颖的文本。使用案例包括代码生成、内容创作、增强客户服务等。
局限性:
- 个性化: 在长时间对话中难以保持一致的个性化互动。
- 幻觉: 可能生成事实不正确但连贯的回答,基于概率而非经过验证的知识生成输出。
解决局限性:
- 正在探索像**检索增强生成(RAG)**这样的技术,以将输出与可靠的外部数据结合起来。
- 这些进展旨在减少不准确性,提高LLM驱动系统的稳健性。
1.3 从 LLM 驱动的聊天机器人到 RAG 聊天机器人和 AI 代理
RAG 聊天机器人: 检索增强生成(RAG)结合了外部数据检索与 LLM 能力,以产生准确且具有上下文基础的响应。
知识来源:
- 非参数知识: 从外部来源(如互联网或专有数据库)实时检索的数据。
- 参数知识: LLM 在其训练过程中嵌入的知识。
优势: 减少幻觉,提供最新信息,并确保可验证的响应。
提示工程: 诸如上下文学习(一次性、少量)、思维链(CoT)和 ReAct 等技术通过引导 LLM 的推理和输出生成来提高响应质量。
AI 代理: AI 代理是从增强工具、多个步骤规划和推理能力的 LLM 演变而来的。
工具使用: LLM 可以通过分析任务和通过结构化模式(例如 JSON)分配参数来调用程序定义的函数或 API。
环境: AI 代理在迭代执行环境中操作,使其能够基于反馈进行动态决策和持续适应。
代理系统: 这些是具有自主代理的计算架构,能够集成多个系统组件、做出决策并实现目标。
代理 RAG:
- 将 LLM 的推理、工具使用和规划能力与语义信息检索结合起来。
- 使动态系统能够分解任务、执行复杂查询,并利用工具进行问题解决。
从 LLM 驱动的聊天机器人到 RAG 聊天机器人和 AI 代理的过渡代表了向更智能、适应性强且集成工具的系统的转变,这些系统能够实时解决复杂问题。
2. 什么是AI代理?
一个AI代理是一个能够通过传感器感知其环境、处理这些信息并通过执行器对环境采取行动以实现特定目标的系统。可以把它看作是一个数字实体,它可以观察、思考和行动——就像人类与周围环境的互动,但以编程和有目的的方式进行。
AI代理的概念建立在理性行为的基本思想之上:代理应该采取行动,以最大化其成功实现指定目标的机会。这种理性使得AI代理与简单的响应程序有所区别。
2.1 AI代理的特征
AI代理具有几个关键特征:
- 自主性: 在没有人类干预的情况下操作,独立做出决策。
- 反应性和主动行为: 对环境变化做出反应,并采取主动措施以实现目标。
- 适应性: 通过处理新信息和经验来学习和发展。
- 目标导向: 致力于实现预定义目标或优化结果。
- 交互性: 与其他代理或人类进行沟通和协作。
- 持久性: 持续操作,监控并响应动态环境。
3. AI代理的核心组件
AI代理的核心由以下组件组成:
- 感知
- 推理
- 行动
- 知识库
- 学习
- 通信接口
3.1 感知(传感器)
这些允许智能体感知其环境。这些可以是物理传感器(摄像头、麦克风)或数字输入(数据流、用户交互)。
3.2 推理(处理器)
代理的“大脑”,处理来自传感器的信息并确定适当的行动。该组件实现代理的决策算法,并维护任何必要的内部状态。
AI 代理使用各种决策机制,例如基于规则的系统、专家系统和神经网络,以做出明智的选择并有效地执行任务。
3.3 行动(执行器)
代理影响其环境的方式,或者简单地使代理能够采取行动。这些可以是物理的(机器人手臂、扬声器)或数字的(数据库更新、显示输出)。
3.4 知识库
代理用于做出决策的信息库,包括预先编程的知识和学习到的信息。
3.5 学习
使智能体能够通过从数据和经验中学习来提高其性能。它使用强化学习、监督学习和无监督学习等技术来随着时间的推移提高AI智能体的性能。
3.6 通信接口
允许代理与其他代理、系统或人类进行交互。
我们将在下面的章节中详细介绍它们,同时说明代理的工作原理。
4. AI代理如何与环境互动
交互周期通常被称为**“感知-计划-行动”周期或“感知-行动”**周期。让我们以自动驾驶汽车为例来理解每个阶段:
4.1 感知阶段
将其视为代理的“感知”阶段:
传感器 → 处理 → 状态更新
- 代理通过其传感器接收输入
- 信息被处理和解释
- 当前状态根据新信息进行更新
4.2 决策阶段
这是“思考”阶段,代理:
当前状态 + 目标 → 评估选项 → 选择最佳行动
- 代理评估可能的行动
- 考虑目标和约束
- 根据可用信息选择最佳行动
4.3 行动阶段
这是“执行”的阶段:
执行行动 → 观察变化 → 开始新循环
- 选择的行动通过执行器执行
- 环境因而发生变化
- 代理通过传感器观察结果,开始新的循环。
这个循环不断重复,通常每秒多次。这个循环强大的原因在于:
1. 适应性: 如果发生意外情况,代理可以在下一个感知阶段检测到这一点,并相应地调整其行动。
2. 学习机会: 代理可以将预测结果与实际结果进行比较,以改善未来的决策。
3. 目标导向行为: 每个循环使代理更接近其目标,同时尊重约束条件。
为了程序化理解,让我们通过温控器的类比比较三个复杂程度的层次:
- 简单程序
## Simple program
if temperature > desired_temperature:
turn_on_cooling()
- 仅遵循固定规则
- 不考虑后果
- 没有学习或适应
2. 响应程序
## Responsive program
if temperature > desired_temperature:
if time_of_day == "peak_hours":
turn_on_cooling_eco_mode()
else:
turn_on_cooling_normal()
- 更复杂的规则
- 有一定的上下文意识
- 仍然没有真正的智能
3. AI 代理
class SmartThermostat:
def perceive(self):
current_temp = get_temperature()
time = get_time()
electricity_price = get_current_price()
weather_forecast = get_forecast()
user_preferences = get_preferences()
return Environment(current_temp, time, electricity_price,
weather_forecast, user_preferences)
def think(self, environment):
possible_actions = [
NoAction(),
CoolNormal(),
CoolEco(),
PreCool(),
WaitForOffPeak()
]
# Evaluate each action's expected outcome
best_action = None
best_utility = float('-inf')
for action in possible_actions:
predicted_state = predict_future_state(environment, action)
utility = calculate_utility(predicted_state)
if utility > best_utility:
best_action = action
best_utility = utility
return best_action
def act(self, action):
action.execute()
monitor_results()
update_learning_model()
- 考虑多个因素
- 预测结果
- 从经验中学习
- 优化长期目标
- 平衡竞争目标
这个相同的循环适用于所有 AI 代理:- 聊天机器人感知文本输入,决定适当的响应,并通过生成文本来行动 - 交易机器人感知市场数据,决定交易策略,并通过下单来行动 - 扫地机器人感知房间布局和污垢,决定清洁模式,并通过移动和激活清洁机制来行动。
5. AI代理是如何工作的?
假设你的智能冰箱不仅在你用完牛奶时重新订购牛奶——它还根据你的浏览习惯建议你改用杏仁奶。这是有帮助的,还是有点让人不安?你来决定!
这就是AI代理的本质。
AI代理能够理解人类语言(得益于LLMs),推理信息,规划行动,并在不需要持续人类输入的情况下执行任务。它们解决复杂问题,使其远比简单的自动化工具更先进。与基本脚本不同,AI代理集成到软件系统中,允许与环境进行复杂的交互。
AI代理与简单自动化的区别是什么?
它们的区别在于两个主要能力:
- 工具
- 规划
你可能见过ChatGPT在基本数学问题上出错。这是因为它只根据训练时的数据作出回应。
同样地,如果我问你85和65相乘,作为一个人,如果你已经知道答案,或者使用一个叫做计算器的工具,你可以直接回答,对吗?
你对代理做的也是同样的事情,给它们访问工具的权限。
第二个方面是规划。
以同样的数学计算为例,只有在你知道乘法,或者知道要传递给计算器的参数是85和65以及乘法时,你才能解决这个问题。
这就是规划和推理的意义。
以下是当你查询AI代理时发生的流程。
5.1 编排层(控制中心)
假设我想创建一个 AI 代理的会议调度程序,我向调度程序查询:“我想为我的所有学生举办一个网络研讨会”。
这将被视为 AI 代理的触发器。
查询可以是文本、音频、视频或图像。(您已经知道,无论数据类型如何,它始终会被转换为机器的数值)
查询将由编排层,也就是 AI 代理的控制中心来处理。
编排层有四个主要功能:
- 内存:维护您整个交互的记忆。
- 状态:存储整个过程的当前状态。
- 推理:指导代理的推理。
- 规划:步骤是什么,下一步将是什么?
它将与模型(LLM)进行交互。
5.2 模型(大脑)
模型是整个智能体的集中决策者。
它通常是一个像大型语言模型这样的AI模型。
为了理解查询、制定计划并确定下一步行动,模型使用推理和逻辑框架,例如:
- ReAct (推理 + 行动)确保深思熟虑和慎重的行动
- Chain-of-Thought 通过中间步骤进行推理。
- Tree-of-Thoughts 探索多条路径以找到最佳解决方案
模型确定采取哪些行动,并使用特定的工具执行这些行动。
5.3 工具(手段)
通过使用工具,代理可以与外部世界进行互动。
就像我告诉你的,计算器、API、网络搜索、外部数据库等。
工具使代理能够执行超出模型能力的操作,访问实时信息或完成现实世界的任务。
6. ✅ 何时使用代理 / ⛔ 何时避免使用代理
代理在需要 LLM 确定应用程序工作流程时非常有用。但它们通常是多余的。问题是:我是否真的需要在工作流程中灵活性来有效解决当前任务?如果预先确定的工作流程太常不够用,这意味着你需要更多的灵活性。我们来举个例子:假设你正在制作一个处理冲浪旅行网站客户请求的应用程序。
你可以提前知道请求将属于 2 个类别中的一个(基于用户选择),并且你为这 2 种情况都有预定义的工作流程。
- 想了解旅行信息?⇒ 给他们提供一个搜索框以搜索你的知识库
- 想与销售人员交谈?⇒ 让他们填写联系表。
如果这个确定性的工作流程适用于所有查询,那就尽管编码吧!这将为你提供一个 100% 可靠的系统,没有让不可预测的 LLM 干扰你工作流程所带来的错误风险。为了简单和稳健,建议规范化为不使用任何代理行为。
但如果工作流程无法提前确定得那么好呢?
例如,用户想问:“我可以在周一来,但我忘记带护照,因此可能会延迟到周三,能否在周二早上带我和我的东西去冲浪,并附带取消保险?”这个问题涉及许多因素,可能没有上述预定标准能够满足这个请求。
如果预先确定的工作流程太常不够用,这意味着你需要更多的灵活性。
这就是代理设置提供帮助的地方。
在上述例子中,你可以创建一个多步骤代理,访问天气 API 以获取天气预报,使用 Google Maps API 计算旅行距离,查看员工可用性仪表板,并在你的知识库上使用 RAG 系统。
直到最近,计算机程序都被限制在预定的工作流程内,试图通过堆叠 if/else 语句来处理复杂性。它们专注于极其狭窄的任务,例如“计算这些数字的总和”或“在这个图中找到最短路径”。但实际上,大多数现实生活中的任务,比如我们上面的旅行例子,并不适合预定的工作流程。代理系统为程序打开了现实世界任务的广阔天地!
7. 应用领域
AI agents 是多功能工具,可以在广泛的领域中提高生产力、效率和智能。它们在日常应用和先进的高影响力领域中的使用越来越普遍。
8. 结论
AI 代理正在改变我们与技术的互动方式,提供前所未有的自主性、智能和适应性。从简单的反射代理到复杂的学习系统,它们正在各个行业中应用,以解决复杂问题并增强人类能力。然而,构建有效的 AI 代理面临着挑战,包括伦理问题、数据依赖性和可扩展性问题。
随着 AI 技术的不断发展,AI 代理的未来蕴含着巨大的潜力。通过关注通用 AI、人机协作以及伦理考量,我们可以创建不仅高效执行任务,还能与人类价值观相一致并对社会产生积极贡献的代理。
- AI 代理是自主系统,能够感知、决策和行动以实现目标。
- 核心组件包括传感器、执行器、决策引擎和学习模块。
- AI 代理被应用于虚拟助手、自动驾驶车辆和医疗保健等领域。
通过理解基本原理并保持对进展的关注,我们可以利用 AI 代理的力量推动创新,创造更美好的未来。