什么是人工智能代理?从虚拟助理到智能决策者
- Rifx.Online
- Chatbots , Autonomous Systems , Machine Learning
- 15 Dec, 2024
从零开始理解AI代理的指南
最近,从基于LLM的聊天机器人转向该领域现在定义为代理系统或代理AI的变化可以用一句老话来总结:“少说多做。”
跟上技术进步可能令人畏惧,尤其是当你已经有一个现有的业务时。更不用说技术进步的速度和复杂性可能会让你感觉像是开学的第一天。
本文提供了基于其组件和特征的AI代理概述。引言部分涵盖了构成“AI代理”一词的组件,以创建一个直观的定义。在建立定义后,接下来的部分包括对LLM应用形式演变的探索,特别是从传统聊天机器人到代理系统的转变。
总体而言,主要目的是理解为什么AI代理在AI应用开发领域变得越来越重要,以及它们与基于LLM的聊天机器人有何不同。在本指南结束时,您将更全面地了解AI代理、它们的潜在应用,以及它们可能如何影响您组织的工作流程。
如果您是技术人员并希望动手实践,请点击**这里**访问最适合AI开发者和构建者的最佳资源库。
什么是AI代理?
“AI代理”这个术语的两个组成部分可以让我们更深入地理解它的含义。我们先从简单的开始:人工智能,也称为AI。
人工智能 (AI) 指的是非生物形式的智能,这种智能大致基于对人类智能的计算模仿,旨在执行传统上需要人类智力的任务。为计算系统提供智能的主要方法是通过机器学习和深度学习技术,其中计算机算法——特别是神经网络的层——从提供的数据集中学习模式和特征。AI系统的开发旨在应对检测、分类和预测任务,而内容生成因变换器基础模型的有效性而成为一个显著的问题领域。在某些情况下,这些AI系统的表现与人类相匹配,尤其在特定场景中,它们的表现甚至超越了人类。
第二个组成部分“代理”是一个在技术和人类上下文中都很熟悉的术语,理解这两种视角可以帮助澄清AI代理的概念。
- 在计算机科学和技术中:计算机科学相关主题中的“代理”一词指的是一个具有环境意识和通过传感器启用的感知能力的实体(软件代理),并能够通过行动机制在其环境中采取行动。在这个上下文中,代理是一个计算系统,它:
- 拥有自主权来做出决策和采取行动。
- 能够与环境互动。
- 能够追求目标或执行任务。
- 可能学习或使用知识以实现其目标。
- 在人类上下文中:代理一词通常指的是代表另一个人、团体或组织行事的人,通常在决策、信息收集和共享方面充当代理。代理的角色和责任可能包括:
- 在被代表方的允许授权下,为他人做出决策或采取行动。
- 在交易和合同场景中正式代表一个人,同样需要得到主要方的授权。
- 在多个方之间充当中介。
要理解AI代理,我们必须结合“代理”一词在技术和人类上下文中的特征,同时应用人工智能的指导原则。这种结合使我们能够理解AI代理如何以及为何特别适合执行通常需要人类智力和代理的任务。
基于AI代理这一术语的基础背景,我们可以形成AI代理的定义。
AI代理是一个具有环境意识的计算实体,配备有通过输入实现感知、通过工具使用实现行动、以及通过长期和短期记忆支持的基础模型实现认知能力的功能。
从LLM到AI代理
好的,你现在是一名AI工程师。
但在你开始构建下一个十亿收入生成的AI产品之前,让我们退后一步,了解我们是如何走到AI代理这一步的。我们将看看在短时间内,LLM应用所经历的变化。
LLM应用形式因素的演变是我们在现代应用中看到的最快发展之一。
传统聊天机器人到 LLM 驱动的聊天机器人
聊天机器人并不新鲜;在生成性人工智能(gen AI)被提及之前,您可能已经在某个网站上与聊天机器人互动过。传统聊天机器人在前 gen AI 时代与今天的 AI 驱动的对话代理有着根本的不同。它们通常是这样运作的:
- 启发式响应:传统聊天机器人的操作模型基于“如果这样,那么这样”的逻辑,或更正式地说是基于规则的逻辑。它们被编程为一组预定义的规则和决策树,以确定如何响应用户输入。
- 固定回答:传统聊天背后有一套预先编写的回答,根据检测到的特定关键词或短语向用户展示。这在一定程度上是有效的。
- 人工转接:传统聊天机器人总是有一个“与人工交谈”的按钮,老实说,这一点并没有发生重大变化。“人类在循环中”仍然是即使在代理系统中也非常需要的机制。
LLM 驱动的聊天机器人是 LLM 应用的首次主流引入。2022 年 11 月 30 日,OpenAI 发布了 ChatGPT,这是一个提供简单但熟悉的传统聊天机器人界面的网络接口(输入和输出可视化区域),但在这个网络接口背后是 GPT-3.5,这是一个由 OpenAI 创建并在大量互联网语料库上训练的 LLM。
GPT(生成预训练变换器)基于 2017 年谷歌推出的变换器架构。该架构使用自注意力机制处理输入序列,使模型能够考虑每个单词与输入中所有其他单词的上下文关系。
与传统聊天机器人不同,LLM(如 GPT-3.5)可以根据提供的输入生成类人文本。GPT-3.5 和其他基于变换器的 LLM 的一个关键区别在于,内容生成的机制不仅仅是基于对训练数据集的模式识别和特征提取,而是这些基础模型在提示下可以创造出看似新颖且上下文相关的内容。
GPT 驱动的聊天机器人如 ChatGPT 的引入开辟了一系列新的可能性,无论是企业还是商业用例。显著的用例包括代码生成、内容创作、改善客户服务等。LLM 驱动的聊天机器人的能力标志着从传统基于规则的聊天机器人向更灵活、智能和强大的 AI 助手的重大转变。
尽管具有先进的能力,LLM 驱动的聊天机器人仍然面临某些限制。一个显著的挑战是个性化。这些系统在长时间对话或多次会话中难以保持一致的个性化互动。更令人担忧的是,LLM 生成的响应虽然类人且连贯,但却可能不准确。这种现象成为了一个令人担忧的问题,主要是因为这些系统开始以高度自信提供错误信息,这种现象现在被称为“幻觉”。
重要的是要理解,当 LLM “幻觉”时,它并没有发生故障,而是正如它所训练的那样:根据输入令牌和其训练数据的一组概率生成下一个输出令牌。这个过程有时会导致听起来合理但在事实上的输出不正确。
解决这些限制成为开发更先进的 AI 系统的关键焦点,促使探索可以“扎根” LLM 输出的技术。一种显著的技术是 检索增强生成或 RAG。
LLM-驱动的聊天机器人到RAG聊天机器人
RAG是一种利用信息检索方法来定位和提供相关数据的技术,这些数据随后与用户提示结合并作为输入提供给LLM。这个过程确保了LLM生成的输出基于以下两个方面:
- 非参数知识:根据特定查询或上下文从外部数据源检索的信息;这通常是从互联网或专有数据中提取的实时数据
- 参数知识:在LLM训练过程中嵌入在其参数中的固有知识
通过利用这两种信息来源,RAG旨在生成更准确、更新和上下文相关的响应。这种方法缓解了纯LLM系统的一些局限性,例如幻觉或过时信息,通过将模型的响应基于可检索和可验证的数据。
提高LLM输出的努力有多个方面,其中之一是提示工程。提示工程是指构建输入查询以引导LLM输出朝向所需特征的实践,例如提高准确性、相关性和特异性。这项技术涉及仔细构建给定LLM的初始提示,以确保输出更精确、上下文适当且任务特定的响应。
一些提示工程技术已经出现,例如上下文学习、思维链(CoT)和ReAct(推理与行动)。
上下文学习:利用LLM的泛化能力,上下文学习涉及提供输入-输出对,展示要解决的任务和期望的输出。这项技术可以通过两种主要方式实施:
- 单次学习:提供一个输入-输出对作为示例
- 少量学习:提供多个输入-输出对作为示例
这个过程通常以没有对应输出的输入结束。根据提供的示例,LLM生成一个输出,该输出受到提示中给定的输入-输出对的条件和引导。
这种方法允许LLM在不微调模型参数的情况下,适应特定任务或风格。相反,它依赖于模型识别模式并将其应用于相同上下文中的新、相似情况的能力。
虽然上下文学习提示技术使LLM能够泛化到新任务,但后续的发展如思维链和ReAct提示利用了LLM的涌现推理和规划能力。CoT使LLM能够通过逐步推理过程将复杂任务分解为更小、更简单的子部分。ReAct结合了LLM的推理能力与行动规划。
RAG 聊天机器人与 AI 代理
随着 LLM 规模扩大到数百亿个参数,它们展现了越来越复杂的涌现能力。这些能力包括高级推理、多步骤规划以及工具使用或函数调用。
工具使用,有时称为“函数调用”,是指 LLM 生成结构化输出或模式的能力,该输出指定从预定义集合中选择一个或多个函数,并为这些函数分配适当的参数值。LLM 中的工具使用能力依赖于描述目标或任务的输入提示以及提供给 LLM 的一套函数定义,通常为 JSON 格式。
LLM 分析输入和函数定义,以确定调用哪个函数以及如何填充它们的参数。然后,这个结构化输出可以被外部系统用来执行实际的函数调用。
什么是工具?
一般来说,任何可以通过编程定义和调用的东西都可以被定义为工具,并提供相应的 JSON 定义给 LLM。因此,RAG 能力可以是工具,对外系统的 API 调用也可以是工具。
拥有工具和函数调用能力的 LLM 有时被称为“工具增强型 LLM”,但值得注意的是,高级推理、多步骤规划和工具使用能力的结合促成了 AI 代理的出现。 拼图的最后一块是 AI 代理所处的环境。AI 代理在一个迭代执行环境中操作,该环境使得一个目标驱动的系统能够在之前执行输出的基础上进行迭代,这可以与基于对话的系统界面不同。
代理系统或复合 AI 系统目前正在作为现代 AI 应用的实现范式出现,这些应用相比基于 LLM 的聊天机器人更为复杂,并且在与系统组件的集成方面更为多面。代理系统可以被定义为包括一个或多个具有自主决策能力的 AI 代理的计算架构,能够访问和利用各种系统组件和资源以实现定义的目标,同时适应环境反馈。关于理解代理系统的更多资源将在不久的将来提供。
另一个需要注意的关键术语是“代理 RAG”,它指的是一个利用 LLM 的路由、工具使用、推理和规划能力,以及基于查询和存储数据比较的信息检索的范式。这个系统范式使得动态 LLM 应用的开发成为可能,这些应用可以访问各种工具来执行查询、分解任务和解决复杂问题。
要真正理解 AI 代理,考虑它们的组成部分、特征和能力是很重要的。
AI代理的关键组成部分和特征
AI代理的组成部分是构成其架构并使其功能得以实现的关键部分。这些组件协同工作,以处理信息、做出决策并与环境互动。主要组成部分包括大脑、行动和感知模块,每个模块在代理的操作中都发挥着至关重要的作用。
代理是一个由多个集成组件组成的计算实体,包括大脑、感知和行动组件。这些组件紧密协作,使代理能够实现其定义的目标和目的。
大脑:代理架构的这个组件负责代理的认知能力,包括推理、计划和决策的能力。代理的大脑本质上就是LLM。LLM的突现能力为代理提供了推理、理解、规划等能力。同时,与人类类似,大脑组件封装了不同的模块,如记忆、特征分析和知识。
记忆模块存储代理与其他外部实体或系统的互动。这些存储的信息可以被回忆,以便在未来的执行步骤中提供信息,并根据历史互动采取相应的行动。特征分析模块使代理能够根据角色特征的描述承担某些角色,这些描述旨在将代理调节为一组行为。
代理大脑组件中的知识模块使得能够存储和检索特定领域的相关和有用信息,以便在规划和采取行动时利用。
行动:代理对环境和新信息反应的能力由行动组件促进,该组件包括使代理能够生成响应和调用其他系统的模块。基于LLM的代理能够利用大脑组件中的过程将任务分解为步骤。每个步骤可以与代理工具库中的工具相关联。凭借LLM的推理和规划能力,代理能够有效决定在每个步骤中何时使用工具。
感知:该组件专门负责捕捉和处理来自代理环境的输入。在代理系统和互动的范围内,输入以各种形式出现,但提供给代理的主要输入是听觉、文本和视觉。
AI代理的特征是定义其能力和操作模式的独特特征和行为。这些特征决定了AI代理如何与其环境互动、处理信息以及实现其目标。关键特征包括自主性、主动性、反应性和互动性。
以下是代理的主要特征总结:
- AI代理是反思性和主动的:AI代理利用先进的推理模式来解决复杂问题。它们采用ReAct和链式思维等技术来分解任务、规划行动并反思结果。利用LLMs的推理和规划的突现特性,这些代理根据反馈、先前的执行输出和环境输入不断调整其策略。规划、执行和反思的迭代过程使AI代理能够高效地执行输入目标。
- AI代理是互动的:在某些情况下,AI代理可能需要与同一系统或外部系统中的其他代理进行互动,并且通常需要与人类进行反馈或审查执行步骤的输出。AI代理还可以理解其他代理和人类输出的上下文,并根据这些上下文改变其行动方向和下一步。AI代理的互动性延伸到承担角色或身份,以推动和调整AI代理的行为,使其根据所采用的角色趋向可预测性。在多代理环境中,这使得社会角色的模拟和基于角色定义的协作成为可能。
- AI代理是自主和反应的:它们的自主特性使其能够根据内部处理结果和外部观察执行操作,通常不需要明确的外部命令。这种反应性是通过两个关键能力实现的:工具使用和输入处理。这些能力使AI代理能够动态地响应环境或任务条件的变化,相应地调整其行为和行动。
结论
在我们的探索中,我们已经对AI代理及其特征进行了理解,并提供了一个有效的定义。然而,重要的是要注意一个重要的警告:目前尚无统一的行业标准来明确界定在当今快速发展的AI环境中,什么构成AI代理。
相反,行业普遍同意将系统分类为AI代理是一个光谱或连续体。这种细致的观点承认AI系统可以表现出不同程度的代理性、自治性和能力。
这就是“代理性”一词进入讨论的地方。“代理性”指的是AI系统展示代理般特质的程度。这些特质可能包括以下内容:
- 决策的自治水平。
- 与环境互动和操控的能力。
- 目标导向行为的能力。
- 适应新情况的能力。
- 主动行为的程度。
这种基于连续体的理解允许对AI系统进行更灵活和包容的分类方法。它认识到,随着AI技术的发展,“简单”AI系统与完全成熟的AI代理之间的界限可能会变得越来越模糊。
新形式的LLM应用的价值和影响在哪里实现?
在软件和应用开发方面,我们往往关注价值和影响,以及在早期探索和实验AI代理和代理系统中的投资回报。主要是,我们看到通过自动化手动过程实现的生产力提升带来了价值。手动审批、文档和审查嵌入在企业组织的大多数工作流程中。代理系统在自动化——或者换句话说,“代理化”——现有工作流程中重复性方面显示出早期潜力。
代理系统的另一个价值是减轻企业工作流程中的决策负担。当AI代理嵌入在代理系统和复合AI系统中时,可以通过规则和指南来引导它们的决策能力。但更大的价值和影响可以体现在让普通个体更接近系统,而无需获得技术知识,因为代理系统允许以文本和图像驱动的界面作为调用和执行系统功能的主要驱动因素。基础模型输入的多样性使代理系统能够通过自然语言进行引导,降低了系统交互的技术复杂性。
目前AI堆栈中的参与者努力在哪里?
可靠性、可扩展性和AI代理的性能是AI行业关键参与者关注的领域,他们试图提供解决方案。解决这些关注领域的方法包括增加基础模型中的参数,以增强AI代理的推理能力,或开发工具来协调AI代理所在系统中的工作流程。
MongoDB处于数据解决方案的前沿,提供全面的数据库功能和平台特性,旨在支持企业级和前沿代理系统的开发。为了为开发者提供解决代理系统可靠性、可扩展性和性能的功能,MongoDB是AI代理和代理系统的内存提供者。 MongoDB在代理系统中在以下关键领域表现出色:
- 长期数据管理:MongoDB提供强大的存储和高效检索对话历史的能力,使AI代理能够保持上下文并从过去的互动中学习,通过Atlas Search实现。
- 向量数据库能力:通过利用MongoDB Atlas Vector Search,该平台提供最先进的向量嵌入数据的存储和检索,这对AI工作负载和语义搜索功能至关重要。
- 可扩展的数据存储:MongoDB的架构确保AI代理操作数据的高性能、可扩展存储,能够无缝适应不断增长的数据量和计算需求。
查看我们的技术资源,并开始使用MongoDB实现您的AI代理。