为人工智能代理提供个性化用户体验
- Rifx.Online
- Chatbots , Autonomous Systems , Machine Learning
- 19 Jan, 2025
基于用户角色的AI代理微调以满足企业用例
1. 引言
关于 ChatGPT(通常指生成式 AI)的讨论,现在已经演变为代理 AI。虽然 ChatGPT 主要是一个可以生成文本响应的聊天机器人,但 AI 代理可以自主执行复杂任务,例如:进行销售、规划旅行、预订航班、预定承包商进行家庭工作、点披萨。下图 1 说明了代理 AI 系统的演变。
比尔·盖茨最近设想了一个未来,我们将拥有一个能够处理和响应自然语言并完成多种不同任务的 AI 代理。盖茨以规划旅行为例。
通常,这将涉及自己预订酒店、航班、餐厅等。但 AI 代理能够利用其对您偏好的了解,代表您预订和购买这些东西。
我们在本文中关注这一代理个性化方面(基于用户偏好)。
如今的 AI 代理能够分解给定任务,监控长期运行的子任务,并自主调整其执行策略以实现目标。这导致了针对特定任务优化的 AI 代理的兴起,这些代理可能由不同供应商提供,并在代理市场中发布/编目。
类似于将大型语言模型(LLMs)微调为特定领域的 LLMs / 小型语言模型(SLMs),
我们认为,需要对这些(通用)AI 代理进行定制/微调,以适应企业特定的上下文(适用的用户角色和用例),以推动它们在企业中的采用。
AI 代理个性化的关键好处包括:
- 个性化互动:AI 代理根据用户偏好和互动历史调整其语言、语气和复杂性。这确保了对话更符合用户的期望和沟通风格。
- 用例上下文:AI 代理了解基础的企业用例流程,因此可以优先考虑或突出流程特征、相关内容等——优化互动以更高效地实现用例目标。
- 主动协助:AI 代理预见不同用户的需求,并提供主动建议、资源或提醒,针对他们的特定档案或任务量身定制。
总之,尽管当前实现 AI 代理的重点仍然是功能方面(这是合理的);
我们在本文中强调,AI 代理的 UI/UX 同样重要,是推动企业采用的最后一公里。
为此,我们在第 2 节中概述了代理 AI 平台的参考架构,并在第 3 节中扩展相同内容,提供实施代理个性化层的技术细节。最后,我们在第 4 节讨论代理 AI 设计原则和最佳实践,以促进变更管理并推动代理 AI 用例在企业中的成功推广。
2. 代理 AI 平台参考架构
在本节中,我们突出参考 AI 代理平台的关键组件 — 如图 2 所示:
- 代理市场
- 编排层
- 集成层
- 共享内存层
- 治理层,包括可解释性、隐私、安全性等
在第 3 节中增加了 个性化 层。
给定用户任务,我们提示大型语言模型(LLM)进行任务分解 — 这与生成 AI 有重叠。不幸的是,这也意味着当前的代理 AI 系统受到大型语言模型(LLM) 推理 能力的限制。例如,GPT4 对提示的任务分解
生成一封量身定制的电子邮件营销活动,以在 1 个月内实现 100 万美元的销售,适用的产品及其性能指标可在 [url] 获取。连接到 CRM 系统 [integration] 以获取客户姓名、电子邮件地址和人口统计信息。
在图 3 中详细说明:(分析产品)—(识别目标受众)—(创建量身定制的电子邮件营销活动)。
然后,LLM 监控执行/环境并根据需要自主适应。在这种情况下,代理意识到它无法实现销售目标,并自主添加了任务:(寻找替代产品)—(利用客户数据来 个性化 电子邮件)—(进行 A/B 测试)。
鉴于需要编排多个代理,需要一个 集成层 来支持不同的代理交互模式,例如,代理到代理 API,提供人类消费输出的代理 API,人类触发 AI 代理,AI 代理到代理与人类在循环中。集成模式需要由底层 AgentOps 平台支持。Andrew Ng 最近 谈到 了这一方面的性能视角:
今天,许多 LLM 输出是供人类消费的。但在代理工作流中,LLM 可能会被反复提示以反思和改进其输出,使用工具,规划和执行多个步骤,或实现多个协作的代理。因此,我们可能会在向用户显示任何输出之前生成数十万个标记或更多。这使得快速标记生成非常可取,并使得较慢的生成成为更好利用现有模型的瓶颈。
还需要提到的是,与企业系统(例如,此案例中的 CRM)的集成对于大多数用例是必要的。例如,参考 Anthropic 最近提出的模型上下文协议(MCP),以将 AI 代理连接到企业数据所在的外部系统。
鉴于此类复杂任务的长期运行性质,记忆管理 对于代理 AI 系统至关重要。一旦初始电子邮件营销活动启动,代理需要监控该活动 1 个月。
这涉及任务之间的上下文共享以及在较长时间内保持执行上下文。
这里的标准方法是将代理信息的嵌入表示保存到支持最大内积搜索(MIPS)的向量存储数据库中。为了快速检索,使用近似最近邻(ANN)算法,该算法返回大约最接近的 k 个邻居,并在准确性与巨大的速度提升之间进行权衡。
最后,治理层。我们需要确保用户针对特定任务共享的数据,或跨任务的用户配置文件数据,仅与相关代理共享(隐私、身份验证和访问控制)。请参考我之前的 文章 讨论 负责任的 AI 代理 所需的关键维度,以实现良好治理的 AI 代理平台,包括幻觉防护、数据质量、隐私、可重复性、可解释性等。
3. 基于用户角色的代理人工智能个性化
如今,用户期望获得无缝且个性化的体验,以满足其特定需求。然而,由于规模、性能和隐私方面的挑战,企业用户和流程特定的人工智能代理个性化仍然面临困难。
基于用户角色的代理个性化旨在通过将服务的最终用户细分为可管理的一组用户类别来克服这些挑战,这些类别代表了大多数用户的人口统计特征和偏好。例如,在一个启用人工智能代理的IT服务台(这是生成式人工智能采用率最高的领域之一)场景中的典型角色包括:
- 领导层:需要优先支持的高级人员(例如,副总裁、董事),并要求安全访问敏感数据,以及协助高层演示和视频会议。
- 知识工作者:在日常任务中严重依赖技术的员工(例如,分析师、工程师、设计师)。
- 现场工作人员:主要在办公室外工作的员工(例如,销售代表、服务技术人员)。因此,他们的需求主要集中在远程访问公司系统、可靠的VPN和离线工作能力的支持上。
- 行政/人力资源:负责各种行政任务的支持人员(例如,人力资源、财务),其主要需求围绕MS Office软件的支持、访问特定业务应用程序以及快速解决常规IT问题。
- 新员工/实习生:对组织不太熟悉的新人,可能对公司的IT系统并不完全了解。因此,他们的查询主要集中在与入职相关的问题上。
在本文中,我们重点关注LLM代理,这大致意味着调用(提示)一个LLM以执行自然语言处理(NLP)任务,例如处理文档、对其进行总结、基于检索到的数据生成响应。例如,请参阅LangGraph中概述的“研究人员”代理场景。
鉴于此,执行基于用户角色的人工智能代理微调的解决方案架构如图4所示***。***
微调过程首先通过适配器对用户数据和对话历史进行参数化(聚合),并将其存储为LLM中的记忆,随后对LLM进行微调以生成个性化响应。代理—用户角色路由器有助于执行用户细分(评分)并将任务/提示路由到最相关的代理角色。
例如,请参阅以下论文,了解教育和医疗背景下基于角色的LLM微调的详细信息。
- EduChat:考虑在教育语料库上进行预训练,以建立基础知识库,随后在个性化任务上进行微调,例如,论文评估。
- 基于LLM的医疗助手个性化结合了参数高效微调(PEFT)与记忆检索模块,以生成个性化的医疗响应。
3.1 用户数据嵌入
在本节中,我们专注于生成代理与用户之间的交互嵌入,这是微调和/或实时检索增强生成(RAG)提示上下文增强的前提条件。
在原始用户数据上微调 AI 代理通常过于复杂,即使是在(聚合的)用户画像层面。
这主要是由于以下原因:
- 代理交互数据通常跨越多个旅程,数据点稀疏,交互类型多样(多模态),并且可能存在噪声或与不完整查询—响应的不一致性。
- 此外,有效的个性化通常需要深入理解用户行为背后的潜在意图/情感,这对通用(预训练)LLM—LLM 代理来说可能会造成困难。
- 最后,微调计算密集型。代理—用户交互数据可能很长。使用 LLM 处理和建模如此长的序列(例如,多年的交互历史)在实际操作中可能不可行。
克服上述问题的一个良好解决方案参考是谷歌关于 User-LLMs 的研究。根据作者的说法,
USER-LLM 从多样且嘈杂的用户交互中提炼出压缩的 表示,有效捕捉用户在各种交互模式下的行为模式和偏好的本质。
这种方法使 LLM 能够更深入地理解用户的潜在意图(包括情感)和历史模式(例如,用户查询—响应的时间演变),使 LLM 能够量身定制响应并生成个性化结果。
3.2 基于强化学习的个性化
在本节中,我们展示了如何基于强化学习(RL)驱动的推荐引擎(RE)对LLM生成的响应进行个性化处理。
RL是一种强大的技术,能够通过实时最大化奖励函数来实现复杂目标。奖励函数的工作原理类似于用糖果和打屁股来激励孩子,算法在做出错误决策时会受到惩罚,而在做出正确决策时会获得奖励——这就是强化学习。
从高层次来看,基于RL的LLM响应/动作推荐引擎的工作原理如下:
- 将(当前)用户情感和代理互动历史结合起来,以量化用户情感曲线并折扣任何突发的用户情感变化;
- 进而得出与提供给用户的最后一个LLM响应相对应的总奖励值。
- 然后将该奖励值作为反馈提供给RL代理——以选择下一个最优的LLM生成响应/动作提供给用户。
更具体地,我们可以将一个基于RL的推荐引擎与基于LLM的聊天应用的集成表述如下——如图5所示:
动作 (a): 在这种情况下,动作a对应于针对用户任务/提示而交付给用户的LLM生成响应——作为持续代理互动的一部分。
代理 (A): 是执行动作的主体。在这种情况下,代理是向用户提供LLM响应的聊天应用,其中的动作是根据其策略(如下所述)选择的。
环境: 指的是代理与之互动的世界,并对代理的动作作出响应。在我们的案例中,环境对应于与聊天应用互动的用户U。U通过提供不同类型的反馈来响应A的动作,包括显性反馈(以聊天响应的形式)和隐性反馈(例如,用户情感的变化)。
策略 (𝜋): 是代理用来选择下一个基本动作(NBA)的策略。给定用户档案Uₚ、(当前)情感Uₛ和查询/任务Uᵩ;策略函数计算NLP和RE分别返回的响应分数的乘积,选择得分最高的响应作为NBA:
- NLP引擎(NE)解析任务/提示并输出一个排名响应的列表。
- 推荐引擎(RE)根据奖励函数为每个响应提供一个分数,并考虑使用案例上下文、用户档案、偏好、情感和对话历史。策略函数可以形式化为:
奖励 (r): 指的是我们用来衡量代理推荐动作(响应)成功或失败的反馈。反馈可以例如指用户花费在阅读推荐文章上的时间,或在收到响应后用户情感的变化。我们考虑一个2步奖励函数计算,其中相对于推荐动作收到的反馈fₐ首先映射到情感分数,然后映射到奖励
r(a, fₐ*) = s(fₐ)*
其中r和s分别指代奖励和情感函数。
4. 代理人工智能变更管理以推动企业采用
在本节中,我们讨论设计原则,以促进代理人工智能用例在企业中的成功推广。鉴于其复杂性,需要变更管理,以积极教育用户有关人工智能代理的能力(和局限性)——设定现实的用户期望。
我们并不试图在这里发明一个新的框架,而是从“企业友好”的微软、“开发者友好”的谷歌和“用户友好”的苹果中获得灵感——无缝推动代理人工智能在企业用例中的采用。
让我们来看看这三位领导者推荐的人工智能设计框架:
- 人机交互指南 由微软提供
- 人 + 人工智能指南 由谷歌提供
- 机器学习:人机界面指南 由苹果提供
下表汇总了这三个规范在代理操作管道不同阶段的原则和最佳实践。
5. 结论
在本文中,我们考虑了基于用户角色的企业用例中的AI代理交互个性化。代理AI个性化有潜力通过提高用户满意度显著加速代理AI的采用。
我们提出了一个代理AI平台的参考架构,并提供了实现该平台个性化层的细节,包括(a) 代理-用户路由器以执行用户细分并将任务/提示映射到最相关的代理角色,以及(b) 利用代理-用户交互嵌入。
最后,我们讨论了设计原则,以便在企业中成功推广代理AI用例。这包括变更管理和最佳实践/指南,以在AgentOps生命周期的所有阶段积极与最终用户互动,以推动他们的采用。