用于人类运动对话的多模态人工智能

Rifx.Online
Chatbots , Autonomous Systems , Natural Language Processing
16 Nov, 2024

撰写者：Christian Safka 和 Keyu Chen

在本次探索中，我们将探讨多模态模型如何改变对话人工智能代理的游戏规则，以及如何利用感知、记忆、行为建模和实时渲染在各种环境中实现无缝交互。

本页的提纲：

为什么选择多模态？
深入人类运动管道
训练中的挑战
当前用例和未来

为什么多模态？

从高层次来看，我们需要实现类人对话的三个“层次”是输入感知、运动规划和虚拟形象渲染。截止到本篇写作时，大多数学术界的流程将这些层次分开，以文本作为中介：

多模态模型所解锁的是这些层次之间信息损失的减少：

深入探讨人类运动管道

生成类人动作和反应是一个困难的问题。它需要一个管道来处理来自多个来源的实时线索，进行解释、翻译并生成同步响应。所有阶段对于创建能够参与流畅、上下文相关对话的虚拟形象至关重要。

我们讨论了三个层次：

1. 输入感知 — 从视觉、听觉和基于文本的来源收集多模态线索。

2. 运动规划 — 根据这些输入确定适当的动作或反应。

3. 虚拟形象输出 — 以实时方式渲染这些计划的动作。

现在让我们分析每个层次在创建类人对话中的关键角色。

多模态输入的感知

有效的人类运动合成始于理解多模态线索，就像人类依赖视觉、听觉和语言进行沟通。在数字应用中，这一过程可以复制人类收集和响应信息的复杂方式：

视觉输入：图像和视频流捕捉面部表情、视线方向和手势等元素
听觉输入：音频信号提供重要信息，如语调、重音和节奏，使我们能够解读语言的情感背景
文本输入：基于文本的提示或对话记录可以通过提供语义上下文来指导虚拟形象的动作——了解正在讨论的内容使虚拟形象能够适当地响应对话的细微差别

整合这些模态创造了对对话环境的整体理解，为系统如何解释和映射世界提供了基础。

使用LLMs进行运动规划

在多模态AI中，交互层——通常由大型语言模型（LLMs）驱动——充当虚拟形象的“大脑”。该层处理来自感知阶段合成的多模态线索，确定最具上下文相关性的响应，并将其翻译为计划的动作或语言响应。

同时使用语音和视觉特征作为输入使模型能够处理：

上下文运动规划：模型可以捕捉对话线索，将其匹配到上下文适当的动作。例如，如果虚拟形象检测到用户语音中的热情，它可能会采取开放、引人入胜的姿态或面部表情
顺序交互控制：模型可以学习解释线索序列，使其能够处理转接、积极倾听手势和停顿等细微差别，这些都是自然对话的重要组成部分

之前的研究如Zhou et al. [0]或Pereira et al. [1]会从这一层输出文本——情感标签如“快乐”，可以用于条件表达生成。这是非常有损的，表达永远不会与输出语音完全对齐。

运动规划中多模态性的美在于输入和输出。在输入方面，我们可以利用大型语言模型的世界知识，即使它被训练以对齐多模态标记。在输出方面，我们可以减少期望行为与最终渲染输出之间的信息损失。

总之，交互层使虚拟形象能够响应显性和隐性对话线索，弥合多模态感知与类人交互之间的差距。

虚拟形象生成

为了实现富有同理心的对话AI或人类级别的信息流，渲染的动作和反应需要超越静态的、预先规划的动作。目标是创建一个能够几乎瞬时地解释和调整微妙对话线索的系统。

在这个背景下，虚拟形象层充当输出渲染机制。它接收交互层规划的动作，并将其转化为流畅的实时行为。该层专注于低延迟响应生成，优先考虑期望动作与视觉/音频输出之间的快速和准确对齐。

主要目标可以描述为同步语音和动作——虚拟形象必须协调面部表情、肢体语言和唇部动作，利用听觉输出和行为信号，确保所有元素保持同步。

保持时间一致性和同步性至关重要，因为任何延迟或行为不匹配都可能迅速打破沉浸感。

培训中的挑战

一些行业和学术界的活跃研发领域包括：

跨模态的标记对齐：在不失去上下文或语义意义的情况下对视觉线索和音频语调等模态进行对齐是复杂的，模型必须学习如何以统一的方式表示它们，以便提供一致的响应
延迟管理：实时响应要求整个多模态管道以低延迟运行，随着复杂性的增加，这变得具有挑战性
个性和记忆：对于虚拟形象来说，一致的个性特征至关重要，尤其是在长时间的互动中。适当处理记忆和个性对于在某些用例中保持连贯的响应是必不可少的

当前的应用案例及未来

首先，以下是我们看到的一些当前应用案例的示例：

医疗保健：想象一个富有同情心的虚拟健康教练作为化身，提供指导，实时响应，并根据用户的情绪调整语气和表情
客户支持：客户支持化身可以解读语音提示、肢体语言，甚至通过屏幕共享或实时视频查看用户的技术问题。它还可以提供听起来体贴和个性化的回应，减少用户的挫败感
教育工具：具有实时互动能力的导师可以与学生互动，展现专注的手势，并调节表情以加强鼓励或纠正

随着研究的进展，这些应用将不断扩展，使数字人类能够在越来越复杂、高风险的环境中部署。人类级别的对话化身还将解锁同情性应用案例以及高信息流的人机交互界面。

如果解决如模态对齐、延迟和上下文一致性等挑战让你感兴趣——我们正在招聘！请查看我们的网站 https://tavus.io

参考文献

[0] Zhou, Hao, Minlie Huang, Tianyang Zhang, Xiaoyan Zhu, and Bing Liu. “Emotional chatting machine: Emotional conversation generation with internal and external memory.” In Proceedings of the AAAI conference on artificial intelligence, vol. 32, no. 1. 2018.

[1] Pereira, Patrícia, Helena Moniz, and Joao Paulo Carvalho. “Deep emotion recognition in textual conversations: A survey.” Artificial Intelligence Review 58, no. 1 (2025): 1–37.