Type something to search...
用于人类运动对话的多模态人工智能

用于人类运动对话的多模态人工智能

撰写者:Christian SafkaKeyu Chen

在本次探索中,我们将探讨多模态模型如何改变对话人工智能代理的游戏规则,以及如何利用感知、记忆、行为建模和实时渲染在各种环境中实现无缝交互。

本页的提纲:

  • 为什么选择多模态?
  • 深入人类运动管道
  • 训练中的挑战
  • 当前用例和未来

为什么多模态?

从高层次来看,我们需要实现类人对话的三个“层次”是输入感知、运动规划和虚拟形象渲染。截止到本篇写作时,大多数学术界的流程将这些层次分开,以文本作为中介:

多模态模型所解锁的是这些层次之间信息损失的减少:

深入探讨人类运动管道

生成类人动作和反应是一个困难的问题。它需要一个管道来处理来自多个来源的实时线索,进行解释、翻译并生成同步响应。所有阶段对于创建能够参与流畅、上下文相关对话的虚拟形象至关重要。

我们讨论了三个层次:

1. 输入感知 — 从视觉、听觉和基于文本的来源收集多模态线索。

2. 运动规划 — 根据这些输入确定适当的动作或反应。

3. 虚拟形象输出 — 以实时方式渲染这些计划的动作。

现在让我们分析每个层次在创建类人对话中的关键角色。

多模态输入的感知

有效的人类运动合成始于理解多模态线索,就像人类依赖视觉、听觉和语言进行沟通。在数字应用中,这一过程可以复制人类收集和响应信息的复杂方式:

  • 视觉输入:图像和视频流捕捉面部表情、视线方向和手势等元素
  • 听觉输入:音频信号提供重要信息,如语调、重音和节奏,使我们能够解读语言的情感背景
  • 文本输入:基于文本的提示或对话记录可以通过提供语义上下文来指导虚拟形象的动作——了解正在讨论的内容使虚拟形象能够适当地响应对话的细微差别

整合这些模态创造了对对话环境的整体理解,为系统如何解释和映射世界提供了基础。

使用LLMs进行运动规划

在多模态AI中,交互层——通常由大型语言模型(LLMs)驱动——充当虚拟形象的“大脑”。该层处理来自感知阶段合成的多模态线索,确定最具上下文相关性的响应,并将其翻译为计划的动作或语言响应。

同时使用语音和视觉特征作为输入使模型能够处理:

  • 上下文运动规划:模型可以捕捉对话线索,将其匹配到上下文适当的动作。例如,如果虚拟形象检测到用户语音中的热情,它可能会采取开放、引人入胜的姿态或面部表情
  • 顺序交互控制:模型可以学习解释线索序列,使其能够处理转接、积极倾听手势和停顿等细微差别,这些都是自然对话的重要组成部分

之前的研究如Zhou et al. [0]或Pereira et al. [1]会从这一层输出文本——情感标签如“快乐”,可以用于条件表达生成。这是非常有损的,表达永远不会与输出语音完全对齐。

运动规划中多模态性的美在于输入和输出。在输入方面,我们可以利用大型语言模型的世界知识,即使它被训练以对齐多模态标记。在输出方面,我们可以减少期望行为与最终渲染输出之间的信息损失。

总之,交互层使虚拟形象能够响应显性和隐性对话线索,弥合多模态感知与类人交互之间的差距。

虚拟形象生成

为了实现富有同理心的对话AI或人类级别的信息流,渲染的动作和反应需要超越静态的、预先规划的动作。目标是创建一个能够几乎瞬时地解释和调整微妙对话线索的系统。

在这个背景下,虚拟形象层充当输出渲染机制。它接收交互层规划的动作,并将其转化为流畅的实时行为。该层专注于低延迟响应生成,优先考虑期望动作与视觉/音频输出之间的快速和准确对齐。

主要目标可以描述为同步语音和动作——虚拟形象必须协调面部表情、肢体语言和唇部动作,利用听觉输出和行为信号,确保所有元素保持同步。

保持时间一致性和同步性至关重要,因为任何延迟或行为不匹配都可能迅速打破沉浸感。

培训中的挑战

一些行业和学术界的活跃研发领域包括:

  • 跨模态的标记对齐:在不失去上下文或语义意义的情况下对视觉线索和音频语调等模态进行对齐是复杂的,模型必须学习如何以统一的方式表示它们,以便提供一致的响应
  • 延迟管理:实时响应要求整个多模态管道以低延迟运行,随着复杂性的增加,这变得具有挑战性
  • 个性和记忆:对于虚拟形象来说,一致的个性特征至关重要,尤其是在长时间的互动中。适当处理记忆和个性对于在某些用例中保持连贯的响应是必不可少的

当前的应用案例及未来

首先,以下是我们看到的一些当前应用案例的示例:

  • 医疗保健:想象一个富有同情心的虚拟健康教练作为化身,提供指导,实时响应,并根据用户的情绪调整语气和表情
  • 客户支持:客户支持化身可以解读语音提示、肢体语言,甚至通过屏幕共享或实时视频查看用户的技术问题。它还可以提供听起来体贴和个性化的回应,减少用户的挫败感
  • 教育工具:具有实时互动能力的导师可以与学生互动,展现专注的手势,并调节表情以加强鼓励或纠正

随着研究的进展,这些应用将不断扩展,使数字人类能够在越来越复杂、高风险的环境中部署。人类级别的对话化身还将解锁同情性应用案例以及高信息流的人机交互界面。

如果解决如模态对齐、延迟和上下文一致性等挑战让你感兴趣——我们正在招聘!请查看我们的网站 https://tavus.io

参考文献

[0] Zhou, Hao, Minlie Huang, Tianyang Zhang, Xiaoyan Zhu, and Bing Liu. “Emotional chatting machine: Emotional conversation generation with internal and external memory.” In Proceedings of the AAAI conference on artificial intelligence, vol. 32, no. 1. 2018.

[1] Pereira, Patrícia, Helena Moniz, and Joao Paulo Carvalho. “Deep emotion recognition in textual conversations: A survey.” Artificial Intelligence Review 58, no. 1 (2025): 1–37.

Related Posts

使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
10 个强大的 Perplexity AI 提示,让您的营销任务自动化

10 个强大的 Perplexity AI 提示,让您的营销任务自动化

在当今快速变化的数字世界中,营销人员总是在寻找更智能的方法来简化他们的工作。想象一下,有一个个人助理可以为您创建受众档案,建议营销策略,甚至为您撰写广告文案。这听起来像是一个梦想? 多亏了像 Perplexity 这样的 AI 工具,这个梦想现在成为现实。通过正确的提示,您可以将 AI 转变为您的 个人营销助理。在本文中,我将分享 10 个强大的提示,帮助您自动

阅读更多
10+ 面向 UI/UX 设计师的顶级 ChatGPT 提示

10+ 面向 UI/UX 设计师的顶级 ChatGPT 提示

人工智能技术,如机器学习、自然语言处理和数据分析,正在重新定义传统设计方法。从自动化重复任务到实现个性化用户体验,人工智能使设计师能够更加专注于战略思维和创造力。随着这一趋势的不断增长,UI/UX 设计师越来越多地采用 AI 驱动的工具来促进他们的工作。利用人工智能不仅能提供基于数据的洞察,还为满足多样化用户需求的创新设计解决方案开辟了机会。 1. 用户角色开发 目的

阅读更多
在几分钟内完成数月工作的 100 种人工智能工具

在几分钟内完成数月工作的 100 种人工智能工具

人工智能(AI)的快速发展改变了企业的运作方式,使人们能够在短短几分钟内完成曾经需要几周或几个月的任务。从内容创作到网站设计,AI工具帮助专业人士节省时间,提高生产力,专注于创造力。以下是按功能分类的100个AI工具的全面列表,以及它们在现实世界中的使用实例。 1. 研究工具 研究可能耗时,但人工智能工具使查找、分析和组织数据变得更加容易。**ChatGPT, Cop

阅读更多
你从未知道的 17 个令人惊叹的 GitHub 仓库

你从未知道的 17 个令人惊叹的 GitHub 仓库

Github 隐藏的宝石!! 立即收藏的代码库 学习编程相对简单,但掌握编写更好代码的艺术要困难得多。GitHub 是开发者的宝藏,那里“金子”是其他人分享的精心编写的代码。通过探索 GitHub,您可以发现如何编写更清晰的代码,理解高质量代码的样子,并学习成为更熟练开发者的基本步骤。 1. notwaldorf/emoji-translate *谁需

阅读更多