语音转语音生成AI:理论与实践的惊人飞跃!
- Rifx.Online
- Generative AI , Voice Assistants , Ethics
- 11 Jan, 2025
探索语音到语音生成型人工智能的世界。了解构建应用程序的关键组成部分和实际考虑因素
介绍
生成性人工智能是当今最具变革性、快速发展的广泛应用技术之一。其影响力的一个关键原因在于它能够使人类使用自然语言与计算机进行沟通,从而使交互变得简单而直观。这种能力促进了它在日常生活和多个行业中的应用,涵盖了教育、医疗到娱乐等多个领域。
我们的交互方式最初是通过文本,依赖于大型语言模型(LLMs)。现在,为了进一步弥合人类与机器之间的沟通鸿沟,自然的演变正在从书写转向口语。这推动了对多模态生成性人工智能的研究不断增加,它指的是能够处理和生成多种数据形式(模态),如文本、语音和图像的系统。
在这篇文章中,我们重点关注语音到语音模型,这些是旨在处理口语输入并实时以自然、人类般的语音作出响应的生成性人工智能模型,开启了技术创新和应用的新可能性。
以下是我们将探讨的内容:
- 底层机制: 语音到语音生成性人工智能模型的关键组件。
- 现实世界应用: 语音到语音生成性人工智能模型的用例、能力和最佳实践。
- 成功衡量: 这些系统的基本评估指标。
概述
鉴于大量文本数据集上训练的LLM的广泛可用性,以及收集和标注大量语音数据所面临的挑战,构建语音到语音生成AI系统的自然方法是利用这些LLM并将其适应于口语交互。总体而言,这种LLM的语音适应主要有两种方法:使用级联独立模块的管道,或采用直接处理语音模态的端到端语音大型语言模型。在本文中,我们将这两种方法称为级联和端到端语音到语音系统。图1展示了这两种方法。
📜 注意: 本文讨论的重点是仅解码器(自回归)变换器架构,因为它们代表了当前大多数LLM和语音到语音模型的特点。
1- 级联语音到语音系统
级联系统作为一个管道运行,处理由独立模块完成。主要组件包括 自动语音识别 (ASR) 将口语输入转录为文本,一个 LLM 处理并生成文本响应,以及 文本到语音 (TTS) 将生成的文本转换回语音。AudioGPT 是一个级联语音到语音系统的例子。
尽管具有模块化,级联系统对独立模块的依赖可能引入延迟,使实时对话变得具有挑战性。此外,依赖中间文本表示有时可能会失去原始语音中的细微差别,例如情感或语调。
2- 端到端语音到语音模型
相比之下,端到端语音到语音模型能够通过直接从语音输入中提取信息并生成语音表示来处理语音模态,而不依赖于中间的文本表示。端到端系统提供了一种更为集成的方法,通常导致更低的延迟和更自然的对话流。
值得注意的是,还有一些混合方法,其中某些级联系统通过直接处理输入语音来跳过ASR模块,但仍然需要TTS模块,例如 Qwen2-Audio 或 VITA。级联系统和端到端系统之间的选择取决于实际应用的具体需求和限制。
由于当前研究主要集中在端到端模型上,我们将在本帖中强调它们。在下一节中,我们将讨论端到端语音到语音模型的关键组件。
2.1- 端到端语音到语音模型的关键组件
在端到端语音到语音模型中,主要有三个组件,即语音编码器、LLM(仅解码器的变换器)和声码器,如图1所示。
具体而言,语音编码器将原始音频波形处理为一组音频嵌入。在多模态系统中,通常需要与音频结合的额外模态,主要是文本。在这种系统中,一个关键概念是文本和语音模态的对齐,以确保连贯的整合。虽然我们在此文中不会深入探讨对齐技术,但我们在插图中包含了文本和音频模态,以提供一个真实的语音到语音模型示例。
对齐文本和音频模态的一种可能方法是将音频嵌入与文本嵌入连接,通过扩展模型的嵌入矩阵以包含一组新的音频标记嵌入。然后,将混合的文本和音频嵌入作为输入提供给语言模型,该模型以自回归的方式执行下一个标记预测,根据需要生成文本或音频标记。例如,在AudioPaLM中使用了这种方法。
最后,声码器将语言模型生成的音频标记转换回高质量的音频波形,从而实现自然且无缝的语音合成。
2.1.1- 音频编码器
音频编码器是端到端语音到语音模型中的关键组件,根据语音的表示方式,采用几种类型的编码器。这些编码器可以设计为两种类型的表示:离散表示和连续表示,如图2所示。
离散表示
在离散表示的情况下,音频编码器也称为音频标记器。它通过首先将连续音频信号(波形)编码为潜在表示,然后将这些潜在表示转换为离散标记,从而处理连续音频信号。这些标记以压缩、量化的形式表示音频,可以直接输入到LLM中进行进一步处理。像AudioPaLM和Moshi这样的模型采用了这种方法。
当前模型主要使用三种主要的音频标记化方法:
- 声学标记,侧重于捕捉声音模式和低级声学细节。这些通常由音频编码器生成,如SoundStream,这是一种为音频压缩和合成设计的神经音频编码器。
- 语义标记,强调语音的意义和语言内容。这些由如HuBERT(隐单位BERT)这样的模型提取,该模型从语音中学习高层次的语义表示,用于语音理解等任务。
- 混合标记结合了声学和语义标记的元素,提供了一种平衡的表示,捕捉声学、语义和副语言特征。像AudioLM这样的模型同时利用声学和语义标记,以确保有意义且高质量的语音合成和翻译。
为了进一步理解音频标记化方法之间的区别,表1总结了声学、语义和混合标记的特征、目标和应用,以便于更清晰的区分。
连续表示
在连续表示的情况下,音频编码器提取的语音特征是未量化的、实值的语音信号表示,存在于连续尺度上。这些特征捕捉了语音的细粒度、细微方面,这些方面在离散化过程中可能会丢失。为了使这些特征与LLM兼容,需要一个特征投影层,即音频投影器,将提取的音频特征映射到连续输入嵌入向量中,然后将其传递给LLM进行进一步处理。使用这种方法的模型示例是SALMONN。
2.1.2- 声码器
端到端语音到语音模型中的另一个关键元素是声码器,也称为标记到语音合成器。声码器的主要作用是将LLM生成的离散或连续音频标记转换回高质量、自然的音频波形。用于此目的的典型声码器是HiFi-GAN,以其能够从标记序列生成高保真波形而闻名。声码器的选择对合成音频的质量和表现力有显著影响,因此它是语音合成管道中不可或缺的一部分。
能力和实际考虑
现在我们了解了语音到语音生成AI模型的基本知识,接下来让我们讨论在使用这些模型构建应用程序时应考虑的理想能力和关键因素。
📜**注意:**虽然本节主要关注与语音相关的能力,但重要的是要记住,LLMs所需的其他通用能力——如事实性、推理和记忆——对于创建有效和可靠的语音到系统同样至关重要。
1. 低延迟
延迟是语音对语音系统中最关键的因素之一,直接影响用户体验。实现低延迟确保交互感觉自然流畅,保持良好的感知响应性。虽然有许多延迟指标,但对于语音系统来说,最重要的包括:
- 首次令牌时间 (TTFT): 测量系统在接收到输入后开始生成输出的速度。较低的 TTFT 确保更快的响应,这对于维持对话流畅性至关重要。
- 中断时间: 指系统在进行语音时能够多快处理和回应用户中断。这对于自然的轮流发言至关重要。
- 平均延迟: 表示从输入到输出的总处理时间。持续较低的平均延迟增强整体体验,尤其是在实时应用中。
2. 高质量语音输出
除了低延迟,高质量语音确保用户参与、清晰度和满意度。从质量的角度来看,理想的能力包括:
2.1. 自然性和语言智能
一个高质量的语音对语音系统应该具备自然性和语言智能能力,如情感识别、多语言支持、口音识别或讽刺检测。这些能力可以通过先进的语音编码器和声码器实现,它们捕捉细微的语音特征,如语调、节奏和韵律,以及喜悦、悲伤或兴奋等情感。
2.2. 使用提示工程的语音适应性
语音的上下文提示是一项重要能力,能够通过自然语言提示轻松适应语音输出特征——如语气、情感和风格——而无需依赖于SSML标签。例如,提示可以调整语音以在心理健康应用中传达同理心,在促销场景中传达兴奋,或在企业互动中传达专业性。以下是调整“新年快乐”信息的语音输出的提示示例:
tone = "cheerful"
emotion = "joyful"
prompt = f"Generate a Happy New Year message with a {tone} tone and a {emotion} emotion. Include phrases like 'Happy New Year!' and 'Wishing you a fantastic year ahead!' Conclude with an uplifting and encouraging note."
2.3. 说话者灵活性
说话者灵活性是高质量语音输出的另一个重要组成部分。通过提供多种说话者——在性别、口音或年龄上有所不同——应用程序可以满足不同用户的偏好和上下文。这种灵活性在客户服务等领域尤为重要,在这些领域,某些语音特征可以提高用户的舒适度,或在多语言系统中,口音有助于理解。提供多种说话者选项的语音对语音系统确保了适应性和对不同受众的包容性。
3- 插入与全双工交互
插入指的是用户能够用自己的语音输入打断系统的语音输出。这种能力对于实现全双工通信至关重要,在这种通信中,用户和系统可以同时听和说,紧密模拟自然的人类对话动态。与通常以半双工方式操作的基于文本的模型不同,全双工交互在基于语音的系统中尤其重要,以实现无缝的实时交互。
最近在基于语音的模型中的进展旨在通过如语音活动检测 (VAD)、并行流处理或交错令牌建模等技术来纳入全双工能力。
4- 流媒体
流媒体意味着系统不应等待较长的音频片段被处理完毕后再生成响应。相反,模型通常采用基于块的机制,动态地实时处理和生成音频,一次一个块。
流媒体功能与低延迟的需求密切相关,两者对于无缝的实时交互和整体系统响应能力都是至关重要的。
5- 代理能力
代理能力使语音对语音模型能够自主执行任务、做出决策,并根据用户输入与外部工具或环境进行交互。尽管这些功能对大型语言模型(LLMs)普遍有价值,但对于语音对语音模型而言尤其重要,使其能够访问外部知识,并在超越简单对话的高级应用中得到利用。代理能力的示例包括通过函数调用或执行代码访问外部工具、API或数据库。
6- 多模态能力
多模态能力使得语音到语音系统能够处理和整合来自多种模态的输入,例如文本、图像和视频,以及语音。这增强了上下文理解,拓宽了在教育和医疗等领域的应用案例,并提高了残障用户的可访问性。例如,系统可能同时分析一张照片和口头描述,以提供精确的解决方案。尽管面临数据对齐和计算需求等挑战,这些能力正在推动更直观系统的发展,使得交互更加丰富和人性化。
评估
随着系统复杂性的增加,评估语音对语音系统是一项具有挑战性的任务,因为它必须考虑语言、情感细微差别、实时性能和互动因素。有效的评估需要结合多种方法,以捕捉技术精度和用户体验。与系统开发相比,评估语音对语音系统仍然是一个不太先进的研究领域,正在进行的努力旨在建立全面且可靠的方法论。现有的评估方法通常分为基于人工的评估和自动化方法,包括基准和指标。
📜注意: 本节旨在提供示例,并不是详尽无遗的列表。与能力部分类似,我们专注于特定于语音的指标。本文未涵盖用于LLMs的常见指标,包括LLMs作为评判者的情况。
1- 人类评估
人类评估对于评估自然性、表现力和整体用户体验等主观质量至关重要。 平均意见得分 (MOS) 是一种使用的指标示例,评估者根据感知质量在预定义的尺度上对音频样本进行评分,重点关注可懂性、情感表现力和流畅性。然而,尽管在捕捉以人为中心的见解方面有效,MOS 却资源密集,并受到评估者偏见的影响。
2- 自动评估
自动评估提供客观的衡量标准,以补充人工评估。它可以分为两个主要组成部分:
2.1. 基准
基准如 VoiceBench、SUPERB (语音处理通用性能基准)、AudioBench 或 AIR-Bench 通过提供预定义的数据集和任务来标准化语音到语音系统的评估。这些基准使得模型之间的公平比较成为可能,并确保在语音识别、翻译和合成等领域评估性能的一致性。
2.2. 指标
指标量化系统性能的特定方面。对于语义准确性,可以使用 SpeechBERTScore、SpeechBLEU 或 SpeechTokenDistance 等指标。
声学质量指标 包括梅尔倒谱失真 (MCD),用于评估生成语音与参考语音之间的谱特征差异,或对数 F0 均方根误差 (RMSE),通过比较基频 (F0) 模式来测量韵律的准确性。实时性能通过延迟指标进行评估,而交互指标如轮流发言准确性则评估动态对话场景中的响应能力和连贯性。图 3 提供了评估指标的示例。
用例和最佳实践
语音到语音的生成 AI 模型在各个领域具有变革性的应用。用例的例子包括对话助手和代理,例如虚拟客户服务代表或个人助手。它们在语言学习和测试中也很有价值,使用户能够在不同语言中练习发音和理解。与其他系统(如多模态框架或基于文本的 LLM)有效集成,扩展了在不同领域的功能:教育,通过启用互动语言辅导或沉浸式学习环境;医疗,通过支持语音启用的患者协助和远程医疗服务;娱乐,通过增强游戏体验和虚拟现实互动;以及体育,通过通过语音接口提供实时评论或个性化教练。
开发语音到语音的应用程序是一项复杂的任务,需要仔细的规划和执行。以下是一些实用建议来指导您:
1- 不仅仅是模型,要考虑整个技术栈 — 从用户界面、数据存储、API 到基础设施,每一层都会影响性能。采用长期愿景,选择一个能够灵活地与现有和新技术集成、根据需求进行扩展并适应不断变化的要求和未来发展的技术栈。
2- 彻底测试、评估和监控您的系统 — 在多个方面验证您语音系统的每个组件:口音、语言、清晰度、自然性、幻觉和在嘈杂条件下的行为的准确性。构建可扩展的测试协议以测量延迟和处理中断的能力,针对现实场景进行性能测试。进行压力和边缘案例的可扩展性测试。包括用户反馈和可访问性检查。定期更新测试以涵盖新功能,并持续监控。
3- 负责任的 AI 对语音系统尤为重要 — 这不仅仅是延迟或语音质量的问题;这关乎安全和信任。实施强有力的保护措施,以防止有害或偏见的输出,确保用户隐私,并遵守法规。语音系统是可访问的,并直接与用户互动——这使得伦理考量变得不可妥协。
4- 权衡是关键:为您的用例进行优化 — 注意到生成 AI 语音模型的多样化能力了吗?您不需要它们都完美。考虑权衡,以优先考虑对您的应用程序最重要的内容。例如,您可能会接受更慢的延迟以换取更高的准确性,或者在某些用例中牺牲灵活性以获得更好的实时性能。
5- 您需要正确的心态和专业知识 — 语音到语音系统位于多个学科的交叉点,包括多模态 AI、软件工程和用户体验设计。促进合作至关重要,因为跨学科的问题解决对创造有效的用户体验和有效采用技术至关重要。生成 AI 也是一个快速发展的领域,需要具有成长和学习的心态,以跟上进步。投资于合适的人才,组建在跨职能专业知识方面表现出色、拥抱多元视角并有效沟通的团队。
结论
语音到语音生成 AI 的兴起无疑为我们开启了一系列新的可能性,并可以在无数方面帮助我们。然而,只有在负责任地构建这些技术、教育用户关于伦理使用的知识,并提高对更广泛的伦理影响和社会影响的认识时,这种潜力才能得到充分实现。这个领域正在不断发展,我们在这里讨论的内容并不是详尽无遗的——这只是一个起点。了解最新的创新并与研究社区互动对于发展全面的理解至关重要。
如何使用 Google Cloud 构建语音对语音应用程序?
- 探索多模态实时 API 了解由 Gemini 提供支持的 多模态实时 API,该 API 实现了低延迟的双向语音和视频交互。此 API 旨在实现无缝的实时通信,非常适合虚拟助手、互动教育和沉浸式娱乐等应用程序。
- 查看 Gemini 2.0 的高级原生音频功能 观看下面的视频,看看 Gemini 2.0 的实际应用。