用户会爱上 OpenAI 的新 GPT-4o 模型。确实如此。
- Rifx.Online
- Generative AI , Chatbots , Natural Language Processing
- 01 Nov, 2024
公司的新 GPT-4o 能理解并模仿人类的语言和情感
在标志性的2013年电影 她 中,主角与一个语音启用的人工智能系统发展出一种强烈的关系——并演变成一场爱情故事。
她 中的人工智能是今天的语音启用系统所不具备的:富有情感、幽默,并且能够洞察人类对话的细微差别。
在今天早上的一次重大公告中,OpenAI 宣布发布一个新版本的 ChatGPT 系统,该系统将语音、转录和智能原生集成到一个模型中。
它强大、直观,并且令人不安地像人类。基本上,OpenAI 建造了一个现实版的 她。
一个糟糕的对话者
ChatGPT已经拥有语音功能几个月了。即使在今天,您可以在手机上打开ChatGPT应用程序,按下耳机图标,用您的声音与系统对话。
然而,问题在于,ChatGPT是一个糟糕的对话者。
实际上,ChatGPT的语音功能是通过将三个不同的模型拼接在一起而创建的黑客技术。
当您对系统讲话时,它首先会使用转录模型将您的声音转化为文本。然后,它会将该文本输入到其智能模型中——基本上,与GPT-4\的基础系统相同。
智能系统会生成文本,ChatGPT会将其反馈到一个文本转语音系统中,以创建一个计算机化的声音来回应您。
这使得系统名义上是可以对话的,但实际上与它交谈却显得笨拙和尴尬。
在不同模型之间传递内容的额外步骤意味着系统反应迟缓。在我自己的测试中,我发现从与系统对话到得到回应,通常需要3到5秒的时间。
人类对话依赖于在毫秒之间展开的微妙之处。一个响应语音需要长达五秒的系统感觉笨拙和机械。
之前的系统还缺乏人类语言的许多基本方面。
例如,您无法打断它;您必须等它说完才能回应。
与它交谈常常感觉像是在与那些无法打断的人交谈,他们在没有意识到房间里其他人的情况下,喋喋不休地谈论一个随机话题。您常常觉得需要提到奥斯卡的乐团,以绝望的尝试让系统停止说话。
它还受到无法解读声音中的情感或在自身回应中准确模仿人类情感的限制。
人类在阅读潜台词方面非常出色,部分原因是我们可以捕捉到说话者声音中的微妙情感线索。
如果我问我的朋友:“你今天过得怎么样?”而他们回答:“还不错”,但在“过得”和“不错”之间插入了一个微妙的停顿(或者最后一个词中带有一丝恼怒),我就知道他们实际上度过了一个艰难的日子,我应该问一些后续问题。
ChatGPT做不到这些,这使得与它交谈感觉像是在与某种外星智能沟通,而不是与人类交流。
总之,之前的系统明显落入了“恐怖谷”。它在对话方面足够出色,声音也足够令人信服,以至于对话的某些部分可能感觉像人类。
但奇怪的停顿、缺乏情感理解和延迟最终打破了这种幻觉,使其显得更令人不安而不是有用。
我尝试与我六岁的儿子使用之前的系统。他对它感到如此不安,以至于不让我再打开音频。
OpenAI的革命性新模型
今天,OpenAI正在改变这一切。在他们今天早上的公告中,公司透露他们将发布一个新模型,GPT-4o。
GPT-4o原生集成了语音识别、语音生成和智能于一个系统中。
这意味着将三种不同模型集成以模拟对话的复杂代码系统已经不复存在。相反,新的ChatGPT版本将能够接收语音,瞬间处理,并以其自身生成的逼真语音作出回应。
对于用户来说,这将启用OpenAI首席执行官Sam Altman所描述的几种新功能,称其为“像魔法一样”。描述为“像魔法。”
首先,你将能够与ChatGPT进行更加自然的对话。你不再需要将问题和后续问题输入到界面中,而是可以像与朋友交谈一样与应用程序交谈。
在几次现场演示中,OpenAI的工程师展示了系统如何在毫秒内倾听用户并作出智能回应。
再次强调,这种速度之所以可能,是因为新模型不需要浪费时间在不同模式之间切换——它可以在单一步骤中处理语音并以自己的声音回应,而不必依赖多个低级模型。
GPT-4o还可以解读和创造情感。
在一次演示中,一名OpenAI员工要求系统引导他进行呼吸练习。
他随后假装过度换气,而ChatGPT——感知到他呼吸的速度和声音中显现的恐慌——劝他放慢速度,做更深的呼吸。
该系统似乎还能够调节自身回应中的情感。在另一场演示中,这名员工要求GPT-4o用越来越戏剧化的声音讲一个睡前故事。
它照办了,最终听起来像一个中学戏剧社的孩子在可怕地过度表演一个场景!
由于新系统还集成了GPT-4的视觉能力,它可以执行诸如解读人脸表情中的情感等功能。
这种增强的情感智能水平可能会使系统成为一个更好的对话者。
其他新功能也将有所帮助。用户可以在GPT-4o说话的过程中打断它。
在他们的演示中,OpenAI的工作人员经常在模型开始偏离主题时打断它,就像在现实生活中打断朋友以开始回应问题一样。
巨大的潜力
今天早上的演示轻松幽默。但人们很快就能意识到,一个能够轻松理解、快速处理并真实创造情感人类语言的模型将是多么强大。
在演示过程中,ChatGPT几次以让我想起电影《她》中虚构的人工智能的方式回应。
ChatGPT似乎对自己感到好笑,当OpenAI的工作人员称赞它时,它会感到尴尬,甚至可能会不时地抛出一些调情的台词。
几次(据称)即兴的互动也揭示了更好的对话可以解锁的一些更深层次的能力。
根据观众的问题,OpenAI的工作人员演示了系统如何能够听懂意大利语,并快速准确地将其翻译成英语,反之亦然。
人们很容易想象,这样的能力将使多语言互动变得极其简单,基本上消除了语言障碍(也许还包括人类翻译)。
例如,一位医生可以调出ChatGPT,快速与任何语言的患者交流。在旅行时,你可以在手机上调出这个应用,把它当作一个免费的即时翻译,向某人询问方向或在商店里进行购买。
如果再加上视觉能力,你甚至可以向ChatGPT展示一家外国餐厅的菜单,询问某些菜品的翻译,告诉它你在家时喜欢吃什么,并请它推荐一些你可能想点的菜(或避免的菜)。
我也可以看到新系统如何迅速进入《她》的领域。OpenAI仍然不允许电影中发生的那种不适合工作场合的互动。
但是GPT-4o理解和模仿情感的能力——加上其强大且常常令人惊讶的能力,能够生成自己令人信服的人类情感表达——令人印象深刻。
听完演示后,我确信人们会像电影中的主角一样爱上这个系统。它真的很出色。
它会被使用吗?
所有这些在纸面上都很惊人。然而,目前还不清楚有多少用户真正想要一个完全情感化的 AI 语音伴侣。
我工作的大多数人使用 ChatGPT 不是作为对话伴侣,而是出于实用目的。
我看到同事们利用这个系统来处理一些无聊和单调的任务,比如为网络研讨会撰写着陆页文案、快速回复房东的电子邮件,或撰写博客文章的初稿。
这些实用功能实际上并不需要对话。目前尚不清楚能够用语音向 AI 发出这些请求是否会有用。
因此,真正的考验并不一定是 OpenAI 的新系统有多强大,而是 他们在用户已经通过语音与计算机互动的地方整合它的效果如何。
现实来看,我无法想象有多少用户会在工作时坐下来与 AI 对话。
但如果 OpenAI 将 GPT-4o 集成到手机、汽车或像 Amazon Echo 这样的智能设备的语音界面中,我可以很容易地想象这个系统的情感能力变得更加有用。
即使人们不太想与 ChatGPT 交谈,原生多模态音频和视觉模型的新能力对于在 OpenAI 现有 API 上构建应用程序的开发者来说,将是无比强大的。
在他们的公告中,OpenAI 表示 GPT-4o 将通过他们现有的开发者接口提供。该系统的价格也将比之前的 GPT-4 模型便宜 50%。
仅这些变化就非常重大。无论语音元素是否真正流行,驱动它的智能也将使数百个现有的 GPT-4 驱动应用程序变得更聪明、更快、更好,并且运营成本更低。
换句话说,新系统的对话元素可能会被认为是一个很酷的噱头。但其潜在影响将更微妙、更广泛。
我很期待看到真实用户如何与 GPT-4o 互动。他们会感到不安吗?惊讶吗?心动吗?
但我更期待的是启动我的 Python IDE,将 GPT-4o 添加到我已经使用 OpenAI 工具构建的应用程序中。
与机器对话很酷。但一个能够理解人类情感的原生多模态 AI 模型,我只需几行 Python 代码就能调用,而且成本低廉?这真的可能改变世界。
在过去的一年里,我测试了数千个 ChatGPT 提示。作为全职创作者,有一些我每天都会使用,符合我在本文中提到的伦理用途。我将它们汇编成一本免费的指南,7 个对创作者极其有用的 ChatGPT 提示。 今天就获取一份吧!