Type something to search...
Google Gemini:大上下文窗口是杀手级功能吗?

Google Gemini:大上下文窗口是杀手级功能吗?

谷歌即将推出的 LLM 迈出了重大一步

就在八个月前,一封泄露的谷歌电子邮件透露该公司在努力超越其 AI 竞争对手方面遇到了困难。他们的 AI 产品周围不仅没有护城河——换句话说,没有建立起商业优势——谷歌也没有秘密武器可以改变局面。即使在他们努力解决这个问题时,他们也看到私募资助的 AI 项目与开源 AI 模型之间的差距以“惊人的”速度缩小。

现在还为时已晚,无法知道这个故事的结局。也许开源 AI 将继续在早期成功的基础上发展,或者它将被谷歌、微软和苹果等极其富有的竞争对手及其令人难以置信的数据量所压制。现在,这场冲突仍在展开,各个组织快速推出一系列 AI 进展。最近,谷歌在这个领域中成为焦点,宣布了其最新 LLM 的预览版——Gemini 1.5 Pro。又是一天,又一个大型语言模型——或者说似乎如此,直到谷歌描述了一个惊人的变化。

Gemini 1.5 Pro 扩展了 上下文窗口——本质上是衡量 LLM 一次可以跟踪多少数据的指标。在过去的版本中,Gemini 的上下文窗口最大为 128,000 个标记,就像 GPT-4 一样。但 Gemini 的新上下文窗口可以容纳 100 万 个标记,这一变化的影响是巨大的。

但在我们讨论上下文窗口对 LLM 能力的影响之前,我们需要回顾一下上下文窗口的工作原理。

上下文窗口(简而言之)

简单来说,上下文窗口设置了 LLM 在交互过程中能够记住多少信息。例如,如果您正在使用 ChatGPT,上下文窗口包括您给它的当前提示、您之前在该对话中输入的所有内容,以及 ChatGPT 向您发送的每个回复。对话时间长了,旧的对话部分将会从上下文窗口中滑出,ChatGPT 将突然忘记那些细节。

128,000 个令牌的上下文窗口听起来很大,但这个数字具有误导性。首先,考虑到一个平均单词在为 LLM 分解时实际上是 1 到 3 个令牌。(经验法则是 4 个令牌对应 3 个单词,但随着语言变得更加复杂或在专业领域(如法律或医学)中,这个数字会增加。)当您查看长文档、进行持续交互和 AI 驱动的应用程序时,您会很快发现您无法将所有希望 LLM 知道的内容都放入其上下文窗口中。

因此,我们开发了一些巧妙的方法来解决上下文窗口的限制。例如:

  • 分块。 您可以将大量数据分解,让 LLM 一次查看一部分。这对于某些任务(总结长文档)效果很好,但如果您需要分析跨整个文档的概念,则效果不佳。
  • 微调。 您可以用特定的数据训练 LLM。除了时间和费用之外,关键问题是您的新数据很容易被 LLM 已经吸收的更大规模的通用训练数据所淹没。通常,它就是无法保留。此外,许多 LLM 根本不支持微调——包括 GPT-4 和 Gemini。
  • 检索增强生成 (RAG)。 首先,您将文本内容转换为一种特殊表示,称为 嵌入。(嵌入是 LLM 工作的重要部分。基本上,它们是捕捉内容含义的数值表示。)一旦您有了嵌入,您就将它们放入向量数据库中。现在,您可以使用 语义搜索 的魔力查看提示,并在数据库中找到与之概念相关的内容片段,然后将其输入 LLM。换句话说,您只给它提供重要的内容。

最后一点是今天最常见的方法。RAG 高效且可预测。如果您拥有大量松散相关的文档,它效果非常好。例如,想象一下您正在创建一个技术支持聊天机器人,它从您公司的知识库文章中获取信息。使用 RAG,您找到相关数据,并将其与您的提示一起提供给 LLM。基本上,您是在告诉 LLM 在回答提示时该去哪里查找。

但 RAG 并不完美。它迫使您花费更多时间准备数据。它不容易让您跳入一个全新的数据集。如果您确实需要一次考虑大量信息——例如,您在寻找小说中的整体主题或代码库中的特征——那么它就不够有效。但尽管有其局限性,RAG 今天仍然接近最佳实践。

至少,在 Gemini 1.5 Pro 翻转剧本之前是这样的。

惊艳时刻

尽管 Gemini 1.5 Pro 尚未发布,但它已经在一个严格限制的试用中可用。结果令人瞩目。

一些最令人印象深刻的例子展示了 Gemini 创建的分析,涵盖了大量知识。谷歌的演示一如既往地令人印象深刻,但他们过去曾被指控进行演示操控和选择性展示。我更感兴趣的是独立测试者,他们报告的结果同样引人注目。

例如,Conor Grennan 向 Gemini 提供了一部 300 页的小说,并要求它描述主要角色、找出情节转折,并识别角色感受特定情绪的例子。Gemini 在整部书的范围内发展细致的论点毫无困难。YouTube 上流行的 Fireship 频道 的创作者 Jeff Delaney 向 Gemini 提供了一个包含数千个文件的完整代码库,并要求它添加新功能。Gemini 不仅写出了正确的代码,还遵循了现有项目的风格,使用了已经建立的组件、库和约定。其他演示展示了 Gemini 识别应用程序中的问题、提取关键示例并编写 API 文档。

如果你想要其他内容来填充 Gemini 巨大的上下文窗口,还有另一个新功能——视频。视频的标记方式与文字不同,占用的空间要大得多。但即便如此,1 百万标记的上下文窗口可以容纳大约一个小时的视频——足够浏览一部电影并回答有关其内容的复杂问题。这就是谷歌所做的,当它要求 Gemini 查找具体细节 在一部巴斯特·基顿的电影中,比如在他们未识别的一个场景中,纸片上写的字。

未来的LLM

大上下文窗口是未来的方向吗?到目前为止,普遍的看法是,大上下文窗口充其量只是一个部分解决方案。我们担心它们在计算时间上会过于昂贵。一项研究发现,LLM在长上下文窗口中找到信息的能力并不好,反而在细节出现在开头或结尾时表现更佳。所有这些因素支持了同样的结论:将你的内容强行塞入上下文窗口是天真的且成本高昂的。将所有数据一次性发送请求绝不是与LLM对话的正确方式。

现在,未来似乎突然发生了变化。大上下文窗口即将来临,它们可能使LLM对广泛知识集有更强大、整体的理解。去年用文本无法完成的任务现在即将在视频中变得可能。而谷歌研究正在尝试一种扩展上下文窗口到惊人的1000万标记的Gemini变体。

两个事实是明确的。首先,在LLM战争中选择赢家是一场愚蠢的游戏。其次,变化的速度没有放缓——反而在加速。

Related Posts

使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
10 个强大的 Perplexity AI 提示,让您的营销任务自动化

10 个强大的 Perplexity AI 提示,让您的营销任务自动化

在当今快速变化的数字世界中,营销人员总是在寻找更智能的方法来简化他们的工作。想象一下,有一个个人助理可以为您创建受众档案,建议营销策略,甚至为您撰写广告文案。这听起来像是一个梦想? 多亏了像 Perplexity 这样的 AI 工具,这个梦想现在成为现实。通过正确的提示,您可以将 AI 转变为您的 个人营销助理。在本文中,我将分享 10 个强大的提示,帮助您自动

阅读更多
10+ 面向 UI/UX 设计师的顶级 ChatGPT 提示

10+ 面向 UI/UX 设计师的顶级 ChatGPT 提示

人工智能技术,如机器学习、自然语言处理和数据分析,正在重新定义传统设计方法。从自动化重复任务到实现个性化用户体验,人工智能使设计师能够更加专注于战略思维和创造力。随着这一趋势的不断增长,UI/UX 设计师越来越多地采用 AI 驱动的工具来促进他们的工作。利用人工智能不仅能提供基于数据的洞察,还为满足多样化用户需求的创新设计解决方案开辟了机会。 1. 用户角色开发 目的

阅读更多
在几分钟内完成数月工作的 100 种人工智能工具

在几分钟内完成数月工作的 100 种人工智能工具

人工智能(AI)的快速发展改变了企业的运作方式,使人们能够在短短几分钟内完成曾经需要几周或几个月的任务。从内容创作到网站设计,AI工具帮助专业人士节省时间,提高生产力,专注于创造力。以下是按功能分类的100个AI工具的全面列表,以及它们在现实世界中的使用实例。 1. 研究工具 研究可能耗时,但人工智能工具使查找、分析和组织数据变得更加容易。**ChatGPT, Cop

阅读更多
你从未知道的 17 个令人惊叹的 GitHub 仓库

你从未知道的 17 个令人惊叹的 GitHub 仓库

Github 隐藏的宝石!! 立即收藏的代码库 学习编程相对简单,但掌握编写更好代码的艺术要困难得多。GitHub 是开发者的宝藏,那里“金子”是其他人分享的精心编写的代码。通过探索 GitHub,您可以发现如何编写更清晰的代码,理解高质量代码的样子,并学习成为更熟练开发者的基本步骤。 1. notwaldorf/emoji-translate *谁需

阅读更多