
解锁大语言模型的力量:全面理解和利用LLMs的指南
- Rifx.Online
- Large Language Models , AI Applications , AI Research
- 05 Mar, 2025
为什么你该关注 LLM
作者提供的图片。
过去几年里,你可能没少听到一个缩写:LLM,即大型语言模型(Large Language Model)。
在本文中,我们将简要介绍 LLM 是什么、它们为什么是一项极其令人兴奋的技术、它们为什么与你我息息相关,以及你为什么应该关注 LLM。
注意:在本文中,我们将交替使用大型语言模型(Large Language Model)、LLM 和模型。
什么是 LLM
大型语言模型 (通常称为 LLM,因为它有点拗口) 是一种生成文本的数学模型,例如填充句子中下一个单词的空白 [1]。
例如,当你输入句子 The quick brown fox jumps over the lazy ____ 时,它并不知道下一个单词确切是 dog。该模型产生的是一个可能的下一个单词列表,以及它们在以这些确切单词开头的句子中”接下来出现”的相应概率。
预测句子中下一个单词的示例。图片由作者提供。
LLM 如此擅长预测句子中的下一个单词的原因是,它们接受了大量文本的训练,这些文本通常是从互联网上抓取的。因此,如果一个模型碰巧摄取了这篇文章中的文本,嗨 👋
另一方面,如果你正在构建一个特定于某个领域的 LLM,例如,你正在构建一个聊天机器人,它可以像 莎士比亚 戏剧中的角色一样与你交谈,互联网肯定会有很多片段,甚至他的完整作品,但它也会有大量与手头任务无关的其他文本。在这种情况下,你只需要向 LLM 聊天机器人提供莎士比亚的上下文,即他所有的戏剧和十四行诗。
尽管 LLM 接受了大量数据的训练,但这并不是”大型语言模型”中”大型”的含义。除了训练数据的大小之外,这些模型中另一个大的数量是它们拥有的参数数量,每个参数都有可能被调整,即被微调。
最简单的统计模型是简单线性回归,只有两个参数,即斜率和截距。即使只有两个参数,模型输出也可以呈现出几种不同的形状。
线性回归的不同形状。图片由作者提供。
作为比较,当 GPT-3 于 2020 年发布时,它有 1750 亿个参数,是的,10 亿![3] 而 Meta 的开源 LLM LLaMa 在 2023 年发布时 拥有多个不同的模型,参数范围从 70 亿到 650 亿不等。
这些数十亿个参数在训练过程开始时都从随机值开始,在训练阶段的 反向传播 过程中,它们会不断地被调整和修改。
与任何其他机器学习模型类似,在训练阶段,模型的输出会与输出的实际期望值进行比较,以计算误差。当仍有改进空间时,反向传播确保模型参数得到调整,以便模型下次预测值的误差略小。
但这仅仅是所谓的预训练,即模型变得擅长预测句子中的下一个单词。
为了使模型能够与人类进行真正良好的交互,以至于你——人类——可以向聊天机器人提问,并且它的回答在结构上看起来准确,底层的 LLM 必须经历使用人类反馈的强化学习这一步。这实际上是机器学习模型背景下经常被谈到的 人机协同。
在这个阶段,人类会标记那些不太好的预测,通过接受这种反馈,模型参数会得到更新,并且模型会根据需要重新训练,以达到所需的预测质量水平。
现在很明显,这些模型非常复杂,需要能够执行数百万甚至数十亿次计算。这种高强度计算需要新颖的架构,在模型级别使用 Transformer,并在计算方面使用 GPU。
GPU 是这种图形处理器的类别,用于需要在短时间内执行大量计算的场景,例如流畅地渲染视频游戏中的角色。与你的笔记本电脑或台式电脑中常见的传统 CPU 相比,GPU 能够毫不费力地运行许多并行计算。
LLM 的突破是研究人员意识到 GPU 也可以应用于非图形问题。机器学习和计算机图形学都依赖于线性代数,对矩阵进行运算,因此两者都受益于执行许多并行计算的能力。
Transformer 是 Google 开发的一种新型架构,它使得在模型训练期间完成的每个操作都可以并行化。例如,在预测句子中的下一个单词时,使用 Transformer 架构的模型不需要从头到尾读取句子,它会同时并行地处理整个文本。它将处理的每个单词与一个很长的数字数组相关联,这些数字赋予该单词含义。再次思考线性代数,与一次处理和转换一个数据点不同,Transformer 和 GPU 的组合可以通过利用矩阵同时处理大量点。
除了并行计算之外,Transformer 的独特之处在于一种称为注意力的独特操作。用一种非常简单的方式来说,注意力使人们可以查看单词周围的所有上下文,即使它在不同的句子中出现多次,例如
在演出结束时,这位歌手多次鞠躬。
杰克想去商店买一把新的弓箭进行射击练习。
如果我们关注单词bow,你可以看到这个单词在每个句子中出现的上下文及其实际含义是多么不同。
注意力允许模型根据它们周围的上下文来提炼每个单词编码的含义。
这一点,加上一些额外的步骤,比如训练一个前馈神经网络,所有这些都进行了多次,使得模型逐渐完善了编码正确信息的能力。所有这些步骤都旨在使模型更准确,并且在运行预测任务时,不要混淆bow(动作)和bow(与射箭相关的物体)的含义。
一个基本流程图,描绘了 LLM 的各个阶段
预训练到提示/使用
提示 LLM 生成响应可以在不同的训练阶段进行,例如预训练、指令调整或对齐调整。“RL”代表强化学习,“RM”代表奖励建模,而”RLHF”代表基于人类反馈的强化学习。 图片和说明摘自参考文献 [2] 的论文
与需要一次读取一个单词的早期语言模型相比,Transformer 和 GPU 的发展使得 LLM 的使用和应用呈爆炸式增长。 了解到模型从学习的优质数据越多,效果就越好,您就可以明白一次处理一个单词是一个巨大的瓶颈。
为什么 LLM 很重要
凭借上述能力,LLM 可以处理大量文本示例,然后以高准确度预测句子中的下一个单词,结合其他强大的人工智能框架,许多自然语言和信息检索任务变得更容易实现和产品化。
本质上,大型语言模型 (LLM) 已经成为前沿的人工智能系统,能够处理和生成具有连贯沟通的文本,并概括多种任务[2]。
想想诸如将英语翻译成西班牙语、总结一组文档、识别文档中的某些段落,或者让聊天机器人回答你关于特定主题的问题之类的任务。
这些任务以前是可能的,但构建模型所需的努力非常高,而且由于技术瓶颈,这些模型的改进速度慢得多。LLM 出现了,并为所有这些任务和应用程序提供了超能力。
你可能已经直接与核心使用 LLM 的产品进行过交互,或者看到过有人与这些产品进行交互。
这些产品不仅仅是一个可以准确预测句子中下一个单词的简单 LLM。它们利用 LLM 和其他机器学习技术和框架来理解你所问的问题,搜索它们迄今为止看到的所有上下文信息,并为你呈现类似人类的、并且大多数时候是连贯的答案。或者至少提供关于下一步要研究什么的指导。
有大量人工智能 (AI) 产品利用 LLM,从 Facebook 的 Meta AI、谷歌的 Gemini、Open AI 的 ChatGPT(其名称源于幕后的生成式预训练转换器技术)、微软的 CoPilot,等等,涵盖了广泛的任务来协助你。
例如,几周前,我想知道 Incubus 发行了多少张录音室专辑。六个月前,我可能会在 Google 上搜索或直接访问维基百科。现在,我倾向于问 Gemini。
我问 Gemini 的一个问题的例子 🤣 图片由作者提供。
这只是一个简单的例子。你可以向这些人工智能产品提供许多其他类型的问题或提示,例如要求总结特定文本或文档,或者如果你像我一样要去墨尔本旅行,询问关于在那里做什么的建议。
我问 Gemini 的一个问题的例子 🤣 图片由作者提供。
它直奔主题,为我提供了各种关于做什么的提示,然后我就开始行动了,能够更深入地研究那些对我来说似乎更有趣的地方。
你可以看到这为我节省了大量时间,否则我可能不得不花在 Yelp 和 TripAdvisor 评论、Youtube 视频或关于墨尔本标志性和推荐地点的博客文章之间。
结论
毫无疑问,LMM 是一个新兴的研究领域,并且一直在以闪电般的速度发展,你可以从下面的时间线中看到。
LLM 发布的编年史展示:蓝色卡片代表”预训练”模型,而橙色卡片对应于”指令调整”模型。上半部分的模型表示开源可用性,而底部的模型是闭源的。该图表说明了指令调整和开源模型的增长趋势,突出了自然语言处理研究中不断发展的格局和趋势。图片和标题摘自[2]中引用的论文
我们才刚刚开始产品化或产品应用。越来越多的公司正在将 LLM 应用于他们的领域,以简化那些需要数年时间、以及大量资金进行研究、开发和推向市场的任务。
当以合乎道德和消费者意识的方式应用时,LLM 和以 LLM 为核心的产品为每个人提供了巨大的机会。对于研究人员来说,这是一个前沿领域,其中有大量需要解决的理论和实践问题。
例如,在基因组学中,gLM 或基因组语言模型,即在 DNA 序列上训练的大型语言模型,用于加速我们对基因组的一般理解以及 DNA 如何工作并与其他功能相互作用[4]。这些都是科学家们没有明确答案的重大问题,但 LLM 正在被证明是一种工具,可以帮助他们在更大的规模上取得进展,并更快地迭代他们的发现。为了在科学上取得稳步进展,快速反馈循环至关重要。
对于公司来说,这是一个巨大的转变和机会,可以为客户做更多的事情,解决他们更多的问题和痛点,让客户更容易看到产品的价值。无论是为了有效性、易用性、成本还是所有上述因素。
对于消费者来说,我们可以体验产品和工具来帮助我们完成日常任务,帮助我们更好地完成工作,更快地获取知识或获得指向我们可以搜索和深入研究该信息的指针。
对我来说,最令人兴奋的部分是这些产品进化的速度和过时速度。我个人很好奇这些产品在未来 5 年内会是什么样子,以及它们如何变得更准确和可靠。
技术飞跃和科学突破过去需要数十年甚至数百年才能发生。因此,当我们在有生之年多次经历重大的技术变革时,感到担忧是合乎情理的。
在所有的炒作和一些来来去去的时尚中,大型语言模型背后的核心技术是令人着迷的,并且已被证明具有有趣和合理的应用。
希望你喜欢这篇关于 LLM 的简要概述,它们为什么重要,以及为什么继续关注这个研究领域和新的人工智能产品是值得的。
参考文献
[1] Large Language Models explained briefly (视频)
[2] A Comprehensive Overview of Large Language Models. 2024.Humza Naveed and Asad Ullah Khan and Shi Qiu and Muhammad Saqib and Saeed Anwar and Muhammad Usman and Naveed Akhtar and Nick Barnes and Ajmal Mian.
[3] Language Models are Few-Shot Learners. 2020. Tom B. Brown and Benjamin Mann and Nick Ryder and Melanie Subbiah and Jared Kaplan and Prafulla Dhariwal and Arvind Neelakantan and Pranav Shyam and Girish Sastry and Amanda Askell and Sandhini Agarwal and Ariel Herbert-Voss and Gretchen Krueger and Tom Henighan and Rewon Child and Aditya Ramesh and Daniel M. Ziegler and Jeffrey Wu and Clemens Winter and Christopher Hesse and Mark Chen and Eric Sigler and Mateusz Litwin and Scott Gray and Benjamin Chess and Jack Clark and Christopher Berner and Sam McCandlish and Alec Radford and Ilya Sutskever and Dario Amodei
[4]Genomic Language Models: Opportunities and Challenges. 2024. Gonzalo Benegas and Chengzhong Ye and Carlos Albors and Jianan Canal Li and Yun S. Song.