释放 Ai 潜力：Agentic Rag 和 Slm 如何通过整合外部知识转变响应方式

下载此 PPTX 演示文稿

AI 响应中最大的挑战之一是通用或不完整的答案。解决方案？整合外部知识以增强模型的输出。

外部知识来源——如实时数据库、实时事实、商业文档和专业领域的专业知识——可以显著提高响应的准确性和深度。这种方法改变了 LLM 理解和处理查询的方式。

进入 检索增强生成 (RAG) 包括：

检索器：从外部来源提取相关信息。
生成器：将检索到的数据与用户查询结合，以提供更有依据、准确的响应。

结果？更锋利、更具洞察力的答案，直接满足用户需求。

RAG 不仅仅是一个工具；它是创造智能、数据驱动的 AI 系统的范式转变。

RAG是如何工作的

RAG 通过两步过程进行操作：

数据摄取（索引）
- 在这个阶段，开发者通过预处理信息并将其上传到可搜索的数据库（通常是一个 向量存储）来准备数据。
- 这一步是关于建立一个 知识基础 以支持快速响应。
运行时执行
- 在这个阶段，每个用户查询会触发管道从数据库中检索最相关的信息。
- 检索到的数据作为LLM生成响应的 上下文。

这种方法代表了 基础版本 的RAG，通常被称为“简单”实现。这是一个直接的单次交互：一次性检索信息并生成答案。

这种简单性使其成为构建增强AI能力的强大起点。

嵌入模型与向量数据库：数据搜索的变革

要理解数据搜索在向量数据库中的工作原理，我们首先需要拆解嵌入模型和坐标的概念。

向量数据库本质上是一个存储系统，保存坐标记录——数据片段的数值表示。这些坐标由嵌入模型生成，数据搜索的真正力量就在这里。

嵌入模型处理一段数据，并在一个称为潜在空间的多维空间中为其分配一组坐标。这个空间旨在捕捉不同数据片段之间的关系。维度越多，数据关系就越复杂，使得嵌入模型能够捕捉到意义上的细微差别。

让我们用城市地图的类比来简化这个概念：

人类可能会使用地图或包含纬度和经度的表格来比较城市的位置。
另一方面，计算机使用相同的表格，包含文本和坐标，来计算位置之间的数学接近度。

现在，想象添加更多的层，例如城市人口。这将地图从二维转换为三维，使得人类更难以可视化。然而，计算机轻松处理这种复杂性，可以在数百或数千个维度中导航。

这里有一个转折，将城市坐标替换为单词。在语言的情况下，嵌入模型在多维空间中为单词分配坐标。这些坐标代表的是语义相似性——本质上是单词的意义以及它们的相似或不同之处。例如：

同义词如“big”和“large”位于彼此附近。
反义词如“big”和“small”则被放置得更远，朝相反的方向。

但是，谁来决定这些坐标呢？就像人类创建地图一样，我们通过嵌入模型为语言构建了这些多维“地图”。这些模型使用大量的同义词和反义词字典来建立单词之间的关系。坐标不仅仅是点——它们具有位置和方向，这就是为什么它们被称为向量。因此，当我们将这些向量存储在数据库中时，它被称为向量数据库。

这里有一个关于嵌入模型强大的有趣例子：如果你取出“Queen”的向量，减去“Woman”，再加上“Man”，你会得到一个接近“King”的向量。这表明嵌入模型可以直观地捕捉单词之间的语义关系。

在处理较大的文本时，例如段落或整个文档，过程稍有不同。文本被拆分为单个单词，每个单词的向量被生成，然后将这些向量平均以找到潜在空间中的中心点。这种技术帮助像谷歌搜索引擎这样的系统在用户搜索网络时检索到语义相似的内容。

需要注意的是，嵌入模型并不是可以互换的。如果你使用一个模型生成了向量并将其存储在向量数据库中，你必须使用相同的模型来检索数据。切换到不同的模型意味着你需要重新摄取数据并生成新的向量，因为这两个模型创建了不同的向量空间。

对于那些希望构建RAG管道的人来说，像Milvus、Weaviate和Pinecone这样的向量数据库可以提供帮助。

构建自定义的 Agentic RAG 解决方案

在创建自定义 Agentic RAG 解决方案时，各种框架可以帮助简化编码集成、检索、语言模型和类代理行为的过程。这些工具提供了灵活的方式，将检索和生成集成到您选择的语言模型中，从而能够创建强大的 AI 系统。

以下是四个突出的关键框架：

LangChain
LlamaIndex
斯坦福 NLP 的 DSPy
RAGas / Opik 用于评估
LangFuse 用于追踪

这些框架各具独特优势，但它们都提供了构建适合您需求的 Agentic RAG 管道所需的基本构件。

对于刚入门的人来说——尤其是视觉学习者——LangFlow 是一个优秀的工具。它的低代码、拖放界面允许您可视化设计您的 RAG 管道。您可以使用预构建的 RAG 设置模板，自定义组件以满足特定要求，并在需要时深入 Python 代码以调整管道。LangFlow 是一种用户友好的方式，可以在构建功能性解决方案的同时了解 RAG 和代理的内部工作原理。

然而，使用语言模型时出现的一个挑战是并非所有文档都是 LLM-friendly。许多文档，例如 HTML、PDF、DOCX (Word 文档) 和 XLSX (Excel 表格) 格式，都是为人类与字体、颜色、表格、公式、图像和图形等视觉元素进行交互而设计的。这些元素在语言模型所依赖的基于文本的格式中转换效果不佳，往往使模型难以准确处理信息。

为了解决这个问题，解决方案是 解析和提取 内容到机器可读格式。一种这样的格式是 Markdown，它轻量且更容易被语言模型处理。然而，将复杂文件如 PDF 或 Word 文档转换为 Markdown 可能会很棘手。这时，专门的文档解析器就派上用场。

一些值得注意的文档解析器包括：

此外，多模态 LLM 和 VLM 的出现也很有前景，因为它们能够处理文本和视觉数据，使其能够高效处理复杂文档类型。

这些解析工具在弥合原始、非结构化数据与您的语言模型能够高效处理的内容之间发挥着关键作用，从而使您的 RAG 管道实现更顺畅的集成。

也就是说，为您的管道准备文档是一项平衡行为。您必须考虑语言模型的局限性、数据的复杂性以及相关成本——尤其是在扩展时。此步骤对于构建强大的企业 RAG 解决方案至关重要。掌握这一方面对于创建可大规模运作的解决方案至关重要。

虽然关于该过程的细节还有很多可以探索的内容，但那是另一个讨论的话题。

使用多步骤管道增强RAG

让我们从简单的RAG管道的基础概念开始。其核心，一个基本的RAG模型只是从外部源（通常是向量数据库或其他后端系统）检索额外的信息。这是一个简单的过程——基于用户查询的初始检索步骤。

然而，简单的RAG管道有显著的局限性：

❌ 没有错误纠正和反思
❌ 没有记忆——它无法记住过去的交互
❌ 没有规划或管理多步骤、目标导向任务的能力
❌ 没有资格和验证检索数据的能力，也无法评估相关信息是否过多或过少

为了解决这些空白，我们需要让我们的RAG管道更智能。通过添加预检索和后检索步骤，我们可以将一个简单的过程转变为一个高度智能的多步骤管道。以下是具体方法：

Pre-Retrieval Enhancements

在检索任何内容之前，我们可以增强用户的查询，以提高检索过程的准确性。一些有效的技术包括：

将复杂问题分解为更小、更易管理的子问题。这确保了管道可以针对特定信息，从而得到更准确的结果。
假设答案 — 在这里，LLM 预测外部来源（例如，向量数据库）中相关文档可能的样子。这种预测通常会比仅使用原始用户查询得到更好的匹配。
智能路由 — 管道分析用户查询，并确定哪个外部资源（数据库、API 等）最适合处理该请求。

检索过程中的增强

在检索信息时，我们可以应用 元数据过滤 来缩小结果范围并提高数据的相关性。例如，如果我们在数据摄取（索引）阶段为文档标记了作者、创建日期 或主题等元数据，我们可以在检索过程中按这些属性进行过滤，从而提高准确性。

Post-Retrieval Enhancements

After retrieval, not all the returned information is useful. This is where re-ranking models come in. 这些专业模型评估检索到的数据块，优先考虑最相关的内容，并丢弃语义相似但不相关或噪音的信息。

管理上下文丢失

RAG管道的一个常见挑战是在将文档拆分为较小块时丢失上下文。没有上下文，内容的意义可能会变得模糊。为了解决这个问题，可以采用几种策略：

基于LLM的压缩技术 — 想象一下你拿着一段文字及其周围的上下文，然后让语言模型以更简洁、更有意义的方式重写它。这段新压缩的文本随后用于生成向量，使用嵌入模型，而不是使用原始文本。
缓存策略 — 为了有效处理使用上述压缩技术的重复长文本，可以将静态内容放在前面与周围文本一起，而当前处理的文本块则在最后处理。像OpenAI和Anthropic这样的提供商已经内置了这种缓存技术。这种方法有助于节省成本和资源，同时保持管道的流畅性。
嵌入技术 — 上下文也可以像压缩技术一样在嵌入中保留。周围的数据为一个文本块提供了重要的上下文，因此该文本块的结果向量将包括周围的上下文，保持其语义意义不变。嵌入通常比LLM便宜，因此可能是一个不错的替代方案。像Jina.ai这样的提供商为他们的嵌入模型开发了这种技术，但几乎可以与任何嵌入模型一起使用。

高级 RAG 的美

这里最棒的部分是：所有这些增强都是在 LLM 之外 发生的。通过优化管道，我们可以显著提高响应质量，而无需修改基础或重新训练语言模型。

对于法律、研究或 客户服务 等专业领域，先进的 RAG 管道不仅仅是一次升级——它是一个 颠覆者。

真正的问题不再是 RAG 是否有效——而是你能在你感兴趣的领域内推得多远。

灵感来自 https://arxiv.org/abs/2312.10997

超越高级RAG的旅程

改善RAG就像剥洋葱——每剥去一层，都会揭示出另一个改进的机会。通过探索这个过程，我们可以将一个基本的简单RAG管道转变为一个强大的解决方案，甚至改进超出我们通常认为的“高级RAG”。

让我们从数据摄取（索引）阶段开始，这是任何RAG管道的基础。这个阶段对于确保输入到管道中的数据质量至关重要，因为输入的完整性直接影响输出。

数据摄取的关键步骤：

移除重复项 — 想象一下多次上传同一文档；这既浪费又可能扭曲检索结果。
清理数据 — 奇怪的伪影，如条形码、HTML标签或ASCII艺术，可能会混淆语言模型并降低响应质量。
处理复杂文档 — 丰富的格式，如 PDFs 应该转换为轻量级、机器可读的格式，如 Markdown。这使得语言模型更容易处理，并确保效率。
注意数据泄露 — 匿名化至关重要。清除个人标识符、敏感健康信息或任何可能危及隐私的内容，确保你的管道安全且合规。

正如所说：垃圾进，垃圾出。你的输入越干净，结果就越好。

将文本拆分为块：

接下来，我们解决将文本拆分为可管理块的看似简单但至关重要的任务。挑战在于在确保效率的同时保持上下文。

太大，成本飙升；太小，则可能失去重要的上下文。
使用在拆分为块时保持语义意义的策略。
高级管道可以在检索过程中动态提取相邻块，以填补上下文空白。
您还可以使用堆叠技术，在不同的向量集合中以多种方式存储相同的数据拆分。

不要忽视您嵌入模型的上下文窗口大小。这定义了单个查询中可以容纳多少信息。

一种提高检索质量的有用技术是混合搜索，它将语义搜索与全文搜索相结合。这可以提供两全其美的效果，尤其是与元数据过滤结合使用时。

在检索阶段：

一旦您拥有数据，下一步就是检索，在此过程中会继续进行增强：

应用重新排序 — 重新排序通过过滤掉无关的部分并优先考虑最重要的内容来帮助优化结果。上下文仍然不足吗？高级 RAG管道可以在检索过程中动态获取额外的部分，以确保提供最准确、上下文丰富的响应。

智能路由：

当数据被检索后，就该应用 智能路由 了。该技术涉及将任务路由到合适的语言模型，以确保每种查询类型的最佳性能。例如：

编程代码 查询可能会发送到一个代码优化模型。
与医疗相关的查询 可以利用专门的 医疗 LLM 以获得更准确和相关的响应。

接下来，调整 模型参数，例如温度设置，以根据查询的具体需求平衡精确性和创造力。

输出和反馈:

一旦生成了输出，工作并没有结束。为了提炼结果并随着时间的推移进行改进：

匿名化检查 — 再次进行检查以确保隐私和安全。
添加用户反馈和聊天记录，以持续改进响应，使管道随着时间的推移变得更智能和更具针对性。

最后，跟踪和评估结果。此步骤允许您评估系统的性能，并在必要时开始重新配置您的RAG管道。迭代和测试是优化解决方案的关键。

Please translate the following text to Chinese. Requirements: 1. Keep code blocks (```) unchanged 2. Keep inline code (`) unchanged 3. Keep Markdown formatting 4. Use these technical term translations: Integrating external knowledge -> 整合外部知识 Retrieval-Augmented Generation (RAG) -> 检索增强生成 (RAG) Retriever -> 检索器 Generator -> 生成器 Data Ingestion (Indexing) -> 数据摄取（索引） vector store -> 向量存储 knowledge foundation -> 知识基础 Runtime Execution -> 运行时执行 context -> 上下文 foundational version -> 基础版本 naïve -> 简单 Embedding Models -> 嵌入模型 Vector Database -> 向量数据库 coordinates -> 坐标 latent space -> 潜在空间 semantic similarity -> 语义相似性 vectors -> 向量 Google Search Engine -> 谷歌搜索引擎 RAG pipeline -> RAG管道 Milvus -> Milvus Weaviate -> Weaviate Pinecone -> Pinecone

     Text: ## The Power of Continuous Improvement:

These small, but impactful, steps transform a basic RAG pipeline into a sophisticated, adaptable powerhouse capable of handling even the most complex queries with precision and relevance.

With every improvement, we unlock new potential in how RAG pipelines can serve our needs. The trick is to accumulate these small improvements, which compound over on each other, making RAG more powerful and efficient with each iteration.

So, how far are you willing to take your RAG solution?

结构化和增强现实世界管道

让我们通过一个成熟公司的真实案例来了解如何将其 RAG 与 LLMs 结合起来。这个案例研究是如何构建和增强 RAG管道以实现最佳性能的良好示例。

从用户查询开始：

管道从用户查询开始，第一步是决定是否应该将其转换为数据库查询或扩展以提高清晰度和检索准确性。

在这个阶段，管道可能会将复杂问题分解为子问题。这个过程利用了**验证链 (CoVe)**等方法，将原始查询分解为更小的逻辑组件，并确保每个组件的一致性。

使用 LLM Judge 进行子问题评估：

一旦子问题被创建，管道使用 LLM Judge 来评估这些子问题的质量。这确保只有最有意义、相关的子问题才能进入下一步。LLM Judge 充当守门人，在整合外部知识之前，优化查询分解。

查询外部知识

在确定需要外部知识后，管道决定查询一个 数据库 是否会增强响应。如果需要外部信息，管道执行 混合搜索，结合 基于向量的语义搜索 和传统的 全文搜索。

重新排序检索到的文档：

一旦相关文档被检索到，管道进入重新排序阶段。在这里，管道过滤掉语义上相似但不相关的信息块。剩余的信息块根据它们与用户查询的相关性进行排序。这个重新排序过程通常使用专门的模型进一步优化文档选择，确保仅保留最相关的部分用于响应生成。

应用 LLM 评估：

在生成最终响应之前，管道对检索到的数据应用 LLM 评估。评估评估数据的优缺点，增加了一层额外的质量控制。

生成最终响应

一旦批评完成，最终响应被生成并交付给用户。在这一点上，管道已经经历了多个验证、精炼和质量控制阶段。

领域特定定制

需要注意的是，不同领域可能需要独特的管道配置。例如，在金融或法律中有效的技术在医疗或编程中可能不那么有效。这突显了根据特定领域和需求定制管道的重要性。

持续评估与迭代：

虽然这个示例管道提供了一个坚实的基础，但成功依赖于持续的评估与迭代。关键在于将管道适应于您的用例，逐步完善过程，以提高每一步的结果，从而增强管道提供高度准确、上下文相关答案的能力。

Agents, Tools, & Function Calling: Building Dynamic Apps with LLMs

In the evolving world of Large Language Models (LLMs), understanding agents, tools, and function calling is key to building dynamic, real-world applications. 这些概念在创建不仅仅提供信息而且还采取有意义行动的管道时至关重要。

什么是代理？

一个代理本质上是一个可以采取行动并影响现实世界的管道。例如，如果您的管道起草了一封电子邮件并发送，或者创建了一个会议邀请并在您的日历上安排，这就是一个正在工作的代理。这些管道不仅仅是响应 — 它们与环境互动，并根据提供的上下文执行操作。

另一方面，简单的聊天或对话如果没有进一步的行动，则不算作代理。这仅仅是一次互动，模型响应提示，但并未触发任何后续活动或变化。

工具：将智能体连接到世界

为了使智能体有效运作，它依赖于工具。工具是使智能体能够与外部系统互动的机制。这些可以包括像Gmail、日历或通过API访问天气预报和财务数据等服务。可以将工具视为允许智能体连接并影响其周围世界的桥梁。

工具使智能体能够超越模型的训练数据进行互动。例如，智能体可以使用工具提取实时天气数据，以便更新用户的通勤情况，或者查询数据库以获取报告所需的特定信息。

函数调用：整合LLMs与系统

函数调用是增强LLMs与外部系统之间交互的另一个关键概念。它允许LLM以严格定义的格式生成输出，如JSON，这使得将LLM与数据库、API，甚至是您代码中的特定功能整合变得非常有用。

考虑这个例子：如果您有一个需要特定参数和数据类型的Python函数，您可以提示LLM使用函数调用功能生成符合这些要求的输出。LLM可以生成一个完全符合预期格式的响应，准备在您的应用程序中使用。代理甚至可以计划、生成和执行代码，以改善他们的结果，涵盖LLM需要处理的复杂案例，例如，当需要更精确的答案时，比如数学问题。

同样，如果您需要来自关系数据库的数据，LLM可以生成针对您的数据库架构量身定制的SQL查询。这种能力同样适用于向量数据库，在用户查询的基础上可以应用动态过滤器。

大多数现代LLM现在都支持函数调用，为开发人员提供了与各种系统接口的广泛可能性。

什么使代理与众不同？

并非所有工具的使用都等同于代理行为。例如，查询数据库或从互联网上获取数据可能让人感觉代理正在与世界互动，但这并不一定意味着改变世界或采取有意义的行动。那么，是什么真正区分代理和简单工具使用的呢？

代理之所以与众不同，是因为它们可以：

重复任务并迭代过程。
执行多步骤推理，将复杂查询分解为可管理、可操作的步骤。
逐步规划，在过程中结合检查和自我反思。
使用工具与外部环境互动，例如查询API、进行搜索或与服务和数据库整合。
利用记忆和用户反馈，随着时间的推移进行个性化和适应，创造更量身定制、以用户为中心的体验。

工具作为代理框架的一部分

重要的是要注意，虽然工具通常作为代理框架的一部分实现，但并非所有工具的使用都直接影响世界。关键的区别在于，代理不仅仅是理解情况——他们还采取行动。通过结合工具、函数调用和记忆，代理弥合了LLMs与现实世界应用之间的差距，提供的不仅是告知用户的解决方案，而是采取有意义的实时行动。

代理代表了人工智能应用的演变。它们超越了简单的问答能力，使用户能够自动化任务、解决复杂问题，并与LLMs创建更具互动性和个性化的体验。

Agent Frameworks

Crew AI
AWS Multi-Agent Orchestrator
Microsoft AutoGen, Semantic Kernel & Azure AI Agent Service
PedanticAI
LangGraph
OpenAI Swarm

Inspiered by https://arxiv.org/abs/2312.10997

内存在增强聊天机器人对话中的作用

当谈到聊天机器人对话时，内存可能并非总是必不可少，但它的存在可以显著提升用户体验。内存使聊天机器人感觉更智能和个性化，提供连续性和更人性化的互动。然而，许多用户已经体验到聊天机器人内存的局限性——你是否注意到过，过一段时间后，ChatGPT 会忘记你之前提到的某些内容？这就是内存的一个例子——或者更准确地说，是它的局限性。

要理解内存在聊天机器人对话中扮演的重要角色，重要的是将其分解为三种不同的类型：

感官记忆
短期记忆
长期记忆

每种类型都有其独特的特征和应用，帮助聊天机器人在不同的上下文中智能地响应。

感知：即时提示记忆

指模型在单个提示内处理和记忆信息的能力。它在该特定输入的上下文中工作，特别是当用户查询包含许多问题或指令时。聊天机器人使用其内置模型的注意机制来理解在该提示中呈现的所有信息。然而，一旦生成响应，所有信息都会被遗忘。内置模型的注意机制并不完美，通常可能无法完全关注用户提示中的所有指令或事实。

这种类型的记忆可以通过使用**检索增强生成 (RAG)**等技术来增强。在RAG管道中，复杂的输入被分解为可以按顺序处理的小子查询，并伴随一个规划器。此方法允许提供更有根据和详细的答案，提高聊天机器人在单个提示中处理复杂或多方面问题的能力。

短期记忆：会话中的记忆

在单一对话会话的上下文中操作。这使得聊天机器人能够理解并在一系列交流中保持上下文。例如，如果你告诉聊天机器人：“我们来谈谈我的日程安排”，然后再问：“我接下来要做什么？”聊天机器人能够理解“接下来”指的是什么，基于正在进行的对话。

然而，一旦会话结束，这段记忆就会重置。聊天机器人会忘记之前会话中的所有内容，重新开始，完全不记得过去的互动。

长期记忆：创造个性化体验

是聊天机器人开始发光发热的地方，特别是在跨多个对话创建个性化、持久体验时。这种记忆使聊天机器人能够记住一些重要细节，比如你的名字、偏好或在所有对话中相关的常讨论主题，可能会一直记住。

例如，如果你告诉机器人：“我是Damien，”它可以存储这些信息并在未来的互动中回忆起来。下次你与机器人互动时，它会记住你是谁，并考虑你的偏好和需求，从而创造一个更个性化的对话。

解决遗忘挑战

遗忘，尤其是在长期记忆中，可能是聊天机器人设计中的一个重大挑战。我们如何确保重要细节被记住而不被遗忘？一个有效的解决方案是使用工具，允许聊天机器人以结构化的方式提取和存储关键信息，例如通过知识图谱。

例如，想象一下你告诉聊天机器人：“嘿，我是Damien。你好吗？”管道识别“Damien”为一个实体，并将此知识存储在图数据库中。它创建一个标记为“Name”的节点，值为“Damien”，并记录关系HAS_NAME，将你的用户与该节点连接起来。稍后，当你问：“我怎么样？”时，管道查询图数据库，检索HAS_NAME关系和连接的节点，回答：“你是Damien。”

这种方法不仅可以扩展以记住名字，还可以存储偏好、过去的查询和其他上下文细节。随着时间的推移，管道可以学习并回忆关于你的信息，从而改善整体用户体验。

记忆作为对话式 AI 的关键组成部分

记忆无疑是对话式 AI 的一个重要方面。它将聊天机器人从简单的、功能性的工具转变为高度吸引人、智能的伴侣。无论是感官记忆、短期记忆还是长期记忆，合适的模型都可以使聊天机器人更加可靠和个性化。

整合技术，如子查询创建、规划和知识图谱，可以帮助聊天机器人变得更智能，更好地处理复杂对话。此外，个性化在需要记住敏感或特定上下文的情况下变得尤为重要，例如当用户透露个人挑战如 阅读障碍 时。例如，如果用户提到：“我无法阅读，请始终与我对话，”在未来的对话中记住这一细节确保聊天机器人每次都能根据该用户的需求调整其响应。

有趣的是，一些研究指出，根据情况，拥有过多的记忆可能是好是坏。我们尚未找到这种平衡。

** 长期记忆的框架：**

专用AI模型的崛起：超越对规模的追求

人工通用智能（AGI）的兴奋是不可否认的，但资金充足的企业正在发现，真正重要的是能够高效且经济地解决特定问题的解决方案。虽然庞大的、超大型的LLM可能以其令人印象深刻的能力而令人眼花缭乱，但其高昂的成本很快就会降低其吸引力。

新兴的范式很明确：成本优化的领域特定模型是商业应用中人工智能的未来。随着我们接近2025年，市场正在向小型、专用的语言模型和代理转变，这些模型和代理将有效性置于单纯的规模或短暂的目标（如AGI）之上。

模型专业化的案例

考虑当前的人工智能生态系统。企业不再依赖于像 Gemini 1.5 Pro 或 GPT-4 Turbo Mini 这样的通用模型来处理每一个任务，而是转向为特定功能设计的专业模型。例如，Functionary-Medium 是一个针对函数调用任务优化的模型，能够在潜在较低的推理成本下提供可比的质量。

BloombergGPT 提供了另一个引人注目的例子。这个模型是专门针对金融任务进行微调的，比如股票市场情绪分析。当通用模型可能提供一般性的见解时，BloombergGPT 在金融领域提供了精准的数据——展示了任务特定模型如何显著改善结果。

Specialized Models in Action

Specialized models are already excelling across various domains:

Language and nonsense detection
Grammar verification
Sentiment analysis
Named Entity Recognition (NER)
SQL query generation
Implementing guardrails to prevent harmful or unethical misuse

Even in the realm of embeddings, specialization is proving its worth. While OpenAI’s text-embedding-3-large ranks 38th on the MTEB leaderboard, competitors like BGE-ICL are delivering comparable quality that can be found at a fraction of the cost — approximately 10 times cheaper while ranking second on the same MTEB leaderboard.

RAG方法中的多模型

新兴的规范是在RAG管道中使用多模型。与其在每个任务中默认使用一个大型、昂贵的模型，不如开始将较小的专用模型整合到你的管道中。一些模型在狭窄领域的质量上表现出色，而其他模型则在速度和成本上进行了优化。虽然你仍然需要LLMs，但它们可以是单个RAG中许多模型之一，仅用于难以解决的案例。

行业趋势

即使是主要的AI提供商也在适应这种方法。例如，OpenAI并没有急于发布GPT-5。相反，他们专注于：

改进较小的多语言模型
扩展满足商业需求的代理能力
提高成本效率而不牺牲质量

人工智能的未来

人工智能的未来并不在于拥有最大的模型，而在于拥有合适的模型——量身定制、高效且专业。对于企业而言，这种方法才是真正使人工智能成为游戏规则改变者的关键。

对企业的建议很明确：探索可以分解为具有特定用例的小子任务的模型。虽然大型模型仍然有其存在的价值并且有用，但它们应该被视为多样化且专业的人工智能管道中的一个组成部分。

信息简单却强大：模型多样性可以提高质量并降低价格，效果胜过规模，而专业化是释放人工智能真正潜力以推动商业创新的关键。

下载此PPTX演示文稿

最终想法

在LLMs的领域中，有几个提供商需要考虑。了解并非所有问题都需要使用庞大、通用的LLMs是至关重要的。

小型语言模型和专业模型在特定任务中可以非常有效。例如，当构建针对特定领域或特定功能的解决方案时，专业模型在效率和成本效益方面往往能够超越更大的模型。

此外，在创建解决方案时，利用多个模型通常是有益的。通过结合各种模型，每个模型针对管道的特定组件进行优化，您可以创建一个更强大和多功能的系统。这种多样性方法使您能够为每项工作选择合适的工具，从而提高性能和准确性。

在RAG方面，重要的是要跟踪和评估结果并进行迭代改进。

最后，值得注意的是，企业并不寻求人工通用智能 (AGI)。他们真正关心的是寻找经济实惠、有效的解决方案，以满足他们的特定用例。无论是客户服务自动化、知识管理、市场分析、与CRM的集成，还是其他商业应用，重点应该放在提供有价值的、成本效益高的解决方案上。

摘要

通过分解任务，为每个任务选择合适的模型，并持续评估RAG输出，您可以为企业创建更有效、可扩展的AI解决方案。

关键要点：

探索替代的LLM推理提供者。
利用小型和专业模型处理特定任务。
模型多样性：在解决方案中结合多个模型。
跟踪并评估RAG结果的准确性。
企业需要负担得起的解决方案，而不是AGI。

享受这篇文章和演示吗？

如果你喜欢这个主题并想支持我：

点赞 👏 我的文章 10 次；这将对我很有帮助
关注我以获取我的最新文章
分享这篇文章
我很想听听你的想法。请在下面的 评论中分享 你的反馈。无论是简单的“谢谢”还是详细的批评，我都乐于倾听。请诚实地告诉我我可以改进的地方和方式。你的意见对我来说非常宝贵！
通过 LinkedIn、Discord 或 BlueSky 与我联系或关注我。