Llms Reconsidered：Ai 应用程序开发人员的 3 个重要认识！

Rifx.Online
Large Language Models , AI Applications , Industry Insights
23 Feb, 2025

我希望我能更早意识到的事情

在2025年1月30日，我参加了微软人工智能巡回展（纽约市）。此次活动进行了许多引人入胜的讨论和知识分享，我相信这些对任何开发人工智能应用程序的人来说都是有价值的——无论平台或供应商。

这篇文章将集中于我对大型语言模型（LLMs）能做和不能做的反思，主要受到其中一个分组讨论的启发——Prompty、AI Foundry 和实用的端到端开发，由微软的Seth Juarez主讲。Seth提供了一些新颖的见解，挑战了主流对LLMs的看法。

LLMs不应该做什么

Seth提出的一个最有说服力的观点是：

“LLMs不是数据库或知识库——它们是语言计算器。”

这让我深有感触。尽管知道LLMs只根据概率生成响应，我们仍然会被诱惑去将它们用作搜索引擎或知识库。随着模型效率的提高和每个token的成本下降，这种诱惑变得更加强烈。

关于LLM局限性的三点总结：

LLMs不应该用作数据库。 它们并不像数据库那样“检索”事实；它们是基于学习到的模式生成文本。
幻觉是固有的。 “幻觉”这个词具有误导性——LLMs并不是“犯错误”；它们只是生成最有统计概率的下一个词。LLMs一直在编造东西。
为LLMs提供基础是至关重要的。 一种常见的方法来减轻错误是提供外部来源（例如，检索增强生成（RAG））并为输出构建一个审查系统。

尽管如此，我仍在努力理解这些原则如何适用于新推理模型，如Open O1（2024年12月发布）和DeepSeek R1（2025年1月发布）。这些模型旨在进行逻辑推理、数学、编码和问题解决，将LLMs推向超越单纯预测词的领域。

那么我们在什么时刻停止称它们为“语言计算器”，开始将它们视为更高级的东西呢？

这是Open AI定义的五级人工智能：

图像由作者设计

Level 1: 对话式人工智能

这已经被广泛采用，从聊天机器人（例如，ChatGPT，Google Gemini）到客户支持助手。这些模型进行类人对话，但并不进行深层推理。

Level 2: Reasoning AI

这是模型开始在逻辑、数学和结构化问题解决方面表现出色的地方。Open O1和DeepSeek R1是这一新一代的例子，在编码和分析推理等任务上有所提升。

Level 3: Agentic AI

在这一层级，人工智能可以自主承担任务并在没有人类干预的情况下做出决策。业内人士预测，这将是2025年人工智能公司和初创企业的主要关注点。

Level 4: 创新型人工智能

人工智能达到一个可以提出新想法并为科学突破做出贡献的阶段，超出了人类最初的编程。

Level 5: 组织人工智能

想象一个像组织一样运作的人工智能——多个专业化的人工智能代理协作、沟通，并由领导人工智能进行协调，以提供价值，就像一个结构化的公司。

随着人工智能的快速发展，我问自己：我们在什么时刻停止将大型语言模型（LLMs）视为仅仅是“语言计算器”，而承认它们本质上是不同的东西？

LLMs能做什么？

Seth最有说服力的观点之一是：

“LLMs可以软化人机交互的边界。”

我不确定当AGI（人工通用智能）到来时，Seth的说法是否仍然在概念上是合理的，但在那之前，我认为这是一个经过验证的概念。

人机交互的主要挑战在于传统软件的刚性输入输出结构——计算机仅处理明确定义的输入并生成相应的输出。这会造成摩擦，因为如果用户未能提供确切的预期输入，他们可能无法获得所需的结果。

例如，在一个传统系统中，如果医生想要找到糖尿病控制不佳的患者，报告开发者需要写一个特定的查询，条件如**“HbA1c > 9%”或“诊断：2型糖尿病 AND HbA1c > 9”。如果他们搜索“高血糖问题的患者”**，系统将不会返回任何结果，因为它不将该短语识别为有效查询。

通过LLM驱动的搜索，AI理解意图。它可以推断出**“高血糖问题”与“升高的HbA1c”、“糖尿病并发症”甚至ICD-10代码**相关，提供相关结果而不需要严格的关键字匹配。

这种灵活性弥合了人类表达与机器处理之间的差距。

“你掌控提示的输入。你掌控提示的输出。”

这一原则是一种风险控制策略，确保用户和开发者可以利用LLMs的强大功能，同时最小化潜在的意外后果或错误。

即使AI进步到Level 5 Organizational AI，在这种情况下复杂的AI代理系统会自主协作以实现目标，我认为控制输入和输出的原则仍然是相关的。

Level 5 AI系统中的**“领导者”AI仍然需要为AI代理设定参数和目标**，确保它们在预定义框架内工作，并持续验证这些代理的行为和结果，以避免与未监控行为相关的风险。

最终，我们仍然有权决定是否信任输出。

Image designed by the Author

Llms Reconsidered：Ai 应用程序开发人员的 3 个重要认识！

我希望我能更早意识到的事情

LLMs不应该做什么

Level 1: 对话式人工智能

Level 2: Reasoning AI

Level 3: Agentic AI

Level 4: 创新型人工智能

Level 5: 组织人工智能

LLMs能做什么？

Tags :

Share :

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示：提升论文写作质量的终极指南

让 Excel 过时的 10 种 Ai 工具：实现数据分析自动化，节省手工作业时间

使用 ChatGPT 搜索网络功能的 10 种创意方法

掌握Ai代理：解密Google革命性白皮书的10个关键问题解答

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

揭开真相！深度探悉DeepSeek AI的十大误区，您被误导了吗？