
Llms Reconsidered:Ai 应用程序开发人员的 3 个重要认识!
我希望我能更早意识到的事情
在2025年1月30日,我参加了微软人工智能巡回展(纽约市)。此次活动进行了许多引人入胜的讨论和知识分享,我相信这些对任何开发人工智能应用程序的人来说都是有价值的——无论平台或供应商。
这篇文章将集中于我对大型语言模型(LLMs)能做和不能做的反思,主要受到其中一个分组讨论的启发——Prompty、AI Foundry 和实用的端到端开发,由微软的Seth Juarez主讲。Seth提供了一些新颖的见解,挑战了主流对LLMs的看法。
LLMs不应该做什么
Seth提出的一个最有说服力的观点是:
“LLMs不是数据库或知识库——它们是语言计算器。”
这让我深有感触。尽管知道LLMs只根据概率生成响应,我们仍然会被诱惑去将它们用作搜索引擎或知识库。随着模型效率的提高和每个token的成本下降,这种诱惑变得更加强烈。
关于LLM局限性的三点总结:
- LLMs不应该用作数据库。 它们并不像数据库那样“检索”事实;它们是基于学习到的模式生成文本。
- 幻觉是固有的。 “幻觉”这个词具有误导性——LLMs并不是“犯错误”;它们只是生成最有统计概率的下一个词。LLMs一直在编造东西。
- 为LLMs提供基础是至关重要的。 一种常见的方法来减轻错误是提供外部来源(例如,检索增强生成(RAG))并为输出构建一个审查系统。
尽管如此,我仍在努力理解这些原则如何适用于新推理模型,如Open O1(2024年12月发布)和DeepSeek R1(2025年1月发布)。这些模型旨在进行逻辑推理、数学、编码和问题解决,将LLMs推向超越单纯预测词的领域。
那么我们在什么时刻停止称它们为“语言计算器”,开始将它们视为更高级的东西呢?
这是Open AI定义的五级人工智能:
图像由作者设计
Level 1: 对话式人工智能
这已经被广泛采用,从聊天机器人(例如,ChatGPT,Google Gemini)到客户支持助手。这些模型进行类人对话,但并不进行深层推理。
Level 2: Reasoning AI
这是模型开始在逻辑、数学和结构化问题解决方面表现出色的地方。Open O1和DeepSeek R1是这一新一代的例子,在编码和分析推理等任务上有所提升。
Level 3: Agentic AI
在这一层级,人工智能可以自主承担任务并在没有人类干预的情况下做出决策。业内人士预测,这将是2025年人工智能公司和初创企业的主要关注点。
Level 4: 创新型人工智能
人工智能达到一个可以提出新想法并为科学突破做出贡献的阶段,超出了人类最初的编程。
Level 5: 组织人工智能
想象一个像组织一样运作的人工智能——多个专业化的人工智能代理协作、沟通,并由领导人工智能进行协调,以提供价值,就像一个结构化的公司。
随着人工智能的快速发展,我问自己:我们在什么时刻停止将大型语言模型(LLMs)视为仅仅是“语言计算器”,而承认它们本质上是不同的东西?
LLMs能做什么?
Seth最有说服力的观点之一是:
“LLMs可以软化人机交互的边界。”
我不确定当AGI(人工通用智能)到来时,Seth的说法是否仍然在概念上是合理的,但在那之前,我认为这是一个经过验证的概念。
人机交互的主要挑战在于传统软件的刚性输入输出结构——计算机仅处理明确定义的输入并生成相应的输出。这会造成摩擦,因为如果用户未能提供确切的预期输入,他们可能无法获得所需的结果。
例如,在一个传统系统中,如果医生想要找到糖尿病控制不佳的患者,报告开发者需要写一个特定的查询,条件如**“HbA1c > 9%”或“诊断:2型糖尿病 AND HbA1c > 9”。如果他们搜索“高血糖问题的患者”**,系统将不会返回任何结果,因为它不将该短语识别为有效查询。
通过LLM驱动的搜索,AI理解意图。它可以推断出**“高血糖问题”与“升高的HbA1c”、“糖尿病并发症”甚至ICD-10代码**相关,提供相关结果而不需要严格的关键字匹配。
这种灵活性弥合了人类表达与机器处理之间的差距。
“你掌控提示的输入。你掌控提示的输出。”
这一原则是一种风险控制策略,确保用户和开发者可以利用LLMs的强大功能,同时最小化潜在的意外后果或错误。
即使AI进步到Level 5 Organizational AI,在这种情况下复杂的AI代理系统会自主协作以实现目标,我认为控制输入和输出的原则仍然是相关的。
Level 5 AI系统中的**“领导者”AI仍然需要为AI代理设定参数和目标**,确保它们在预定义框架内工作,并持续验证这些代理的行为和结果,以避免与未监控行为相关的风险。
最终,我们仍然有权决定是否信任输出。
Image designed by the Author