开发人员 2025 年人工智能入门路线图
在我上一篇文章中,我写了关于初学者学习 AI 的路径,试图揭开其工具和日常任务应用的神秘面纱。
这次,我们将大幅度转向。
想象一下,完全独立构建、部署甚至货币化 SaaS 应用程序,但你不知道从哪里开始。本文主要面向寻找指南或课程的初级开发者,将介绍一些关键概念、工具和策略,帮助你入门。
和往常一样,我将文章组织成几个大类别和主题,这些内容并不需要按顺序阅读,所以如果你已经熟悉某些概念,可以随意浏览和跳过。然而,根据我的经验,我强烈建议在尝试独立构建整个 SaaS 应用之前,先了解每个类别的基本概念。
1. 大型语言模型 (LLMs)
学习LLMs的最佳起点可能是OpenAI ChatGPT模型的创始人之一Andrej Karpathy的传奇视频教程——
这段一个小时的视频非常值得观看,以全面理解Transformer模型是什么,以及如果你决定并且有资源自己构建,LLMs是如何构建的。
LLM API 提供者及其特点
一旦你对 LLM 及其最常见的对话信息合成用例有了基本了解,就可以开始探索大型 LLM 提供者所提供的 API。首先通过实验不同的 API 来理解它们的能力和潜在应用。在撰写本文时,有几家商业和开源模型提供者提供 API,因此下面的列表并不是 100% 完整,但应该能让你对市场有个大致了解。
概念 — 大多数 LLM 提供者都有几种不同的模型可供按需使用的 API。这些模型通常被分类为嵌入模型、补全(文本到文本)、语音转文本、文本到图像等,并且通常按模型的大小定价,因为使用大型模型进行推理需要更多的计算资源,因此价格更高。此外,大多数提供者还提供一个 Playground,您可以在其中尝试不同模型的提示和结果,并调整温度等配置。
OpenAI: 以其尖端模型如 GPT-4 而闻名,提供强大的 API 集成。在过去一年中,它增加了许多构造,变得比以往更复杂。它有组织、项目的概念,计费在每个层级。您可以按组织和项目分配用户和密钥。他们还提供了助手 API(更像是一个代理,稍后我们会讨论)和实时 API,允许构建可以接收语音并在几毫秒内以音频或文本格式立即返回结果的模型。请记住,截至目前,实时 API 可能是最昂贵的。
AWS 和 Google — AWS(Bedrock)和 Google(Vertex AI)都有以下版本的模型目录,您可以选择自己的模型,微调一些模型,部署这些模型并将其连接到工具或 API。AWS Bedrock 还具有代理和代理编排的概念,您可以使用这些来构建类似微服务的自主 AI 应用。
我还应该提到,Google 的新 AI Studio 现在有新的工具,可以通过浏览器“看”和“听”您(当然需要您的许可),因此您可以围绕培训构建应用程序,甚至自动化重复任务,而无需任何复杂的自动化工作流程。
尽管 AWS 确实有自己的 LLM,但它主要提供 Anthropic 模型,这些模型在编码任务中可能是最好的。Google 在 2024 年 12 月发布了 Gemini 和 Flash 模型,性能与 Claude 3.5 相当,但成本更低。
Anthropic: 说到 Claude,我最喜欢的 LLM 提供者之一是 Anthropic,它有三个基于大小的广泛模型类别——Haiku(最小)、Sonnet(中等)和 Opus(大型)。在所有这些模型中,Sonnet 3.5 在代码生成方面一直是冠军。此外,它最近增加了两个突破性的新功能——计算机使用工具和模型上下文协议(MCP)服务器。通过这些 API,作为开发者,您现在可以构建能够使用用户计算机浏览器代替用户执行任务的应用程序。
Hugging Face: 这是迄今为止最大的一个平台,适合以具有成本效益的方式查找、微调和部署您自己的开源模型到私有实例。您可能选择这样做的原因是,对于某些任务和用例,您可能需要更小、更便宜且私有托管的模型。在开源领域,Meta 的 Lllama 系列模型在行业基准中被认为是最好的。
本地模型: 最后,我还应该补充,如果你和我一样,有时会发现自己没有互联网,例如在长途飞行中,您应该考虑本地运行模型。我最喜欢的两个是 Ollama 和 LMStudio。两者都允许您在本地下载模型,并将其作为本地主机端点运行,您可以像调用任何 LLM 一样从代码中调用它们。不过我需要提醒的是,要运行超过 32B 参数的模型,您需要一台配备足够 GPU 和内存的 decent 笔记本电脑。
每个提供者都有针对不同用例量身定制的独特功能。比较成本、微调选项和可扩展性将帮助您为项目选择合适的提供者。
函数调用
现代 LLM 正在发展以直接处理结构化 API 调用。这使得自动化任务变得更加顺畅,例如预约、查询数据库或管理工作流程。函数调用弥合了 AI 与传统 API 之间的差距,使集成更加直观。
微调和部署开源 LLM
对于寻求定制的开发者来说,微调开源 LLM 是一个游戏规则的改变者。像 LLaMA、Falcon 和 GPT-J 这样的模型使开发者能够构建特定领域的应用程序。Hugging Face 和 LangChain 等工具简化了微调和部署过程,能够实现高效的扩展。
2. 代理人
什么是代理?
OpenAI及其他模型提供商去年发布的功能之一是函数调用。这使得大型语言模型(LLMs)能够回调应用程序中的函数,从而获得运行代码的权限,因此变得“具有代理能力”。这个功能现在已经发展为工具,您可以将多个工具整合到一个构造中,并附加特定的LLM,现在您就拥有了代理。如果您对这个主题感兴趣,可以阅读关于7因素应用的文章,链接在这里 -> https://readmedium.com/the-7-factor-enterprise-ai-app-4528d02d0e83
代理框架
在 Python 和 JS/TS 中,有几个框架可以通过简单的基于字典的接口构建代理。以下是一些框架。当选择时,我建议选择一些在以确定性和可控的方式协调代理方面具有强大功能,并且具备追踪和调试功能的框架。
- LangChain 和 LangGraph: 迄今为止,这个框架具有非常全面的功能集,但随着时间的推移,这个框架不再像以前那样简单,因此要做好学习曲线的准备。然而,它拥有丰富的用户社区,文档也非常出色。
- Autogen: Autogen 最初由微软发布,首个版本以及 Autogen Studio 提供了一个非常引人注目的构建代理的平台。然而,原始创始人离开了微软,现在有两个不同版本的 Autogen,这使得选择变得有些混乱,特别是如果你在为企业 AI 选择长期方案时。
- CrewAI: 这个框架在协作多代理环境中表现出色,但坦率地说,我对这个框架的使用经验不多。我听其他开发者说这是一个不错的框架。
- OpenAI Swarm: 这可能是开始构建简单代理和构建图/代理工作流的最简单方法。如果你有兴趣了解更多,可以查看我写的关于使用 Swarm 构建高级 RAG 启动包的文章 -> https://readmedium.com/how-to-build-a-multi-agent-rag-system-mars-with-openai-swarm-b6eb8a0ffc4a
- AWS Bedrock: AWS Bedrock 具有构建基于 UI 的代理和工作流的概念,功能丰富。然而,你需要理解 AWS 生态系统,包括 IAM 和权限,才能开始。如果你对 AWS 平台比较熟悉,那么这里是一个不错的起点。
- Llamaindex: 这是另一个很好的平台,特别是如果你还在寻找一个与多个数据源(尤其是像 SingleStore 这样的数据库)进行接口的共同层,它提供 SQL、JSON、向量和精确关键字匹配,所有这些都在一个地方。
当然,还有许多其他框架,你应该根据自己的需求进行选择,但这一组框架应该能帮助你更广泛地理解这个领域。
3. 检索增强生成 (RAG)
什么是 RAG?
RAG 结合了 LLM 的强大功能与实时、特定领域的数据检索,以根据 LLM 不“了解”或未经过训练的数据响应查询或采取行动。这种方法确保 AI 输出既准确又与上下文相关,特别是在企业中,存在大量 LLM 未用于训练的数据。应用案例包括个性化客户支持、动态内容生成和实时知识检索。
关于向量和语义搜索的所有内容
从本质上讲,RAG 涉及搜索结构化数据(如 JSON 或 SQL 数据)和非结构化数据(如 PDF 文件、图像、视频)。对于非结构化数据,通常将其分成一些重叠的块,然后将其转换为向量,这些向量基本上是在多维空间中表示这些对象的浮点值。例如,“狗跳过干草堆”可能变成 (0.234, 1.343, 2.343, 1.334….)。通常将其存储在内存中以用于某些短暂的用例或在向量数据库中。要搜索这些向量,您首先将查询转换为嵌入/向量(使用嵌入模型),然后进行语义搜索,例如点积,以查看数据库中的哪些对象与查询相似,然后将该数据块作为上下文传递给 LLM。
您还可以查看我去年写的更详细的向量数据库比较 — https://readmedium.com/the-ultimate-guide-to-vector-databases-2024-and-beyond-16dfb15bef12
数据库和 RAG 的数据策略
正如您所想,当您开始存储大量向量时,您需要考虑如何存储和检索它们,在企业中,您还需要考虑检索其他类型的数据。目前存在一些仅支持向量的数据库,包括开源和商业版本,如 Pinecone、Weaviat、Mivuls 等,但如果您正在寻找能够通过单次查询(如 SQL、JSON、Vector 等)存储和搜索所有数据的数据库,请考虑使用 SingleStore、Elastic 或 AWS 的 Opensearch 等数据库。
一旦您理解了 RAG 的基本知识,您可以进一步探索一些额外的主题。
- 高级 RAG 功能 — https://readmedium.com/secrets-to-optimizing-rag-llm-apps-for-better-accuracy-performance-and-lower-cost-da1014127c0a
- 多代理 RAG 系统 - https://readmedium.com/how\-to\-build\-enterprise\-ai\-apps\-with\-multi\-agent\-rag\-systems\-mars\-f922f69f59ba
- 知识增强检索 (KAG) — https://github.com/OpenSPG/KAG?tab=readme-ov-file
现在让我们转到下一个主题,学习如何使用 AI 实现 10 倍的编码和开发。您可能并不需要所有工具,但我仍然列出了它们,以便您可以根据不同的项目、用例和需求进行选择。
4. 开发/编码
编码工具的演变
信不信由你,在过去两年中,AI编码工具经历了看似十年的变化。最初,我们有像Microsoft Co-pilot这样的工具,帮助进行代码补全。但现在我们已经转向两个VS Code IDE,它们不仅可以进行代码补全,还可以与它们聊天讨论代码,并且它们还具有基于代理的交互,可以代表您执行操作,如创建新文件和运行终端命令,包括安装新库和包。这些工具是Cursor和Windsurf。两个工具还让您能够使用单独的文件或选择整个代码库作为上下文。
我强烈推荐下载这两个产品的免费版本,并尝试不同的用例。
我还应该提到,Claude及其工件在生成代码和小应用程序方面也非常出色,您可以在浏览器中测试这些应用程序,然后将它们引入您的代码库进行进一步迭代。此外,现在OpenAI和Claude也帮助创建基于mermaid的架构和流程图,使得可视化和迭代您的应用程序变得更加容易。
我还应该补充一点,这里出现了一种新兴趋势,一些工具承担了初级开发人员的全部角色,费用在每月500美元到4000美元之间(不是打字错误)。使用这些工具,您可以创建功能并要求它们构建这些功能,这些工具将进行Pull Requests并构建整个功能(大约每周两到三个),并检查代码和文档。这些工具包括Devin(具有不寻常的Slack集成)和Tempo Labs(基于浏览器的界面)。
5. UI 和开发工具
如果您正在构建一个全栈应用程序,过去依赖视觉设计师先构建用户交互,然后是线框图,最后是屏幕的日子已经一去不复返了。如果您希望独立构建应用程序的线框图和屏幕,这里有一些您应该熟悉并开始尝试的工具。
- v0.dev — 这是来自 Vercel 的工具,您可以输入图像、截图,甚至是 Figma 设计的链接或提供提示,它将为您生成整个屏幕,并提供 React 组件的代码。更好的是,您还可以选择设计中的对象,并使用 v0 对其进行迭代,最后获得一个 npx 命令,您可以用它在您的 React 项目中专门安装该组件。
- Bolt.new — 由 stackblitz 构建,Bolt.new 不仅允许您基于提示构建视觉屏幕,还可以构建整个应用程序,您可以将代码库连接到您的仓库,或者在对结果满意后下载整个代码,然后用它来构建其他功能。
- Lovable.dev — 与 Bolt.new 类似,这个工具目前也让您能够选择设计中的单个对象,并通过提示对其进行迭代。
- UI 屏幕和线框图 — 最后,如果您只想生成线框图和用户交互设计及屏幕,您还可以了解并使用像 uizard.io、relume 和 tempo labs 这样的工具。
- 除了与 UI 相关的工具,我还发现了一些其他节省时间的 AI 相关工具。例如,我使用 Openrouter 创建一个 API,这样我就可以在所有地方使用,而不必不断管理 OpenAI、Anthropic 和其他 LLM 密钥。我还使用 SingleStore 的 SqRL bot 生成 SingleStore 的 SQL 查询。此外,我有时还会使用 Warp,这是一个基于 Mac 的终端应用程序,您可以用英语提供指令,它会为您查找并运行终端命令。
- 最后,如果我不提及 Claude 的模型上下文协议 (MCP) 服务器,那我就失职了。您可以在这里了解更多信息 - https://github.com/modelcontextprotocol/servers
- 这是一个通过 Claude Desktop 自动化日常任务的惊人工具。如果您希望了解更多关于通过 Webhook 和其他触发器在不同应用程序之间自动化任务的低代码方法,我还强烈推荐您查看开源工具 n8n — n8n.io,它拥有丰富的连接器和代码片段生态系统,使后端工作比以往任何时候都更容易。
结论
在本文中,我们探讨了一些日常开发者生活中的广泛类别,并了解了一些工具和资源,以帮助您在2025年及以后成为一名以AI为首的开发者。如果您发现了我可能遗漏的任何有用的资源和工具,请分享您在开发工作流程中使用的内容。
✌️