Type something to search...

Blog Posts

构建基于多代理的 自动递归--计划、执行、再计划流程

构建基于多代理的 自动递归--计划、执行、再计划流程

本博客包含以下三个部分:问题陈述 解决方案方法 结论与参考文献问题陈述 计划、执行与重新计划过程在智能体解决方案的领域并不新鲜。自去年以来,我们一直在实施这些基于智能体的计划-执行-重新计划过程。 因此,当我的一位同事讨论实施这些过程的挑战时,我感到很有趣,因为我认为这是一个讨论得很充分的问题。 但是在与他交谈时,我理解了他计划要做的场景的性质和复杂性,我认

阅读更多
构建多代理互联网研究助手

构建多代理互联网研究助手

…使用 OpenAI Swarm 和 Llama 3.2(100% 本地)。让我们使用 OpenAI Swarm 和 Llama 3.2(100% 本地)构建一个多智能体互联网研究助手: 动手教程,构建一个多智能体互联网研究助手应用程序,该应用程序:接受用户查询。 在网上搜索相关信息。 并将其转化为一篇精心撰写的文章。我们在这个应用中使用了三个智能体:

阅读更多
打造您的社交媒体内容机器:CrewAI 的方法

打造您的社交媒体内容机器:CrewAI 的方法

实施 CrewAI 的分步指南 介绍🚀 AI 协作的力量有太多可以提供的。CrewAI旨在使AI代理能够承担角色、共享目标,并在一个紧密的单位中运作——就像一个运转良好的团队。 无论您是在构建一个智能助手平台、一个自动化的客户服务团队,还是一个多代理研究团队,CrewAI为复杂的多代理交互提供了基础。 如果您想深入了解CrewAI:

阅读更多
DeepSeek V3:超越竞争对手的开源大语言模型技术解析

DeepSeek V3:超越竞争对手的开源大语言模型技术解析

优于 Claude 3.5 Sonnet、GPT-4o、Llama3.1 405B 年末将至,刚刚,中国的 DeepSeek 发布了其开源模型 DeepSeek-v3,该模型在性能上超越了所有主要竞争者,包括 Claude3.5 Sonnet、GPT-4o、Qwen2.5 Coder 等等。该模型的表现如同怪兽,显然,我们可以说 DeepSeek-V3 是迄今

阅读更多
使用 Gemini 2.0 提取任何文档 | 使用 ExtractThinker 提取文档智能

使用 Gemini 2.0 提取任何文档 | 使用 ExtractThinker 提取文档智能

在本文中,我们将探讨 Google 的 Gemini 2.0 模型如何与 [ExtractThinker](https://github.com/enoch3712/ExtractThinker

阅读更多
我如何利用人工智能在几秒钟内从任何网站提取信息

我如何利用人工智能在几秒钟内从任何网站提取信息

使用 Langchain、OpenAI、Bright Data 和 NextJS 构建一个免费的 AI 工具,用于抓取、提取和分析数据。 “有用”的数据是任何成功企业进行明智决策和战略规划的基础。然而,真正的挑战不仅仅在于抓取数据——而在于从收集到的数据中提取有价值的信息。这一步通常需要大量的时间和精力,成为了过程中的瓶颈。 在本文中,您将学习如何构建一个不仅能提取网页数据,

阅读更多
如何使用 Streamlit 和 Llama 3.2-Vision 构建自己的 OCR 助手

如何使用 Streamlit 和 Llama 3.2-Vision 构建自己的 OCR 助手

通过示例学习 OCR(光学字符识别)是一种帮助自动化将图像转换为文本的工具。你一定在手机上使用过它,因为现在它非常普遍。从数字化文档到自动化业务工作流程,OCR 是许多现代解决方案的核心。在本指南中,我们将引导您使用 Streamlit、Llama 3.2-Vision 和 Ollama 创建一个简单但强大的 OCR 助手,因为为什么不参与机器学习模型的竞争呢。有趣的是,不

阅读更多
通过多模态 LLM 模型进行图像推理

通过多模态 LLM 模型进行图像推理

多模态人工智能 | LLM | OPENAI | GEMINI | 视觉 本博客探讨了多模态模型在图像推断中的能力,强调它们整合视觉和文本信息以改善分析的能力 多模态人工智能的出现显著改变了数据处理的格局。在过去,我们在光学字符识别(OCR)等任务中严重依赖文本提取库,如 PyTesseract。然而,视觉变换器和其他多模态模型的进步彻底改变了我们处理和解释数

阅读更多
Llm 微调指南:您是否需要以及如何进行微调

Llm 微调指南:您是否需要以及如何进行微调

在使用LLM时,我们最常收到的问题之一就是关于微调。每第二位客户都会问他们是否应该对他们的模型进行额外的训练。 在大多数情况下,答案是否定的,他们不需要。现代LLM在许多商业应用中已经足够好,无需微调,比如帮助客户从花店订购鲜花的机器人。此外,他们没有数据来进行微调,而他们拥有的20个对话样本并不算数(200个也是如此)。 训练和微调模型是一项昂贵的工作,如果可以的话,你真的应该避免它,

阅读更多
具有大型语言模型(LLM)的多代理人工智能架构

具有大型语言模型(LLM)的多代理人工智能架构

端到端多智能体实现与LLMs 多智能体架构由多个自主智能体组成,它们协作以完成复杂任务。随着LLMs的最新进展,这种架构已获得显著的关注。 这些智能体能够独立做出决策并执行行动。智能体由大型语言模型(LLMs)驱动。 多智能体架构的工作方式是,你不必指定每一个步骤,我们可以给它们一个目标,它们可以自行确定行动顺序。 这些架构被广泛应用于机器人技术、虚拟助手、协作决策和多模态处

阅读更多
Qwen QVQ-72B:最佳开源图像推理 LLM

Qwen QVQ-72B:最佳开源图像推理 LLM

阿里巴巴的视觉推理 LLM 所以,在2024年底之前,Qwen(由阿里巴巴推出)强势回归,发布了另一个开源 LLM,Qwen QVQ-72B,这是一个视觉推理 LLM,即一个推理模型(类似于 OpenAI-o1),支持对图像输入进行推理。 Qwen QVQ 是 Qwen2-VL 的改进版本,专注于视觉推理 谈谈它的关键特性: 1. 多模态融合**视觉与语

阅读更多
Qwen2.5:重新定义大型语言模型的效率

Qwen2.5:重新定义大型语言模型的效率

更智能地扩展和更好地学习与强化学习 语言模型的新纪元:介绍 Qwen2.5 基于大型语言模型(LLMs)的突破,Qwen2.5 处于提高效率和先进学习的最前沿。忠于其指导原则——“更聪明地扩展,更好地学习,通过强化学习”——Qwen2.5 被设计用来解决模型性能、与人类偏好的对齐以及成本效益等紧迫问题。 无论您是在探索基本的问答功能,还是在推动复杂的

阅读更多
你从未知道的 17 个令人惊叹的 GitHub 仓库

你从未知道的 17 个令人惊叹的 GitHub 仓库

Github 隐藏的宝石!! 立即收藏的代码库 学习编程相对简单,但掌握编写更好代码的艺术要困难得多。GitHub 是开发者的宝藏,那里“金子”是其他人分享的精心编写的代码。通过探索 GitHub,您可以发现如何编写更清晰的代码,理解高质量代码的样子,并学习成为更熟练开发者的基本步骤。 1. notwaldorf/emoji-translate *谁需

阅读更多
使用克劳德模型上下文协议(MCP)和外部工具的 6 个步骤

使用克劳德模型上下文协议(MCP)和外部工具的 6 个步骤

通过MCP集成GitHub和Brave Search来增强Claude桌面的功能 模型上下文协议 (MCP) 是由Anthropic开发的开放标准,使像Claude这样的AI模型能够安全地与各种数据源和工具进行交互。 ![](https://wsrv.nl/?

阅读更多
从自然语言到 SQL 生成的代理反射

从自然语言到 SQL 生成的代理反射

作者:Atul Varshneya, Toby Fotherby, Shweta Keshavanarayana 介绍 自然语言到 SQL (NL2SQL) 的转换有望为非技术用户普及数据访问。然而,这一过程充满了挑战。自然语言中的模糊性、数据库架构的变化、数据库中表的数量庞大以及 SQL 语法的复杂性常常导致不准确和/或低效的 SQL 查询生成。即使是先进的 AI 模型也难以

阅读更多
Categories
Tags
Type something to search...