Type something to search...

Blog Posts

使用 Gemini Pro 和 LangChain 的多模式 RAG

使用 Gemini Pro 和 LangChain 的多模式 RAG

介绍 在本教程中,我们将探索将 Gemini Pro 和 Gemini Pro Vision 与 LangChain 框架集成,以实现多模态(在这种情况下为图像)检索增强生成(RAG)。

阅读更多
OpenAI SearchGPT:带有互联网和浏览工具的ChatGPT

OpenAI SearchGPT:带有互联网和浏览工具的ChatGPT

一个更好的替代方案:Perplexity 和 Google 搜索 备受期待的 OpenAI 产品 SearchGPT 昨晚发布,拥有一些重大功能,使其在竞争对手 Perplexity 之上更进一步。 如 OpenAI 所宣布的,SearchGPT 不仅仅是带有互联网的 ChatGPT。 它本身就是一个 AI 网络浏览器。 谈到一些关键功能:高级过滤:为特定

阅读更多
全新 Gemini 1.5 FLASH 型号:绝对的 Google 游戏规则改变者

全新 Gemini 1.5 FLASH 型号:绝对的 Google 游戏规则改变者

他们的新 Gemini 1.5 Flash 模型远远超过了 GPT-4o,其能力令人难以置信。 闪电般快速。 比 GPT-4o 便宜 33 倍,但上下文容量大 700% — 100 万个令牌。 在现实世界中,100 万个令牌是什么概念?大约:超过 1 小时的视频 超过 30,000 行代码 超过 700,000 个单词![](https://i

阅读更多
采用 Phi-3-Vision-128K 的人工智能 OCR:文档处理的未来

采用 Phi-3-Vision-128K 的人工智能 OCR:文档处理的未来

在快速发展的人工智能领域,多模态模型正在为视觉和文本数据的整合设定新标准。最新的突破之一是 Phi-3-Vision-128K-Instruct,这是一个最先进的开放多模态模型,推动了AI在处理图像和文本方面的能力边界。该模型专注于文档提取、光学字符识别(OCR)和一般图像理解,能够彻底改变我们处理PDF、图表、表格以及其他结构化或半结构化文档的信息方式。 让我们深入探

阅读更多
OpenAI 放弃 Next.js 转而使用 Remix 的真正原因

OpenAI 放弃 Next.js 转而使用 Remix 的真正原因

OpenAI 采取行动背后的惊人原因及其对未来网页开发的影响 过渡介绍 OpenAI 最近在开发者社区引起了轰动,因为它从 Next.js 转向了 Remix。 这一意外的转变让许多人质疑如此重大变化的理由。 但 你能责怪他们吗? 以下是 大多数开发者对 NextJS 的看法,基于 [这篇](https://www.reddit.com/r/nextj

阅读更多
跨 ChatGPT、Claude、Perplexity 的统一内存

跨 ChatGPT、Claude、Perplexity 的统一内存

你一定会喜欢这个,特别是如果你已经与 Claude、ChatGPT 和 Perplexity 紧密联系在一起。 与不同的 AI 助手互动有时会感觉有些脱节。 在切换 ChatGPT、Claude、Perplexity 和其他助手时,你必须一遍又一遍地重复相同的上下文。 如果它们都能共享一个通用记忆以增强上下文,那该多好啊? 我发现了这个很棒的 Chrome 扩展,它对我来说真是个救星。

阅读更多
OpenAI 实时 API(语音模式),Colab 入门

OpenAI 实时 API(语音模式),Colab 入门

您需要了解的一切,以及在 Colab 上运行 OpenAI 语音模式 API 的动手介绍。 OpenAI 最新的开发为我们带来了 实时 API,旨在允许开发者在他们的应用中创建 快速、无缝的语音到语音体验。该 API 旨在简化多模态对话功能的开发,使构建自然的实时语音交互变得更加容易。 在这篇博客中, 我将涵盖有关此新 API 的 主要问题,包括

阅读更多
智能代理:Langchain、CrewAI 和 AutoGen 比较

智能代理:Langchain、CrewAI 和 AutoGen 比较

1. AI代理框架概述 在人工智能快速发展的领域,选择合适的框架是每个数据科学家和开发者必须做出的关键决策。AI代理生态系统正在迅速演变,提供越来越复杂的解决方案来自动化和优化复杂的流程。 智能代理革命带来了几种框架,每种框架都有其独特的特点。Langchain、CrewAI、AutoGen和Swarm在这个场景中脱颖而出,各自提供了管理和协调AI代理的独特方法。 本次基准

阅读更多
使用 FastAPI、Groq 和 Replicate 的 AI 图像生成器和故事生成应用程序

使用 FastAPI、Groq 和 Replicate 的 AI 图像生成器和故事生成应用程序

项目介绍:AI 图像生成器和故事创作工具 AI 图像生成器和故事创作工具是一个网络应用程序,利用先进的 AI 技术为用户提供一个基于音频提示生成图像和故事的互动平台。该应用程序使用 FastAPI 作为后端,能够高效处理请求和响应,而前端则采用 HTML、CSS(DaisyUI 和 Tailwind CSS)和 JavaScript 构建,以提供响应式用户体验。该应用程序利用 lla

阅读更多
克服医疗领域的法学硕士挑战:生产发展实用策略

克服医疗领域的法学硕士挑战:生产发展实用策略

生成性人工智能 我遇到的最常见的LLM开发挑战、有效的缓解策略以及一个职业生涯中决定性的面试错误 引言 我一直是那种深入研究一个主题并专注到痴迷的人。当我从数据科学硕士毕业时,我的痴迷是计算机视觉;特别是将计算机视觉应用于神经科学或心理健康领域。我决心成为心理健康领域的“计算机视觉工程师”(不过“机器学习工程师”也可以),尽管我的导师们劝我拓宽视野,寻找更多机会。

阅读更多
Atomic Agents 1.0 简介:构建 Agentic AI 的模块化框架

Atomic Agents 1.0 简介:构建 Agentic AI 的模块化框架

想象一下,构建 AI 应用程序就像组装乐高积木一样轻松。这就是 Atomic Agents 的理念,一个基于 Atomic Design 原则的模块化框架,用于构建 AI 代理。随着 1.0 版本 的发布,Atomic Agents 引入了一个强大的 CLI,称为 **Ato

阅读更多
文物:Claude 3.5 Sonent 最令人惊叹的用途

文物:Claude 3.5 Sonent 最令人惊叹的用途

Anthropic 最近推出了其最先进的 LLM,“Claude 3.5 Sonnet”,让人惊叹。社交媒体上的人们称这一模型为当前最先进的 LLM。这个 AI 模型在性能上超越了所有现有的 LLM,例如 GPT-4、GPT-4o mini、Llama 3 等等。Claude 3.5 Sonnet 的上下文窗口为 200K,最大输出为 8192 个 tokens。它可以生成一个包含大

阅读更多
LongRAG:让人工智能在信息海洋中捕捞更多鱼

LongRAG:让人工智能在信息海洋中捕捞更多鱼

在 我之前的文章 中,我介绍了RAG是否会因长上下文LLMs而变得过时。今天,让我们看看如何将长上下文LLMs应用于RAG场景。 在检索增强生成(RAG)领域,传统方法一直依赖于短检索单元,通常约为100个单词,这迫

阅读更多
可视化你的 RAG 数据——使用 Ragas 评估你的检索增强生成系统

可视化你的 RAG 数据——使用 Ragas 评估你的检索增强生成系统

如何使用 UMAP 降维将嵌入可视化以展示多个评估问题及其与源文档的关系,结合 Ragas、OpenAI、Langchain 和 ChromaDB 检索增强生成(RAG)在 LLM 的工作流程中增加了一个检索步骤,使其能够在回答问题和查询时,从私人文档等额外来源查询相关数据 [1]。该工作流程不需要对额外文档进行昂贵的训练或微调。文档被拆分成片段,然后进行索引,通常使用紧凑的 M

阅读更多
Agentic RAG 如何解决当前 RAG 限制的问题

Agentic RAG 如何解决当前 RAG 限制的问题

在本卷咖啡休息概念的第 4 期中,我们将了解 AgenticRAG 如何帮助解决传统 RAG 的限制。 RAG框架 RAG(检索增强生成)框架按特定顺序操作: 文档 -> 片段 -> 向量数据库 -> 片段检索(前K个) -> LLM 然而,这一顺序在处理某些类型的查询时会遇到障碍。 问题 1:摘要 考虑一个查询,比如“总结文档”。传统

阅读更多
Tags