Natural language processing
DeepSeek-R1-Lite-Preview:人工智能推理的新时代
人工智能(AI)在突破界限方面并不陌生,但偶尔会出现一些创新,让我们停下脚步,仔细关注。其中一个创新就是 DeepSeek-R1-Lite-Preview,这是由中国AI实验室 DeepSeek 开发的先进推理AI模型。该模型不仅提升了推理能力的标准,还在基准测试中取得了令人印象深刻的成绩,使行业巨头如OpenAI也感受到了压力。 在本文中,我们将更深入地了解De
阅读更多DeepSeek-R1-Lite 预览版的推理能力如何?
DeepSeek-R1-Lite-Preview (R1LP) 是中国公司 DeepSeek 最近发布的一款 LRM(大型推理模型)。根据该模型的 发布说明,R1LP 在多个数学和推
阅读更多免费商用TTS模型:Kokoro TTS,让你的应用声动全球!
在文本转语音(TTS)技术的突破性发展中,Kokoro TTS模型已成为首个免费且可商业使用的TTS解决方案。Kokoro TTS建立在广受欢迎的开源StyleTTS框架之上,提供了无与伦比的灵活性和功能,适用于多种使用场景。让我们来探讨一下这个模型的独特之处、它的特点以及如何充分利用它。 什么是 TTS? TTS,即文本转语音,是一种将书面文本转换为口语的技术。它广泛应用于以
阅读更多惊艳来袭!Mini MiniCPM-o 2.6:超越GPT-4o的8B参数多模态LLM!
在一项突破性的进展中,Mini CPM-o 在多模态大型语言模型 (LLM) 的世界中引起了轰动。凭借其 8 亿参数架构,它不仅在多个基准测试中超越了 GPT-4o,还在视觉、音频和其他多模态功能上与其相媲美。让我们深入探讨这一激动人心的发布、它的能力、安装过程和使用案例。 MiniCPM-o 2.6: 是什么? MiniCPM-o 2.6: 是一种先进的多模态 L
阅读更多使用代理为 NPC 注入活力 | 作者:MichaelT Shomsky | 2024年12月 | Medium
- Rifx.Online
- Programming , Roleplay , Natural Language Processing
- 20 Jan, 2025
大纲模拟2D社会 创建一个2D俯视视角的平台游戏 设置具有个人历史的非玩家角色 开始一个框架,以允许NPC在2D可玩空间中自我行为 Github仓库 结果/结论模拟二维社会 模拟世界对我来说非常重要,以至于在我本科时,我为一个物理小组模拟了聚合物,并为我的导师小组编写了自由空间中的光传播代码。这种“想要模拟”的愿望无疑受到我荣誉工程课程的指导;因
阅读更多代理混合搜索如何创建更智能的 RAG 应用程序
By Ryan Michael 如果您正在构建一个 [retrieval-augmented generation (RAG)](https://www.datastax.com/guides/what-is-retrieval-augmented-generation?utm
阅读更多开发人员 2025 年人工智能入门路线图
在我上一篇文章中,我写了关于初学者学习 AI 的路径,试图揭开其工具和日常任务应用的神秘面纱。 这次,我们将大幅度转向。 想象一下,完全独立构建、部署甚至货币化 SaaS 应用程序,但你不知道从哪里开始。本文主要面向寻找指南或课程的初级开发者,将介绍一些关键概念、工具和策略,帮助你入门。 和往常一样,我将文章组织成几个大类别和主题,这些内容并不需要按顺序阅读,所以如果你已经熟悉某些
阅读更多Sky-T1-32B-预览:开源 LLM 性能优于 OpenAI-o1
UC Berkeley的Sky-T1–32B-预览详情 所以,首个大型生成性AI发布来了,UC Berkeley开源的LLM Sky-T1–32B在数学和编码基准测试中超越了OpenAI的o1。 什么是 Sky-T1–32B-Preview? 它是一个 32-亿-参数推理模型,旨在在数学推理和编码任务中表现出色。 关键特性 1\
阅读更多Smolagents + Web Scraper + DeepSeek V3 Python = 强大的人工智能研究代理
- Rifx.Online
- Programming , Natural Language Processing , Chatbots
- 19 Jan, 2025
在这段视频中,我将快速演示如何使用 Smolagents、Web Scraper 和 DeepSeek V3 创建一个多代理聊天机器人,为您的业务或个人使用提供强大的代理聊天机器人。 如果您关注 AI 社区,您可能已经注意到许多关于 Nvidia 的病毒视频,其中宣布的 AI 代理价值十亿美元,或者您可能听说过 Zark 说我们明年不会招聘中级工程师。 我问自己,这怎么会发生?当我开
阅读更多有了这个简单的小窍门,我的 GPT 评估器的性能提高了 1000%。
我希望我早就知道这个技巧。 我的所有文章都是免费阅读的。[非会员可以通过点击此链接免费阅读。](https://readmedium.com/my-gpt-evaluator-performance-improved-by-1000-with-this-simple-trick-2384027734c6?sk=73f3395c748fcd636d7d907876c02c
阅读更多扎克伯格预测:到 2025 年,人工智能将像工程师一样编码
- Rifx.Online
- Programming , Natural Language Processing , Ethics
- 14 Jan, 2025
在技术以惊人速度发展的时代,Meta的创始人马克·扎克伯格做出了一个大胆的预测:到2025年,人工智能将像中级工程师一样进行编码。这一声明在科技巨头和初创企业的走廊中回响,描绘了一个未来的图景,在这个图景中,人工智能不仅仅是开发者工具箱中的一个工具,而是工程团队的全职成员。 AI在编码中的曙光 设想一个世界,在这个世界里,编码的琐碎任务由一个与普通中级工程师同样出色的AI系统来
阅读更多为结构化和非结构化数据构建图形 RAG。
RAG 架构迄今为止是解决 LLM 缺乏上下文化的最适应和复杂的解决方案。通过 RAG,几乎不需要微调,就在很大程度上解决了使用未训练知识库的 LLM 所面临的问题。 尽管向量 RAG 可以建立上下文化,但其能力是有限的。在复杂的关系和高度互联的数据中,向量 RAG 的召回率并不令人印象深刻。其主要原因之一是构成知识库的简单向量嵌入,仅考虑几何接近性。 另一方面,图形天生结构化,以捕
阅读更多使用 PydanticAI 创建人工智能代理 CRUD 应用程序:逐步进行
很高兴再次回到 Skolo Online!在我们2025年的第一篇教程中,我们将深入探讨 PydanticAI。在本文中,我们将涵盖以下内容:如何开始使用 Pydantic AI — “你好,世界”教程 设置 PostgreSQL 数据库 更复杂的 PydanticAI 实现,其中两个代理协同工作以执行用户请求。代理 1 理解用户意图,代理 2 执行该意图。最后,我们
阅读更多使用 LangGraph 构建 RAG 研究多重代理
❓引言 — 天真的 RAG 与 代理 RAG 🧠 项目概述 📊 结果 🔚 结论在本文中,我们介绍了一个实用项目,使用 LangGraph 开发了一个 RAG 研究多代理 工具。该工具旨在解决需要 多个来源 和 迭代步骤 才能得出最终答案的 复杂问题。它采用 混合搜索 和 Cohere **重新排序步
阅读更多简化的人工智能代理:人工智能代理如何利用领域知识回答问题
揭秘企业AI代理如何利用领域知识定制回答客户问题,并严格限制答案在领域知识范围内。 背景 你是否曾想过,今天最先进平台上的尖端 AI 代理是如何运作的?例如,在上面的截图中,我向 wealthsimple.com 的 AI 代理询问利率问题,它提供了特定于 Wealthsimple 产品的答案,并将其限制在 Wealthsimple 产品范围内。它没有告诉我美国银行的现
阅读更多释放人工智能的潜能:思维链提示的力量
- Rifx.Online
- Generative AI , Chatbots , Natural Language Processing
- 14 Jan, 2025
像人类一样思考的AI 你是否曾对ChatGPT能够迅速回应感到惊讶,但又对其回答有时显得肤浅或不完整感到失望?你可能会得到一个完美的事实或快速的解决方案,但你会想知道——它是如何得出这个结论的? 这就是**思维链提示(CoT)**的用武之地。 想象一下你正在解决一个数学问题。你不会只是喊出一个答案——你会一步一步地进行推理。CoT对AI的工作方式也是如此。它教会像Cha
阅读更多多模态人工智能助手:结合本地模型和云模型
使用 LangGraph、mlx 和 Florence2 构建一个能够回答复杂图像问题的智能体,支持本地运行。 *在本文中,我们将结合 LangGraph 和多个专业模型,构建一个基础的智能体,能够回答有关图像的复杂问题,包括图像描述、边界框和 OCR。最初的想法是仅使用本地模型构建,但经过一些迭代后,我决定添加对基于云的模型(即 GPT4o-mini)的连接,以获得更可靠的
阅读更多惊人进化!用Gemini 2.0与LangGraph构建您的多工具自主代理!
一个实用的教程,包含完整代码示例,用于构建和运行多工具代理 大型语言模型(LLMs)非常出色——它们可以记忆大量信息,回答常识性问题,编写代码,生成故事,甚至修正你的语法。然而,它们并非没有局限性。它们会幻觉,知识截止日期可能从几个月到几年不等,并且仅限于生成文本,无法与现实世界互动。这限制了它们的实用性,尤其是在需要实时数据、来源引用或超出文本生成功能的任务中。这
阅读更多构建惊艳的文本分析管道!LangGraph的奇妙能力揭秘!
在本文中,我将向您介绍 LangGraph,这是一个用于构建基于图的工作流的应用程序的令人难以置信的框架,这些工作流在其他情况下将是不可行的。我将分享我对 LangGraph 的经验,它的重要特性,并最终创建一个文本分析管道,以展示 LangGraph 的能力。 理解 LangGraph 本质上,LangGraph 是围绕图形工作流程的概念构建的,其中每个节点作为特定的过程或
阅读更多用于情感分类的传统人工智能与生成式人工智能
5种文本分类的方法(即使没有训练数据) 介绍 本文重点讨论来自Flipkart客户评论数据集的产品评论情感分析。 情感分析是自然语言处理(NLP)中的一项关键任务,
阅读更多Google Chrome AI转型大揭秘:你的上网体验将惊艳升级吗?
1. Chrome中的Google Lens - 将词汇添加到您的Google Lens搜索中- 在不离开标签页的情况下选择、搜索和询问网络上的任何内容。
阅读更多使用人工智能代理进行数据探索:使用 SmolAgents 探索泰坦尼克号数据集
十年前,当我开始我的机器学习之旅时,和许多人一样,我是从泰坦尼克号数据集开始的。我清晰地记得进行第一次探索性数据分析(EDA)的兴奋,发现模式和关联。快进到今天,数据分析的格局已经以我无法想象的方式演变。在这个智能AI的时代,我们现在可以将大部分的EDA委托给智能代理。问题不再是我们能否自动化EDA?而是我们能将这些能力推向多远? 简短的回答是:相当远。借助由尖端AI模型驱动的
阅读更多精细调优大语言模型:揭开HuggingFace的神秘面纱!如何克服GPU内存束缚?
每次大型语言模型 (LLMs) 的新公告往往将性能推向新的高度,常常超越之前的基准(例如,巨量多任务语言理解或 MMLU)。这一进展激发了许多应用程序的出现,利用最大的和最优秀的模型。在我们之前的帖子中,我们讨论了 LLMs 的规模法则,并解释
阅读更多Phi-4:微软最新的小语言模型,专门用于复杂推理
Phi-4: 一款重新定义现实世界应用的紧凑型强大AI推理模型 微软的Phi-4在小型语言模型领域代表了一项显著的进步,能够在复杂推理任务中表现出色,同时保持紧凑高效的架构。与其更大型的同行不同,Phi-4专注于为那些需要高级问题解决能力的用例提供精确、细致的输出,而不会对计算资源造成过大压力。 本博客将探讨Phi-4的架构、基准测试、实际应用,以及在本地或Azure
阅读更多探索 DeepSeek 第 3 版:技术概览
DeepSeek 版本 3 的发布在 AI 社区引发了相当大的兴奋,得益于其卓越的能力和成本效益。作为一个在中国开发的先进开放权重大型语言模型 (LLM),它利用专家混合 (MoE) 架构来优化性能,在处理过程中仅激活其 6710 亿参数中的 370 亿。多头潜在注意力 (MLA)、FP8 混合精度和多令牌预测等创新进一步提升了其效率和有效性。DeepSeek V3 在 MMLU-Pro、M
阅读更多2025 年最著名的 21 个 RAG 框架
通过高级检索增强生成技术革新人工智能 披露:我使用GPT搜索。整篇文章仍由我草拟。我的写作风格倾向于自信和分析性,相比之前的文章,不依赖于ChatGPT辅助写作。感谢您与我一起参与这段旅程,我希望在未来几年继续为您提供价值!通过支持我来提供建议。 截至2025年1月4日, 免责声明:[类似](https://sebastian-petrus.medium.
阅读更多掌握 CrewAI:第 6 章--记忆基础 | 作者 Okan Yenigün | 2025 年 1 月 | 中
CrewAI中的内存类型 在CrewAI中,内存系统通过使AI代理能够记住、推理和从过去的互动中学习来增强其能力。 前一章: 该系统由几个关键组件组成:短期记忆:该组件暂时存储最近的互动和结果,使代理能够在进行中的任务中回忆相关信息。例如,它有助于通过回忆刚刚讨论过的内容来保持对话的一致性。使用RAG。 长期记忆:它作为过去互动中有价值的见解和学
阅读更多掌握CrewAI秘籍 3:如何让你的AI代理获取知识,实现智能对话?
知识 — CrewAI 在 CrewAI 中,“知识”是允许 AI 代理在执行任务时访问和利用外部信息源的系统。我们可以把它看作是为我们的代理提供了一个参考图书馆,以便在工作时咨询。文本来源:原始字符串、文本文件、pdf 等… 结构化数据:CSV、excel、json 等…上一章: 让我们创建一个新项目来使用“知识” (*openai >> gpt-4o
阅读更多2025年冲击AI领域!6个月掌握LLM的必经之路!
作为一名从电子工程背景转型为专注于大型语言模型(LLMs)和生成式AI的数据科学家,我理解进入AI领域的挑战与兴奋。到2025年,行业格局与我开始旅程时有了显著变化。让我分享一个实用的学习路径,无论您是全新起步还是从其他领域转型。结合我自身的经历和行业经验,我将重点介绍在当今AI领域中最重要的技能和知识。 为什么在2025年关注大型语言模型(LLMs)? 当我开始转向人工智能领域时
阅读更多2025 年学习人工智能的最快方法
为什么短期有效时还要选择长期? 本博客旨在为您提供一条清晰的捷径,让您在AI领域入门的同时探索新的AI产品,以保持您的动力。我不会包含令人不知所措的建议,比如“嘿,您应该开始学习Python,因为它是最常见和流行的编程语言……”或任何图表,如下所示: 大多数搜索**“如何学习AI”**的人立刻会面临诸如ML和DL等术语,这可能会让人感到沮丧,并使AI看起来很困难。然而
阅读更多OpenAIs Swarm(第二部分):使用 Ollama 和 Pydantic 的直接、本地优先方法
- Rifx.Online
- Programming , Natural Language Processing , Chatbots
- 03 Jan, 2025
一个简短的代码参考以供构建。 TLDR: 结合Ollama和Swarm框架,呈现了一种以本地为优先的构建智能AI代理的方法。 Ollama可以在本地运行大型语言模型,确保隐私和控制,而Swarm则提供了一个结构化的环境,用于设计和管理AI代理。 我们以第一性原理的编程方法强调简单性和高效性,避免使用带来不必要抽象的复杂框架,从而增加使用的tokens数量,并延迟首次tok
阅读更多DeepSeek V3:超6710亿参数挑战ChatGPT,如何颠覆AI市场?
- Rifx.Online
- Natural Language Processing , Machine Learning , Ethics
- 29 Dec, 2024
Ali Shaker- 中国初创公司DeepSeek凭借其大型语言模型DeepSeek V3在全球AI界引起了广泛关注。该模型拥有6710亿参数,声称能够与OpenAI的GPT-4、Meta的Llama 3.1和Claude 3.5 Sonnet等重量级竞争对手抗衡。更引人注目的是
阅读更多揭开DeepSeek-V3的神秘面纱:如何以超低成本提升大语言模型的推理效率?!
介绍 DeepSeek-V3 已成为开源爱好者和企业用户的新重磅产品。该模型由一家中国的人工智能研究公司开发,致力于“开源精神 + 长期主义以实现包容性AGI”,旨在缩小封闭源巨头(如 GPT-4o 和 Claude-Sonnet-3.5\)与开源社区之间的差距。 DeepSeek-V3 采用 Mixture-of-Experts (MoE) 设
阅读更多提升LLM输出质量的简单技巧!如何达到1000%的进步?
我希望我能更早知道这个技巧。 去年夏天我在Adobe Research(班加罗尔)实习时,我的工作是使开源LLM更符合上下文。这意味着无论提供的上下文说了什么,LLM都需要遵循它。 ![](https://wsrv.nl/?url=https://cdn-images-1.readmedium.com/v2/resize:fit:800/1*TlgNYgNqVrW_L766nw2r
阅读更多DeepSeek V3:超越竞争对手的开源大语言模型技术解析
优于 Claude 3.5 Sonnet、GPT-4o、Llama3.1 405B 年末将至,刚刚,中国的 DeepSeek 发布了其开源模型 DeepSeek-v3,该模型在性能上超越了所有主要竞争者,包括 Claude3.5 Sonnet、GPT-4o、Qwen2.5 Coder 等等。该模型的表现如同怪兽,显然,我们可以说 DeepSeek-V3 是迄今
阅读更多通过多模态 LLM 模型进行图像推理
多模态人工智能 | LLM | OPENAI | GEMINI | 视觉 本博客探讨了多模态模型在图像推断中的能力,强调它们整合视觉和文本信息以改善分析的能力 多模态人工智能的出现显著改变了数据处理的格局。在过去,我们在光学字符识别(OCR)等任务中严重依赖文本提取库,如 PyTesseract。然而,视觉变换器和其他多模态模型的进步彻底改变了我们处理和解释数
阅读更多Llm 微调指南:您是否需要以及如何进行微调
在使用LLM时,我们最常收到的问题之一就是关于微调。每第二位客户都会问他们是否应该对他们的模型进行额外的训练。 在大多数情况下,答案是否定的,他们不需要。现代LLM在许多商业应用中已经足够好,无需微调,比如帮助客户从花店订购鲜花的机器人。此外,他们没有数据来进行微调,而他们拥有的20个对话样本并不算数(200个也是如此)。 训练和微调模型是一项昂贵的工作,如果可以的话,你真的应该避免它,
阅读更多具有大型语言模型(LLM)的多代理人工智能架构
端到端多智能体实现与LLMs 多智能体架构由多个自主智能体组成,它们协作以完成复杂任务。随着LLMs的最新进展,这种架构已获得显著的关注。 这些智能体能够独立做出决策并执行行动。智能体由大型语言模型(LLMs)驱动。 多智能体架构的工作方式是,你不必指定每一个步骤,我们可以给它们一个目标,它们可以自行确定行动顺序。 这些架构被广泛应用于机器人技术、虚拟助手、协作决策和多模态处
阅读更多Qwen QVQ-72B:最佳开源图像推理 LLM
阿里巴巴的视觉推理 LLM 所以,在2024年底之前,Qwen(由阿里巴巴推出)强势回归,发布了另一个开源 LLM,Qwen QVQ-72B,这是一个视觉推理 LLM,即一个推理模型(类似于 OpenAI-o1),支持对图像输入进行推理。 Qwen QVQ 是 Qwen2-VL 的改进版本,专注于视觉推理 谈谈它的关键特性: 1. 多模态融合**视觉与语
阅读更多Qwen2.5:重新定义大型语言模型的效率
更智能地扩展和更好地学习与强化学习 语言模型的新纪元:介绍 Qwen2.5 基于大型语言模型(LLMs)的突破,Qwen2.5 处于提高效率和先进学习的最前沿。忠于其指导原则——“更聪明地扩展,更好地学习,通过强化学习”——Qwen2.5 被设计用来解决模型性能、与人类偏好的对齐以及成本效益等紧迫问题。 无论您是在探索基本的问答功能,还是在推动复杂的
阅读更多使用 Gemini 2.0 通过多模态实时 API 构建实时聊天应用程序
- Rifx.Online
- Programming , Chatbots , Natural Language Processing
- 27 Dec, 2024
Gemini 开发教程 谷歌推出了 Gemini 2.0 及其预览模型 Gemini 2.0 Flash Experimental,您一定通过视频和文章了解过它。该模型在所有基准测试中大幅超越了其前身 Gemini 1.5 Pro,并且对所有人免费使用,但在 Google AI Studio 中有一些限制。如果您对 Gemini 2.0 有经验或看过关于 Google
阅读更多从自然语言到 SQL 生成的代理反射
作者:Atul Varshneya, Toby Fotherby, Shweta Keshavanarayana 介绍 自然语言到 SQL (NL2SQL) 的转换有望为非技术用户普及数据访问。然而,这一过程充满了挑战。自然语言中的模糊性、数据库架构的变化、数据库中表的数量庞大以及 SQL 语法的复杂性常常导致不准确和/或低效的 SQL 查询生成。即使是先进的 AI 模型也难以
阅读更多超越 Text2SQL:自然语言数据库查询的新领域
介绍 TAG,一个用于复杂问题回答的统一模型 缩小人工智能与数据库之间的差距 承诺与瓶颈 人工智能(AI)正在迅速改变我们与数据互动的方式。强大的语言模型(LMs)的出现为以更自然和直观的方式查询和分析信息开辟了新的可能性。想象一个世界,你可以用简单的英语提问,系统就能从庞大的数据库中检索到你所需的确切信息。这就是AI驱动的数据交互所带来的承诺。 然而,存在
阅读更多Claude与Neo4j的动态数据交互与模型上下文协议应用
赋予 LLM 知识图谱的能力,使用 Anthropic 的模型上下文协议 上周,Anthropic 发布了一个新的 模型上下文协议 (MCP),使得像 Claude 这样的 LLM 能够与外部数据源进行通信。 该协议允许本地应用程序,如 Claude.ai、Zed、R
阅读更多对话式商业智能:Text2SQL 的挑战与解决方案
用自然语言查询 SQL 数据库/数据仓库的艺术 介绍 BI的未来是对话式的 — 这是Gartner和其他分析师在过去几年中告诉我们的。对话式BI在赋能业务用户自主查询数据存储(使用自然语言)方面具有巨大的潜力,无需依赖数据工程团队。随着大型语言模型(LLMs)的出现,我们似乎已经达到了一个转折点。让我们首先了解实现Text2SQL的挑战。 Text2SQL 挑战
阅读更多从帖子到报告:利用 LLM 进行社交媒体数据挖掘
如何指导LLMs过滤餐厅帖子并提取对业务增长至关重要的见解。 应用概述 我们正处于自动化的黄金时代,这得益于大型语言模型(LLMs)的崛起。从改变行业到解锁无尽的应用,LLMs彻底改变了我们与数据的互动方式,主要通过自然语言。 在本文中,我将向您展示如何指示LLM穿透社交媒体的噪音,提取最重要的信息。具体来说,我们将深入探讨如何挖掘Instagram上的餐厅帖子,以
阅读更多我如何利用 ChromaDB 和 Chainlit 构建基于 Graph-RAG 系统的 LLM 应用程序
一个端到端的应用,带有 GUI,并且仅用 3 个脚本将新知识存储在向量数据库中 大型语言模型(LLMs)和知识图谱是处理自然语言的宝贵工具。检索增强生成(RAG)作为一种强大的方法,能够通过上下文知识增强 LLM 的响应。上下文知识通常嵌入并存储在向量数据库中,用于创建上下文以增强提示。然而,这种方式下,知识被映射在一个概念空间中,但并没有真正组织起来。知识图谱捕捉了领域内数据点或实体
阅读更多我如何修复提示,让人工智能每次都能做出无懈可击的回应
当ChatGPT首次推出时,几乎每个行业和职业的提示模板都涌入了互联网。你可能见过类似“最佳[N] ChatGPT提示用于[行业/职业]”的帖子。 这些帖子帮助许多人接触到AI工具,使得提问和获得答案变得简单。然而,现在我们中的大多数人已经掌握了这一点,并希望进一步推进。简单的提示会导致简单的结果,因此我们开始撰写更详细和复杂的提示。 然而,这也带来了挑战:有时,“AI”根本
阅读更多如何使用 CrewAI 和 Langchain 构建代理 RAG
在快速发展的 AI 领域,提供准确、上下文感知的用户查询响应能力是一个游戏改变者。检索增强生成(RAG)作为一种强大的范式,结合了从外部来源检索相关信息与大型语言模型(LLMs)的生成能力。然而,随着查询变得越来越复杂和多样化,静态 RAG 设置可能并不总是足够。这就是 Agentic RAG 发挥作用的地方。 Agentic RAG 引入了一个智能的模块化框架,其中专门的代理协同
阅读更多如何使用人工智能免费抓取和分析数据:从收集到洞察
学习如何结合网络爬虫、代理和人工智能语言模型来自动化数据提取,轻松获得可操作的洞察。 虽然有些网站可以通过使用Selenium、Puppeteer等工具轻松抓取,但其他实施了先进安全措施的网站,如验证码和IP封禁,可能会变得困难。为了克服这些挑战,并确保您可以免费抓取99%的网站,您将在本文中构建一个集成[代理工具](https://get.brightdata.com/bd-
阅读更多MarkItDown:LLMs 项目必备的强大工具包,已通过 OpenAI 和 Gemini 2.0 测试
MarkItDown 是微软开发的一款多功能工具,可以将各种文件格式转换为 Markdown,使其成为从事大型语言模型(LLMs)开发人员的必备工具。无论您想利用文档进行微调还是创建提示前言,这都是您不可或缺的工具。让我们看看如何在 OpenAI 和 Gemini 模型的实际应用中利用它。 核心能力 该 [toolkit](https://github.com/microso
阅读更多多模态多语言视觉描述技术:基于Llama 3.2与NLLB-200的图像视频分析方法
使用Meta的Llama 3.2 11B Vision Instruct、Facebook的600M NLLB-200和LLaVA-Next-Video 7B模型生成多语言图像和视频标题、描述标签以及情感分析。 视频: 可口可乐公司,1971年,“Hilltop”广告, featuri
阅读更多OpenAI新语言模型O3与O3-mini的潜力与挑战
- Rifx.Online
- Natural Language Processing , Generative AI , Ethics
- 26 Dec, 2024
我一直密切关注 OpenAI 的更新,兴奋地分享一些最新消息:OpenAI 刚刚宣布了他们最新的两个语言模型 O3 和 O3-mini。在观看了最近的演示并深入了解它们的能力后,我不禁觉得这些模型有潜力彻底改变我们使用 AI 创建内容、翻译语言和回答问题的方式。在这篇文章中,我将介绍我对 O3 和 O3-mini 的了解,它们的优点和局限性,以及它们可能如何重塑基于语言的技术的未来。
阅读更多人工智能驱动的用户体验的崛起:2025 年平衡自动化与以人为本的设计
如果有一样东西正在改变我们在2024年创造用户体验(UX)设计和进行研究的方式,那绝对是人工智能(AI)。UX专家已经以某种方式将AI融入了他们的日常生活中。这是无可否认的。 在本文中,我们将主要关注AI驱动的UX如何影响并将继续影响现代商业世界。从新的UX相关技术和自动化到个性化。我们将从概述开始,探讨AI如何承担分析用户数据和自动原型制作等任务,以帮助专业人士与用户在情感层面上建立联系
阅读更多利用长期持久内存和原子代理打造更智能的人工智能代理
任何 AI 助手中最有用的功能之一无疑是拥有 持久的长期记忆。无论目标是了解用户更多信息、根据用户偏好调整 AI 的行为,还是记住重要事件,为您的 AI 助手 / 代理 / … 提供某种形式的 长期持久记忆存储 是实现这一目标的核心需求之一。 在我们深入之前:我们将使用 [Atomic Agents](https://github.com/Bra
阅读更多DeepSeek-VL2:利用专家视觉语言混合模型促进多模态理解
DeepSeek-VL2 在视觉语言模型领域代表了一个重要的飞跃,提供了先进的多模态理解能力。这一创新系列的大型混合专家(MoE)视觉语言模型在其前身 DeepSeek-VL 的基础上,提供了在广泛任务中的卓越性能。让我们深入探讨 DeepSeek-VL2 的关键方面,探索其架构、能力和潜在应用。在开始之前,如果您正在寻找一个一体化的 AI 平台,可以在一个地方管理您所有的 A
阅读更多构建一个能写入 Google 文档的研究助手(第 2 部分)
- Rifx.Online
- Programming , Technology , Natural Language Processing
- 19 Dec, 2024
可能对你的作业有所帮助的工具 ***本文是两部分系列的第二部分,我们使用 LangGraph 和 Tavily 构建一个简单的研究代理,该代理可以撰写和完善短文。为了跟踪它生成的计划、文章和评论,我们增加了以编程方式创建和编辑 Google Docs 的能力。在第一篇文章中,我们构建了代理。现在我们将构建文档连接。你可以在 [这里](https://github.com/rma
阅读更多建立一个能写入 Google 文档的研究代理(第 1 部分)
可能帮助您完成作业的工具 ***本文是两部分系列的第一部分,我们将使用 LangGraph 和 Tavily 构建一个简单的研究助手,该助手编写和完善短文。为了跟踪它生成的计划、文章和评论,我们添加了程序化创建和编辑 Google Docs 的功能。在本文中,我们将重点关注助手,将文档连接的内容留到第二篇文章。您可以在 [这里](https://github.com/rmart
阅读更多Qwen2-VL:本地运行的视觉语言模型
这是对「Qwen2-VL」的介绍,这是一种可以与 ailia SDK 一起使用的机器学习模型。您可以轻松使用此模型创建 AI 应用程序,利用 ailia SDK 以及许多其他现成的 ailia MODELS.
阅读更多如何根据自己的数据微调 Llama-3.2:详细指南
介绍 Meta发布的Llama-3.2系列在开源AI领域标志着一个重要的里程碑。到目前为止,该系列中下载量最多的模型是臭名昭著的meta-llama/Llama-3.2–11B-Vision-Instruct。不幸
阅读更多如何使用结构化生成进行法律硕士即法官评估
结构化生成是构建复杂的多步骤推理代理在LLM评估中的基础——尤其是对于开源模型 披露:我是Opik的维护者,这是本文后面使用的开源项目之一。 在过去几个月里,我一直在为语言模型开发基于LLM的评估(“LLM作为评判者”指标)。到目前为止,结果非常令人鼓舞,尤其是在像幻觉检测或内容审核这样的评估中,这些
阅读更多使用 ChatGPT 4o 的视觉分析逐步生成旅程中期提示
你是否有过这样的感觉:想要创建完美的 Midjourney 提示,但言辞却无法表达你脑海中的想法?我也经历过这样的时刻。在无数小时的实验后,我发现了一种改变游戏规则的方法:利用 ChatGPT 4o 的视觉能力分析参考图像并生成精准的提示。 让我分享我的旅程和我使用的确切过程。相信我,这将改变你创建 AI 艺术的方式。 灵光一现 💡 我曾经花费数小时描述我想要的内容给 Mi
阅读更多小模型在法律硕士时代的作用
近期的一项研究广泛探讨了小型语言模型(SLMs)在现代人工智能中的作用。该研究对SLMs进行了全面分析,重点探讨了它们的能力、应用及潜在优势,尤其是在与大型模型的对比中。 本研究强调了在需要效率和可解释性的领域中SLMs的重要性,同时也讨论了在大型模型不切实际的具体任务中它们的相关性。 最近的一项研究通过两个角度:合作与竞争,探讨了大型语言模型(LLMs)与小型模型(
阅读更多Metas Llama 3.3:开源大型语言模型的演变
Meta 最近发布的 Llama 3.3 代表了大语言模型(LLMs)发展的一个里程碑。它在规模、效率和安全性方面进行了改进,同时保持开源,进一步强化了 Meta 致力于构建开放 AI 生态系统的承诺。以下是对 Llama 3.3 的功能、创新和应用的深入探讨。 ![](https://wsrv.nl/?url=https://cdn-images-1.readmedium.c
阅读更多Google Gemini-Exp-1206:新的最佳法律硕士
Beats GPT-4.0, OpenAI-o1, Claude3.5 Sonnet and Gemini 1.5 on LMArena 谷歌的 Gemini 在几个月前在生成式 AI 领域的首次亮相表现平平,但如今其发展速度相当快。现在,它发布了一个新的实验模型 Gemini-1206-Exp,该模型在 ChatArena 排行榜上超越了所有其他模型,从而在生成
阅读更多Meta Llama3.3:70B 型号,Llama3.1 的备用型号 405B
Llama3.3 是 Llama 系列中的第 3 个模型系列,继 Llama3.1 和 Llama3.2 之后 因此,Meta 在今年的最后一次发布中推出了 Llama3.3,这是一个 700 亿参数的生成式 AI 模型,已经展示了一些非常出色的结果,并在基准数据集上击败了一些最先进的大语言模型。正如 Meta 所承诺的,该模型是开源的,因此可以免费使用。如果你不知道的
阅读更多OpenAI 的 O1 模型:对人工智能未来的详细探索
引言 人工智能在过去的十年中迅速发展,导致了自然语言处理(NLP)、机器学习和多模态应用的突破。OpenAI 的 O1 模型体现了这种创新,提供了超越传统 AI 模型的能力。O1 不仅仅是一个工具;它是一个革命性的框架,带来了先进的语言理解、多模态集成和实时适应能力。本综合指南深入探讨了 OpenAI 的 O1 模型的细节、应用、优势、局限性以及如何优化相关内容以提高搜索引擎可见
阅读更多测试 OpenAI 的 o1 模型:新闻任务的思维链提示概览
新的大型语言模型被称为更聪明的问题解决者——但它们在数据可视化和标题选择等实际新闻任务中表现如何? 上个月,OpenAI 发布了两个新的大型语言模型:o1-preview 和 o1-mini。这些被公司称为 “推理模型”,与我们迄今为止看到的大型语言模型有着重要的区
阅读更多更智能、更快速:OpenAI o1 和 o1 pro 模式
就在12小时前,OpenAI推出了新的o1模型和带有专业模式的o1。如您所知,o1模型是首个在回答之前进行思考的模型系列,提供更详细和准确的响应,特别是在数学、编码和研究方面。 人们关注两件事:多模态性和解决难题,而这些新模型在这两个领域表现出色。[非会员链接。](https://readmedium.com/smarter-and-faster-openai-o1
阅读更多利用 LangGraph 和代理优化工作流程效率:关键功能、用例和集成...
在生成式 AI 和大型语言模型(LLMs)的背景下,agents 和 LangGraph 是增强 LLM 功能的工具和框架,使它们能够以更灵活和结构化的方式执行任务、做出决策或与复杂工作流程进行交互。以下是每个概念的详细说明及其应用示例。 什么是 LLM 中的代理? 代理是与 LLM 一起工作的自主程序或组件,能够根据提示和用户输入执行任务、做出决策或与环境互动
阅读更多ElevenLabs 对话式人工智能:在几分钟内构建智能、可扩展的语音代理
你好,创作者们! 🗣️ 我们与技术的互动方式正在改变,对话式 AI 正处于这场革命的最前沿。ElevenLabs 推出了一个尖端平台,使构建 AI 驱动的语音代理 比以往任何时候都更快、更简单。无论是用于客户支持、虚拟助手还是其他任何用例,ElevenLabs 让您可以专注于创造力,同时处理技术上的繁重工作。 让我
阅读更多Anthropic 的克劳德人工智能现在可以复制你的写作风格
我作为多个组织的AI大使已经工作了几个月,如果有一个问题是大多数用户不断询问的,那就是如何让AI聊天机器人像他们一样写作。基本上,他们希望像ChatGPT、Claude和Gemini这样的聊天机器人能够模仿他们的写作风格,这样他们就不必每次都给AI提供详细的指示。 我总是告诉用户,他们可以通过两种方式做到这一点:简单的方法: 创建一个自定义聊天机器人,添加指示,例如以
阅读更多掌握 25 种 RAG 架构:何时以及如何使用每一种
介绍 检索增强生成 (RAG) 架构彻底改变了我们处理信息检索的方式。这些架构弥合了生成响应与提取相关数据之间的差距,使模型能够提供准确、实时且具有上下文意识的答案。但在众多可用的 RAG 架构中,您如何知道在每种独特场景中使用哪一个? 在本指南中,我们将深入探讨 25 种 RAG 架构,解释它们的具体用途,并提供现实世界的示例,以演示每种架构何时最有效。 1. Corr
阅读更多使用光标人工智能实现简单的 YouTube 视频摘要应用程序
介绍 Cursor AI 正在通过将先进的人工智能集成到熟悉的编码环境中,彻底改变软件开发。作为 Visual Studio Code (VS Code) 的一个分支,Cursor AI 保留了开发者所喜爱的用户友好界面和广泛的生态系统,同时通过 OpenAI 的 ChatGPT 和 Claude 等模型增强了功能。
阅读更多阿里巴巴 QwQ:比 OpenAI-o1 更适合推理?
32b 开源模型超越 o1 mini,并与 o1-preview 竞争 几天前,阿里巴巴发布了 Marco-o1,一个 7b 推理模型。现在,他们又发布了一个改进版本,称为 QwQ,甚至超越了 OpenAI-o1 mini,并与 o1-preview 持平。最棒的是什么? 它是开源的 什么是 Alibaba QwQ-32b-preview? QwQ-32B-
阅读更多苹果的 LLM Siri:人工智能对话的新时代?
- Rifx.Online
- Generative AI , Chatbots , Natural Language Processing
- 30 Nov, 2024
人工智能 近年来,人工智能的世界迅速发展,生成式AI(genAI)似乎被添加到一切事物中。苹果的Siri,曾是对话AI的先锋,正处于推出其自身生成式AI形式的边缘,称为“LLM Siri”。这一新版本承诺使Siri更加具有上下文意识,能够处理复杂的对话。 LLM Siri的想法并不完全新颖;苹果已经暗示将在2025年对Siri进行改造,作为其不断扩展的“苹果智能”套件的一部分。
阅读更多阿里巴巴 Marco-o1:OpenAI-o1 的开源替代品
LLM用于开放式问题 OpenAI-o1 是一次革命性的发布,使 LLM 能够对复杂任务进行详细推理,例如数学或物理问题,而不仅仅局限于通用文本生成。 但 OpenAI-o1 是收费的 正如预期的那样,开源竞争者并不遥远,而再次是阿里巴巴(在 Qwen 系列之后)最近推出了 Marco-o1。 什么是 Alibaba 的 Marco-o1? Marco-o1
阅读更多使用 Llama 3.2 构建强大的本地人工智能网络搜索助手:
将大型语言模型与实时网络搜索相结合,以获取最新答案和上下文相关见解 👨🏾💻 GitHub ⭐️ | 👔 LinkedIn | 📝 [Medium](https://medium.com/@monsuraliran
阅读更多使用 LangGraph 和 Waii 进行复杂 SQL 连接
在快速发展的数据分析领域,通过自然语言与数据互动的能力变得愈发重要。会话式分析旨在使复杂的数据结构对没有专业技术技能的用户更易于访问。 LangGraph 是一个用于构建有状态的多代理应用程序的框架,使用语言模型。Waii 提供文本到 SQL 和文本到图表的功能,使与数据库和数据可视化的自然语言交互成为可能。 本文探讨了 Waii 的功能如何增强 LangGraph 应用于会话式分析
阅读更多如何利用人工智能制作更可靠的报告--技术指南
技术指南,分享我与AI合作的经验 在过去的一年里,我一直在经营自己的AI软件开发和咨询公司,与各种客户合作——从创业公司创始人到学术界人士。在此期间,我承担了来自多个领域的项目,包括数字营销、SaaS和网络安全。尽管每个项目的目标和目的各不相同,但一个共同的请求是需要使用AI为利益相关者或最终客户创建可靠的报告。几乎所有客户在项目中都有一个里程碑是制作报告。 通过这些经验,我
阅读更多介绍 LightRAG:检索增强一代的新时代
在快速发展的自然语言处理领域,检索增强生成(RAG)系统已成为提供准确、上下文丰富的响应的关键。然而,传统的 RAG 系统在更新知识库或处理复杂查询时,往往面临效率低下的问题。 引入 LightRAG,这是一个新颖的系统,旨在通过提供高效、增量更新和优化的检索过程来解决这些挑战。 传统 RAG 系统的问题 在我们深入了解 LightRAG 之前,先来理解一下我们为什么
阅读更多我应该使用哪种人工智能代理框架?(CrewAI、Langgraph、Majestic-one 和 pure code)。
随着大型语言模型的进步,人工智能模型现在能够对问题进行推理。起初,我们认为这些模型无法完成我们的工作,因为它们似乎只是搜索引擎的聊天机器人版本,我们能够用简单的推理来欺骗这些模型,但这变得越来越困难。这些大型语言模型现在能够逐步思考,并完成比简单回答问题更复杂的任务。 大型语言模型是通过预测前一个标记的下一个标记进行训练的。标记可以是单词、字符或称为子词的字符组。从这个结构,OpenA
阅读更多ChatGPT 4 与 Claude 3.5 Sonnet:谁更胜一筹?让我们回顾一下
我进行了测试 — ChatGPT 4 与 Claude 3 Sonnet,谁胜出? 热议中,城里出现了一个新的聊天机器人玩家,Claude 3 Sonnet。它被描述为比 ChatGPT 更好,但也有相互矛盾的评价,比如 ChatGPT 依然是王者。 注意:随着 2024 年 6 月的最新更新,Claude 3.5 Sonnet 已发布,它比 GPT-4o 和 Claude
阅读更多Claude 3.5 Sonnet Unleashed:你不能错过的人工智能革命 | 作者 Ahmed Bahaa Eldin | Medium
被称为人工智能的技术领域是一个相对年轻的领域,发展速度异常迅猛,其中最新的一个例子被称为 Claude 3. 5 Sonnet. 这是科技行业中最强大的 AI 模型之一,具有这些非凡的特性和功能。我们将重点关注 [***C
阅读更多克劳德 3.5 与 GPT-4o:您需要了解的主要区别
Anthropic 最新发布的 Claude 3.5 Sonnet 进入了一个市场,在这个市场中,OpenAI 的 GPT-4o 已经设定了高标准,已有 92% 的财富 500 强 公司利用 Open
阅读更多如何使用 Claude 3.5 Sonnet API 进行创意写作
让我们谈谈开发过程中我们都面临的一个问题:为您的开发团队使用 Postman 进行 API 测试。 是的,我也听说过,Postman 每年都在变得更糟,但是,您作为一个团队,需要一些协作工具来支持您的开发过程,对吧?
阅读更多Llama 3.2 vs GPT-4 vs OpenAI O1 vs Gemini Ultra vs Claude 3.5:哪种人工智能模型适合您?
- Rifx.Online
- Generative AI , Natural Language Processing , Ethics
- 20 Nov, 2024
人工智能已经取得了长足的进展,每一个新模型似乎都在不断突破极限。今天,我想分享我对五个领先 AI 模型的看法:Meta 的 Llama 3.2、OpenAI 的 GPT-4、OpenAI 的新 O1、DeepMind 的 Gemini Ultra,以及 Anthropic 的 Claude 3.5. 这些模型各自带来了独特的优势,从处理多模态输入到道德决策。让我们深入探讨它们的优
阅读更多本周末您可以构建的 5 个人工智能项目(使用 Node.js)
5 个适合在周末用 Node.js 构建的令人兴奋的 AI 项目(非常适合初学者) 你是否对构建 AI 项目感兴趣,但时间不够? 只需 Node.js 和一个周末,你就可以投入到动手实践的 AI 项目中,这些项目将提升你的编码技能,并让你了解人工智能的实际应用。 这些适合初学者的项目将指导你设置聊天机器人、图像识别、情感分析等。 所以,拿起你的笔记本电脑,准备好用这五个令人兴奋的 A
阅读更多客户服务对话式人工智能:成功的最佳实践和关键步骤
在当今快节奏的商业环境中,客户服务在建立和维护客户忠诚度方面发挥着至关重要的作用。随着企业努力提供个性化和高效的支持,对话式人工智能作为一种革命性解决方案应运而生。通过将人工智能(AI)集成到客户服务运营中,公司可以简化流程,提供即时响应,并显著改善整体客户体验。Gartner 的一份报告估计,到 2025 年,40% 的客户服务互动 将通过人工智能和机器学习技术实现
阅读更多让 ChatGPT 听起来更有人情味:创建自然、引人入胜的人工智能对话的基本技巧
你是否发现你的 AI 助手听起来有点过于……机械?虽然 ChatGPT 的能力令人印象深刻,但有时它的语言过于正式或通用。但通过一些调整,你可以引导 ChatGPT 给出更人性化、对话式和易于共鸣的回应。 以下是一个实用指南,帮助 ChatGPT 听起来不那么像机器人,而更像一个博学的朋友。 1. 限制过度使用的词汇和短语 某些词汇和短语在AI生成的文本中经常出现,因为它们
阅读更多Perplexity Pro 是一种更智能、更高效的网络搜索方式吗?
- Rifx.Online
- Chatbots , Natural Language Processing , Technology/Web
- 16 Nov, 2024
搜索的未来 Perplexity Pro 是一种更智能、更高效的网络搜索方式吗? 它与传统搜索引擎相比如何,值得花费吗? 嘿,AI朋友们和关注者们。 我受够了。我已经厌倦了传统搜索。 我不想通过数百个链接来找到我想要的那一条信息,它被埋在第三页的广告之间。 传统搜索已经结束。一个停产的模型。过去的遗物。 现代答案引擎是未来。 Perplexity承诺将彻底
阅读更多在本地构建会说话的语音人工智能助理:具有流光溢彩用户界面的记忆保持聊天机器人...
开发您自己的具有上下文记忆和实时聊天功能的语音 AI 的逐步指南,基于 Llama3.1 和 Llama3.2 模型 👨🏾💻 GitHub ⭐️ | 👔LinkedIn |📝 [Medium](https://med
阅读更多使用 LLMs 构建可靠的文本分类管道:分步指南
克服基于LLM的文本分类中的常见挑战 在本分步教程中,我们将介绍如何使用大型语言模型(LLMs)构建一个准确且可靠的文本分类管道。LLMs是强大的通用模型,在各种自然语言处理任务中展示了卓越的能力,并且它们在许多人工智能应用中越来越多地取代了专业模型。然而,如果不谨慎处理,使用LLMs进行分类可能会很棘手。 在将LLMs应用于分类时,一个常见的问题是模型可能无法以预期的输出或
阅读更多比较为图像添加文本的主要文本到图像生成模型
九个领先图像生成模型在图像中渲染准确文本(单词和短语)的能力比较 在这篇文章中,我们将评估来自多个提供商的九个最先进的文本到图像生成模型在不同托管平台上的能力。具体来说,我们将根据给定的提示评估它们在图像中生成准确文本(单词和短语)的能力。测试的模型包括以下内容(按字母顺序排列):Adobe Firefly Image 3(通过 [firefly.adobe.com](htt
阅读更多用于人类运动对话的多模态人工智能
撰写者:Christian Safka 和 Keyu Chen 在本次探索中,我们将探讨多模态模型如何改变对话人工智能代理的游戏规则,以及如何利用感知、记忆、行为建模和
阅读更多Qwen2.5-Coder、Cosmos Tokenizer、OpenCoder 和新的 SentenceTransformers:开放源代码的伟大时代
- Rifx.Online
- Programming , Technology , Natural Language Processing
- 14 Nov, 2024
我想强调一些引人注目的开源进展:Qwen2.5-Coder 系列:一个开放源代码的代码 LLM,正在与 GPT-4 竞争。 Cosmos Tokenizer:一套先进的神经分词器,用于高效的图像和视频压缩。 OpenCoder:一个完全开源的代码 LLM,训练于惊人的 2.5 万亿个标记。 **SentenceTransformers 的大幅
阅读更多RAGate:用于对话式人工智能的自适应 RAG
构建对话 AI 系统是困难的!!! 这虽然可行,但也复杂、耗时且资源密集。 挑战在于设计能够理解和生成类人响应的系统,并确保这些系统能够有效地与用户互动,适应对话的细微差别。 非常流行的**RAG(检索增强生成)**通过将外部知识与 LLM 的内部知识无缝集成,彻底改变了对话 AI。通过将 RAG 应用于您的商业数据,您的客户可以用自然语言询问他们的数据,从而促进无缝互动。
阅读更多GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装
如何设置 GLM-4-Voice 9B 以实现无缝的实时语音交互,支持英语和中文,并探索其独特的架构、低延迟响应和可定制的声音属性。 介绍 近年来,语音启用的人工智能取得了显著进展,使对话代理能够更好地理解和响应人类语言。从虚拟助手到客户服务机器人,语音人工智能已成为各个行业的重要工具。然而,大多数模型在流利地切换语言、理解口语查询的细微差别以及提供高质量响应方面仍然
阅读更多使用 LangChain、Streamlit 和 PubMed 构建基于 RAG 的科学聊天机器人--第 4 部分(将所有...
- Rifx.Online
- Chatbots , Natural Language Processing , Science
- 13 Nov, 2024
您好,欢迎来到构建科学聊天机器人的系列最后一部分,使用Langchain、Streamlit和PubMed! 在前一部分中,我们构建了数据持久性和带有向量存储的RAG管道。现在,是时候将我们所构建的一切整合在一起,创建聊天机器人用户界面,利用我们构建的后端功能,帮助科学家回答他们的科学问题! 作为提醒,这就是我们在系列中构建的完整解决方案: ![](https://images.w
阅读更多Claude Sonnet 3.5 和 Claude 3.5 Haiku 有哪些新功能?
首先,Claude是什么? Claude是由Anthropic创建的语言模型,旨在帮助完成诸如回答问题、总结信息和生成文本等任务——类似于ChatGPT。Claude的一个优点是它被设计得更安全,更符合人类意图,因此生成有害或误导性内容的可能性较小。 等等…
阅读更多在构建非英语 RAG 系统时,嵌入为什么很重要 - 多语言嵌入
为什么嵌入是关键 嵌入是现代生成 AI 的基石,默默推动着我们每天互动的许多系统的功能。简单来说,嵌入是 文本的数值表示 —— 有效地将单词、句子甚至整个文档转换为数字。这些数字远非随机;它们经过精心设计,以捕捉文本中的含义和关系。例如,“dog”和“puppy”的嵌入在数值空间中会更靠近,而“car”的嵌入则会相对较远,反映出它们的 语义相似性。将意义编码为可测量的
阅读更多Gemma、Llama 和 Mistral:探索较小的 AI 模型
小规模语言模型的比较研究:在阅读理解任务中评估 Gemma、Llama 3 和 Mistral 引言 大型语言模型(LLMs)正在快速发展。每个月,新的模型被开发出来,以超越当前市场上的顶尖模型。这种健康的竞争有利于创造新的方法,提高质量和速度。此外,各公司还专注于开发更小的模型,以便使其能够被没有强大计算资源的个人或组织所使用。 就在几周前,苹果公司在其全球开发者大会上推出
阅读更多Google Gemini:大上下文窗口是杀手级功能吗?
谷歌即将推出的 LLM 迈出了重大一步 就在八个月前,一封泄露的谷歌电子邮件透露该公司在努力超越其 AI 竞争对手方面遇到了困难。他们的 AI 产品周围不仅没有护城河——换句话说,没有建立起商业优势——谷歌也没有[秘密武器](https://ww
阅读更多Llama 3.2:下一代轻量级、指令调整语言模型:实践……
探索 LLaMA 3.2 在剪枝、知识蒸馏和多语言性能方面的关键创新,以及本地运行或通过 Google Colab 的实用教程 👨🏾💻 GitHub ⭐️ | 👔LinkedIn |📝 [Medium](https
阅读更多采用 Phi-3-Vision-128K 的人工智能 OCR:文档处理的未来
在快速发展的人工智能领域,多模态模型正在为视觉和文本数据的整合设定新标准。最新的突破之一是 Phi-3-Vision-128K-Instruct,这是一个最先进的开放多模态模型,推动了AI在处理图像和文本方面的能力边界。该模型专注于文档提取、光学字符识别(OCR)和一般图像理解,能够彻底改变我们处理PDF、图表、表格以及其他结构化或半结构化文档的信息方式。 让我们深入探
阅读更多文物:Claude 3.5 Sonent 最令人惊叹的用途
Anthropic 最近推出了其最先进的 LLM,“Claude 3.5 Sonnet”,让人惊叹。社交媒体上的人们称这一模型为当前最先进的 LLM。这个 AI 模型在性能上超越了所有现有的 LLM,例如 GPT-4、GPT-4o mini、Llama 3 等等。Claude 3.5 Sonnet 的上下文窗口为 200K,最大输出为 8192 个 tokens。它可以生成一个包含大
阅读更多LongRAG:让人工智能在信息海洋中捕捞更多鱼
在 我之前的文章 中,我介绍了RAG是否会因长上下文LLMs而变得过时。今天,让我们看看如何将长上下文LLMs应用于RAG场景。 在检索增强生成(RAG)领域,传统方法一直依赖于短检索单元,通常约为100个单词,这迫
阅读更多可视化你的 RAG 数据——使用 Ragas 评估你的检索增强生成系统
如何使用 UMAP 降维将嵌入可视化以展示多个评估问题及其与源文档的关系,结合 Ragas、OpenAI、Langchain 和 ChromaDB 检索增强生成(RAG)在 LLM 的工作流程中增加了一个检索步骤,使其能够在回答问题和查询时,从私人文档等额外来源查询相关数据 [1]。该工作流程不需要对额外文档进行昂贵的训练或微调。文档被拆分成片段,然后进行索引,通常使用紧凑的 M
阅读更多如何使用 RAG 提高 LLM 成绩
初学者友好的介绍 w/ Python 代码 本文是关于在实践中使用大型语言模型的更大系列的一部分。在[上一篇文章](https://towardsdatascience.com/qlora-how-to-fine-tune-an-ll
阅读更多解锁混合专家 (MoE) LLM:你的 MoE 模型可以免费嵌入模型
Mixture-of-experts (MoE) LLM 可以作为免费的嵌入模型使用。 我最近发现了一篇有趣的论文,标题为“你的 Mixture-of-Experts LLM 秘密地是一个免费的嵌入模型。”[1] 最近的 LLM 架构趋势是解码器模型,这对于嵌入模型并不适用,因为它们的注意力方法。然而,作者揭示了 Mixture-of-Experts (MoE) LLM 可以作
阅读更多用户会爱上 OpenAI 的新 GPT-4o 模型。确实如此。
- Rifx.Online
- Generative AI , Chatbots , Natural Language Processing
- 01 Nov, 2024
公司的新 GPT-4o 能理解并模仿人类的语言和情感 在标志性的2013年电影 她 中,主角与一个语音启用的人工智能系统发展出一种强烈的关系——并演变成一场爱情故事。 她 中的人工智能是今天的语音启用系统所不具备的:富有情感、幽默,并且能够洞察人类对话的细微差别。 在今天早上的一次重大[公告](https://www.youtube.com/live/DQacCB9
阅读更多OpenAI‘泄露’的 GPT2 模型让所有人震惊。
- Rifx.Online
- Chatbots , Generative AI , Natural Language Processing
- 01 Nov, 2024
故意泄漏? OpenAI 对人工智能行业的影响不容小觑。每一个动作或决定都会自动成为头条……即使他们并没有真正宣布什么。 几天前,一个我们许多人曾试用过但已被删除的模型让整个人工智能行业着迷。这个名为“gpt2-chatbot”的模型在 lmsys.org 的“直接聊天”功能中可以使用了几天。 但为什么这么多喧嚣?
阅读更多OpenAI 确认 GPT-5 即将到来,有望为人工智能带来巨大改进……
一位网友在 x 上发布了 GPT5 倒计时的帖子,称这是从各个平台的线索得出的结论。评论区已经达到高潮,各种意见纷纷涌现。 原因 1 : OpenAI 网站 GPT5 泄露 ![](https://images.weserv.nl/?url=https://cdn-images-1.readmedium.com/v2/resize:fit:800/1*EBDLAv3rOyCj
阅读更多如何使用 CrewAI 和 Gemini Pro 创建 AI 团队来撰写引人入胜的故事
你是否对AI生成引人入胜的故事这一想法感到着迷?如果是这样,你并不孤单!在本文中,我们将深入探讨一个结合CrewAI和Gemini Pro力量的入门项目,创建一个代理网络,通过用户输入的帮助来创作短篇故事。无论你是一个初出茅庐的程序员,一个希望探索数字前沿的讲故事者,还是仅仅对人工智能的潜力感到好奇,这本指南都适合你。 CrewAI 和 Gemini Pro 是什么? 在我们深入探
阅读更多检索增强生成:方法、最新进展和优化策略
⭐ RAG 在知识密集型场景或需要持续更新知识的特定领域应用中尤其有用。最近,RAG 因其在对话代理中的应用而受到广泛关注。 📌 参考研究主要集中在当前的 RAG 方法及其不同组件、最新进展(SOTA)、应用、检索、生成、增强技术的评估上。 随着 RAG 系统从简单到高级再到模块化的演变,每个阶段都是为了应对特定用例的增强而出现的。 ![](https://images.wese
阅读更多使用 Unsloth 对 LLama 3 进行微调
在本文中,我将向您展示如何使用 Unsloth 微调 LLM(Meta 的 Llama 3)。我还将提供使用您自己自定义数据集的方法。 注意: Unsloth 是一个加速 LLM 在 NVIDIA GPU 上微调的库(与传统方法相比,内存使用减少 40%)。与 Hugging Face 兼容,支持 Ll
阅读更多Qwen2.5 1.5b:移动AI的未来?
本地测试和评估阿里云最新的LLM。使用llama-cpp-python和DIY提示目录。 在第一部分,我们共同探讨了阿里云团队发布的Qwen2.5模型系列的创新。 在生成式AI基准测试中,基准测试现在是主要的oracle:新的LLM的有效性需要通过多个评判。你打破的基准记录越多,你就越优秀。 这是赢得SOTA竞赛的方式。 好吧,我不同意。尽管我们需要里程碑和更好的性
阅读更多LLaVA 简介:一种多模式 AI 模型
LLaVA是一个端到端训练的大型多模态模型,旨在理解和生成基于视觉输入(图像)和文本指令的内容。它结合了视觉编码器和语言模型的能力,以处理和响应多模态输入。 ![](https://images.weserv.nl/?url=https://cdn-images-1.readmedium.com/v2/resize:fit:800/1*mjzqL0BHzdPoN-Jjruh52A.pn
阅读更多Google 发布 Gemma — 轻量级开源模型
- Rifx.Online
- Natural Language Processing , Programming , Chatbots
- 29 Oct, 2024
在短短一周内,世界见证了两家科技巨头带来的最具突破性的AI进展。OpenAI推出了令人惊叹的AI视频生成器Sora,而谷歌则揭晓了其[Gemini 1.5模型](https://generativeai.pub/google-releases-gemini-1-5-with-1m-context-window-
阅读更多Claude 3.5 Sonnet V/S GPT-4O:哪一个更好
在2022年11月,OpenAI推出了ChatGPT,这一模型彻底改变了我们搜索和与信息互动的方式。次年3月,由前OpenAI员工创办的美国初创公司“Anthropic”推出了他们自己的AI模型“Claude”。自发布以来,这两家AI公司一直在竞争,以通过其AI模型为客户提供最佳的功能和体验。最近,OpenAI推出了“GPT-4o”,这是一个令人惊叹的模型,能够出色地处理文件、语音和视频数据
阅读更多阿里巴巴开源 Qwen:它如何彻底改变人工智能以及如何使用它
阿里巴巴最近在人工智能领域引起了轰动,在2024年 Apsara 大会上开源了其 Qwen 2.5 模型。Qwen 拥有超过 100 个模型,涵盖语言、视觉、音频和代码等多种模态,使其成为最全面的开源人工智能解决方案之一。此次发布通过提供多样化应用的工具,赋能开发者,从文本到视频生成到实时问答。 阿里巴巴 Qwen 模型的关键特性多模态能力:Qwen 模型处
阅读更多使用 GPT Vision 和 Langchain 从图像生成结构化数据
在当今这个视觉数据丰富的世界中,从图像中提取有意义信息的能力变得越来越重要。Langchain是一个强大的框架,用于构建大型语言模型(LLMs)应用程序,提供了一套多功能的工具来应对这一挑战。在本文中,我们将探讨如何使用Langchain从图像中提取结构化信息,例如计算人数和列出主要物体。 在深入代码之前,让我们先了解一下任务的背景。想象一下你有一张场景的图像,比如城市街道。你的目标是
阅读更多