Type something to search...

Multimodal

惊艳来袭!Mini MiniCPM-o 2.6:超越GPT-4o的8B参数多模态LLM!

惊艳来袭!Mini MiniCPM-o 2.6:超越GPT-4o的8B参数多模态LLM!

在一项突破性的进展中,Mini CPM-o 在多模态大型语言模型 (LLM) 的世界中引起了轰动。凭借其 8 亿参数架构,它不仅在多个基准测试中超越了 GPT-4o,还在视觉、音频和其他多模态功能上与其相媲美。让我们深入探讨这一激动人心的发布、它的能力、安装过程和使用案例。 MiniCPM-o 2.6: 是什么? MiniCPM-o 2.6: 是一种先进的多模态 L

阅读更多
多模态人工智能助手:结合本地模型和云模型

多模态人工智能助手:结合本地模型和云模型

使用 LangGraph、mlx 和 Florence2 构建一个能够回答复杂图像问题的智能体,支持本地运行。 *在本文中,我们将结合 LangGraph 和多个专业模型,构建一个基础的智能体,能够回答有关图像的复杂问题,包括图像描述、边界框和 OCR。最初的想法是仅使用本地模型构建,但经过一些迭代后,我决定添加对基于云的模型(即 GPT4o-mini)的连接,以获得更可靠的

阅读更多
通过多模态 LLM 模型进行图像推理

通过多模态 LLM 模型进行图像推理

多模态人工智能 | LLM | OPENAI | GEMINI | 视觉 本博客探讨了多模态模型在图像推断中的能力,强调它们整合视觉和文本信息以改善分析的能力 多模态人工智能的出现显著改变了数据处理的格局。在过去,我们在光学字符识别(OCR)等任务中严重依赖文本提取库,如 PyTesseract。然而,视觉变换器和其他多模态模型的进步彻底改变了我们处理和解释数

阅读更多
Qwen QVQ-72B:最佳开源图像推理 LLM

Qwen QVQ-72B:最佳开源图像推理 LLM

阿里巴巴的视觉推理 LLM 所以,在2024年底之前,Qwen(由阿里巴巴推出)强势回归,发布了另一个开源 LLM,Qwen QVQ-72B,这是一个视觉推理 LLM,即一个推理模型(类似于 OpenAI-o1),支持对图像输入进行推理。 Qwen QVQ 是 Qwen2-VL 的改进版本,专注于视觉推理 谈谈它的关键特性: 1. 多模态融合**视觉与语

阅读更多
2024 年 RAG 的崛起与演变:年度回顾

2024 年 RAG 的崛起与演变:年度回顾

随着2024年的结束,检索增强生成(RAG)的发展可谓波澜起伏。让我们从多个角度全面回顾这一年的进展。 RAG演变中的关键事件 辩论:“RAG已死,RAG万岁!” 在2024年初,这一年被一些人称为“RAG之年”,尽管这一称谓并未得到普遍认可。然而,全年取得的进展确实证明了这一称号的合理性。在涉及大型语言模型(LLMs)的场景中,RAG始终被证明是不可或缺的角色。然而

阅读更多
使用 Gemini 2.0 通过多模态实时 API 构建实时聊天应用程序

使用 Gemini 2.0 通过多模态实时 API 构建实时聊天应用程序

Gemini 开发教程 谷歌推出了 Gemini 2.0 及其预览模型 Gemini 2.0 Flash Experimental,您一定通过视频和文章了解过它。该模型在所有基准测试中大幅超越了其前身 Gemini 1.5 Pro,并且对所有人免费使用,但在 Google AI Studio 中有一些限制。如果您对 Gemini 2.0 有经验或看过关于 Google

阅读更多
Gemini 2.0 Flash + 本地多模式 RAG + 上下文感知 Python 项目:文档的简易人工智能/聊天

Gemini 2.0 Flash + 本地多模式 RAG + 上下文感知 Python 项目:文档的简易人工智能/聊天

在这个视频中,我将展示一个超级快速的教程,教你如何创建一个本地多模态 RAG、Gemini 2.0 Flash 和上下文感知响应,以便为你的业务或个人使用打造一个强大的代理聊天机器人——一个不需要强大笔记本电脑的聊天机器人。 年末时,大模型产品之间的竞争再次加剧。在我上一个视频中,我介绍了 LLama3.3\。 在12月11日,谷歌发布了 **Gemini 2.0 Flash。

阅读更多
多模态多语言视觉描述技术:基于Llama 3.2与NLLB-200的图像视频分析方法

多模态多语言视觉描述技术:基于Llama 3.2与NLLB-200的图像视频分析方法

使用Meta的Llama 3.2 11B Vision Instruct、Facebook的600M NLLB-200和LLaVA-Next-Video 7B模型生成多语言图像和视频标题、描述标签以及情感分析。 视频: 可口可乐公司,1971年,“Hilltop”广告, featuri

阅读更多
顶点人工智能 Gemini 2.0 Flash 开发人员入门指南

顶点人工智能 Gemini 2.0 Flash 开发人员入门指南

Gemini 2.0 已经到来,带来了为这个新代理时代构建的下一代能力。Gemini 2.0 Flash 现在可以通过 [Vertex AI Gemini API](https://cloud.google.

阅读更多
OpenAI 的 O1 模型:对人工智能未来的详细探索

OpenAI 的 O1 模型:对人工智能未来的详细探索

引言 人工智能在过去的十年中迅速发展,导致了自然语言处理(NLP)、机器学习和多模态应用的突破。OpenAI 的 O1 模型体现了这种创新,提供了超越传统 AI 模型的能力。O1 不仅仅是一个工具;它是一个革命性的框架,带来了先进的语言理解、多模态集成和实时适应能力。本综合指南深入探讨了 OpenAI 的 O1 模型的细节、应用、优势、局限性以及如何优化相关内容以提高搜索引擎可见

阅读更多
更智能、更快速:OpenAI o1 和 o1 pro 模式

更智能、更快速:OpenAI o1 和 o1 pro 模式

就在12小时前,OpenAI推出了新的o1模型和带有专业模式的o1。如您所知,o1模型是首个在回答之前进行思考的模型系列,提供更详细和准确的响应,特别是在数学、编码和研究方面。 人们关注两件事:多模态性和解决难题,而这些新模型在这两个领域表现出色。[非会员链接。](https://readmedium.com/smarter-and-faster-openai-o1

阅读更多
OpenAI o1 模型全面发布:用于科学、编码和写作的增强型多模态人工智能

OpenAI o1 模型全面发布:用于科学、编码和写作的增强型多模态人工智能

发现 OpenAI 的新 o1 模型:更快、更智能、支持多模态。凭借先进的推理、编码精度和图像分析,o1 设定了新的 AI 标准。 OpenAI的o1模型现已全面发布:有什么新功能和改进? OpenAI正式发布了o1模型的完整版本,超越了其预览版本的能力。以下是o1作为一款尖端AI模型所带来的增强和功能的详细分析。 Full o1 版本的关键增强功能

阅读更多
OpenAI 的 O1 和 O1 Pro 模型:以推理为重点的人工智能新时代

OpenAI 的 O1 和 O1 Pro 模型:以推理为重点的人工智能新时代

近年来,人工智能取得了显著进展,大型语言模型从简单的文本生成器演变为能够处理高级推理任务的强大系统。像GPT-4o这样的模型展示了令人印象深刻的语言流利性和一般知识,但直到现在,它们在更具挑战性的问题解决场景中仍然面临困难——例如高级数学、复杂的编程难题和复杂的科学探究。 OpenAI新推出的O1模型系列旨在改变这一格局,强调深度推理。与之前主要关注速度和广泛覆盖的模型不同,O1在产生

阅读更多

Claude 3 Haiku 是 Anthropic 最快、最紧凑的模型,提供近乎即时的响应能力。快速且准确的针对性表现。 查看发布公告和基准测试结果 here #multimodal ...

Anthropic: Claude 3 Haiku
Anthropic
195.31K context $0.25/M input tokens $1.25/M output tokens $0.4/K image tokens
克劳德 3.5 与 GPT-4o:您需要了解的主要区别

克劳德 3.5 与 GPT-4o:您需要了解的主要区别

Anthropic 最新发布的 Claude 3.5 Sonnet 进入了一个市场,在这个市场中,OpenAI 的 GPT-4o 已经设定了高标准,已有 92% 的财富 500 强 公司利用 Open

阅读更多
用于人类运动对话的多模态人工智能

用于人类运动对话的多模态人工智能

撰写者:Christian Safka 和 Keyu Chen 在本次探索中,我们将探讨多模态模型如何改变对话人工智能代理的游戏规则,以及如何利用感知、记忆、行为建模和

阅读更多
LLaVA 简介:一种多模式 AI 模型

LLaVA 简介:一种多模式 AI 模型

LLaVA是一个端到端训练的大型多模态模型,旨在理解和生成基于视觉输入(图像)和文本指令的内容。它结合了视觉编码器和语言模型的能力,以处理和响应多模态输入。 ![](https://images.weserv.nl/?url=https://cdn-images-1.readmedium.com/v2/resize:fit:800/1*mjzqL0BHzdPoN-Jjruh52A.pn

阅读更多
Claude 3.5 Sonnet V/S GPT-4O:哪一个更好

Claude 3.5 Sonnet V/S GPT-4O:哪一个更好

在2022年11月,OpenAI推出了ChatGPT,这一模型彻底改变了我们搜索和与信息互动的方式。次年3月,由前OpenAI员工创办的美国初创公司“Anthropic”推出了他们自己的AI模型“Claude”。自发布以来,这两家AI公司一直在竞争,以通过其AI模型为客户提供最佳的功能和体验。最近,OpenAI推出了“GPT-4o”,这是一个令人惊叹的模型,能够出色地处理文件、语音和视频数据

阅读更多
阿里巴巴开源 Qwen:它如何彻底改变人工智能以及如何使用它

阿里巴巴开源 Qwen:它如何彻底改变人工智能以及如何使用它

阿里巴巴最近在人工智能领域引起了轰动,在2024年 Apsara 大会上开源了其 Qwen 2.5 模型。Qwen 拥有超过 100 个模型,涵盖语言、视觉、音频和代码等多种模态,使其成为最全面的开源人工智能解决方案之一。此次发布通过提供多样化应用的工具,赋能开发者,从文本到视频生成到实时问答。 阿里巴巴 Qwen 模型的关键特性多模态能力:Qwen 模型处

阅读更多
新崛起红星:Qwen2.5来了

新崛起红星:Qwen2.5来了

一起测试新生的阿里云生成式AI Qwen2.5,使用Python和llama-cpp 在没有太多宣传和预期公告的情况下,阿里云于9月19日发布了他们的旗舰模型系列Qwen2.5。 阿里云在Qwen上的革命性旅程再次展示了通过创新的强大领导力。 怎么做的?它们有什么特别之处?我们应该期待什么? 在本文中,我们将探讨新模型并检查其性能。作为后续,在下一篇文章中,我们将使用`l

阅读更多
RBYF:Qwen2.5–3B-instruct 非常棒。

RBYF:Qwen2.5–3B-instruct 非常棒。

修订基准:以您为反馈的全新3B模型来自阿里巴巴Qwen,是个令人惊叹的模型,我可以证明这一点! 涌现属性的错觉在很大程度上是评估这些模型所使用的指标的产物。这是一个事实。 几周前,我决定做一个小反叛,放弃所有官方基准,开始自己做基准测试! 这就是这个完全虚构的首字母缩略词RBYF的意义:以您为反馈的修订基准。其基本原则是,没有比您更好的评判者来验证一个大型语言模型的优劣。 老

阅读更多