Type something to search...
Qwen QVQ-72B:最佳开源图像推理 LLM

Qwen QVQ-72B:最佳开源图像推理 LLM

阿里巴巴的视觉推理 LLM

所以,在2024年底之前,Qwen(由阿里巴巴推出)强势回归,发布了另一个开源 LLM,Qwen QVQ-72B,这是一个视觉推理 LLM,即一个推理模型(类似于 OpenAI-o1),支持对图像输入进行推理。

Qwen QVQ 是 Qwen2-VL 的改进版本,专注于视觉推理

谈谈它的关键特性:

1. 多模态融合

  • 视觉与语言处理: QVQ 集成了语言和视觉信息,使其能够执行需要理解文本和图像的任务。

2. 性能指标

  • 高基准分数:在MMM(多模态数学理解)等评估中,QVQ获得了70.3的分数,表明相较于其前身Qwen2-VL-72B-Instruct在数学相关基准测试中有显著改善。

3. 增强的推理能力

  • 复杂的分析思维: QVQ 在需要复杂推理的任务中表现出色,例如通过系统的方法解决复杂的物理问题。与早期模型相比,它在视觉推理任务中的表现得到了改善。

4. 开源可用性

  • 社区访问: 该模型已作为开源发布,使研究人员和开发者能够利用并在其能力基础上进行构建,而无需面临重大入门障碍。

5. 限制与挑战

  • 潜在问题: 尽管取得了进展,QVQ 仍然存在局限性,包括语言混合、循环逻辑模式的挑战,以及在多步骤推理过程中保持对图像内容的关注。这些因素可能导致输出中的不准确或“幻觉”。

6. 技术规格

  • 模型架构: QVQ 基于 Qwen2-VL-72B 架构构建,采用基于变换器的设计原则,增强其在各种任务中的处理能力。

Check this example to understand its might !

输入

输出

所以我有一张几只鹈鹕的照片,我需要弄清楚总共有多少只。让我看看。首先,我看到一群鹈鹕站在看起来像是混凝土平台或者码头的地方,背景是水面。水面很平静,有小波纹,鹈鹕们几乎都朝着同一个方向,面向照片的左侧。

这个主要的群体有四只鹈鹕,排成一排。它们有长长的喙,身体主要是棕色的,有一些较浅的色调。它们的头抬得很高,似乎在休息或者等待。

现在,除了这四只鹈鹕,还有几只部分可见的鹈鹕。一只在照片的最右侧,只有部分身体露出来。它背对着相机,尾巴和部分翅膀可见。另一只稍微偏左,只有头和部分背部可见。

所以,如果我仔细数一下,主要群体有四只鹈鹕,然后右侧还有这两只部分可见的鹈鹕。那总共就是六只鹈鹕在照片中。但是等等,我应该再确认一下。也许这两只部分可见的鹈鹕实际上是同一只鹈鹕,但我不这么认为。它们似乎是不同的鸟。

让我再试着数一遍。从左边开始:第一只鹈鹕完全可见,站在边缘。然后,紧挨着它,另一只也是完全可见的。接着是第三只,第四只,都是一排。所以那是四只。

然后,往右边看,有另一只鹈鹕只部分在画面中,露出头和部分身体。再往右边,还有另一只部分可见的鹈鹕,露出尾巴和部分翅膀。所以,总共加起来就是六只鹈鹕。

我觉得这很准确。问题是在问照片中鹈鹕的总数,从我能看到的情况来看,有六只。也许我应该再看看,确保没有漏掉任何。

回头看照片,我可以看到主要群体中的四只鹈鹕,都是面向左边,然后右侧有两只部分可见的鹈鹕。不,我在背景或照片的其他地方没有看到其他鹈鹕。

所以,我的最终答案是照片中有六只鹈鹕。

**最终答案**

6

如何使用 Qwen QVQ-72B?

该模型是开源的,可以通过 huggingface 轻松访问。然而,由于模型体积较大,您可能无法在消费级 GPU 上使用它。

在这里找到代码

如果您希望免费使用,请查看此空间

我希望您尝试 Qwen QVQ 进行视觉推理

Related Posts

使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
10 个强大的 Perplexity AI 提示,让您的营销任务自动化

10 个强大的 Perplexity AI 提示,让您的营销任务自动化

在当今快速变化的数字世界中,营销人员总是在寻找更智能的方法来简化他们的工作。想象一下,有一个个人助理可以为您创建受众档案,建议营销策略,甚至为您撰写广告文案。这听起来像是一个梦想? 多亏了像 Perplexity 这样的 AI 工具,这个梦想现在成为现实。通过正确的提示,您可以将 AI 转变为您的 个人营销助理。在本文中,我将分享 10 个强大的提示,帮助您自动

阅读更多
10+ 面向 UI/UX 设计师的顶级 ChatGPT 提示

10+ 面向 UI/UX 设计师的顶级 ChatGPT 提示

人工智能技术,如机器学习、自然语言处理和数据分析,正在重新定义传统设计方法。从自动化重复任务到实现个性化用户体验,人工智能使设计师能够更加专注于战略思维和创造力。随着这一趋势的不断增长,UI/UX 设计师越来越多地采用 AI 驱动的工具来促进他们的工作。利用人工智能不仅能提供基于数据的洞察,还为满足多样化用户需求的创新设计解决方案开辟了机会。 1. 用户角色开发 目的

阅读更多
在几分钟内完成数月工作的 100 种人工智能工具

在几分钟内完成数月工作的 100 种人工智能工具

人工智能(AI)的快速发展改变了企业的运作方式,使人们能够在短短几分钟内完成曾经需要几周或几个月的任务。从内容创作到网站设计,AI工具帮助专业人士节省时间,提高生产力,专注于创造力。以下是按功能分类的100个AI工具的全面列表,以及它们在现实世界中的使用实例。 1. 研究工具 研究可能耗时,但人工智能工具使查找、分析和组织数据变得更加容易。**ChatGPT, Cop

阅读更多
你从未知道的 17 个令人惊叹的 GitHub 仓库

你从未知道的 17 个令人惊叹的 GitHub 仓库

Github 隐藏的宝石!! 立即收藏的代码库 学习编程相对简单,但掌握编写更好代码的艺术要困难得多。GitHub 是开发者的宝藏,那里“金子”是其他人分享的精心编写的代码。通过探索 GitHub,您可以发现如何编写更清晰的代码,理解高质量代码的样子,并学习成为更熟练开发者的基本步骤。 1. notwaldorf/emoji-translate *谁需

阅读更多