Benchmarks

不可思议！DeepSeek-R1开源模型超越GPT-4的秘密！

Rifx.Online
Programming , Machine Learning , Open Source
20 Jan, 2025

如果你一直关注AI领域，你就会知道，构建最强大、具备推理能力的模型的竞争一直由OpenAI、Anthropic和Google等大公司主导。但请保持冷静，因为游戏规则刚刚改变。中国AI公司DeepSeek发布了一颗重磅炸弹：DeepSeek-R1，一个完全开源的推理模型，不仅与OpenAI的O1竞争——它的表现让人大吃一惊。最棒的是？它完全在MIT许可证下开源。没错，你没看错。

DeepSeek-R1-Lite-Preview：人工智能推理的新时代

Rifx.Online
Machine Learning , Natural Language Processing , Data Science
20 Jan, 2025

人工智能（AI）在突破界限方面并不陌生，但偶尔会出现一些创新，让我们停下脚步，仔细关注。其中一个创新就是 DeepSeek-R1-Lite-Preview，这是由中国AI实验室 DeepSeek 开发的先进推理AI模型。该模型不仅提升了推理能力的标准，还在基准测试中取得了令人印象深刻的成绩，使行业巨头如OpenAI也感受到了压力。在本文中，我们将更深入地了解De

惊艳来袭！Mini MiniCPM-o 2.6：超越GPT-4o的8B参数多模态LLM！

Rifx.Online
Natural Language Processing , Machine Learning , Technology/Web
20 Jan, 2025

在一项突破性的进展中，Mini CPM-o 在多模态大型语言模型 (LLM) 的世界中引起了轰动。凭借其 8 亿参数架构，它不仅在多个基准测试中超越了 GPT-4o，还在视觉、音频和其他多模态功能上与其相媲美。让我们深入探讨这一激动人心的发布、它的能力、安装过程和使用案例。 MiniCPM-o 2.6: 是什么？ MiniCPM-o 2.6: 是一种先进的多模态 L

o3崛起：AGI辩论的新转折点？探索突破与挑战

本周，人工智能社区围绕一个新前沿展开了热烈讨论：OpenAI的“o3”，这一突破性模型将人工通用智能（AGI）的话题提升到了新的高度。研究人员和行业人士正在辩论，o3的卓越成就——例如在ARC-AGI基准测试中得分87.5%（超越人类平均水平85%）以及在Codeforces上获得2727的评分（使其跻身全球前200+程序员之列）——是否标志着AGI的到来，还是仅仅代表

Qwen QVQ-72B：最佳开源图像推理 LLM

Rifx.Online
Natural Language Processing , Machine Learning , Technology/Web
27 Dec, 2024

阿里巴巴的视觉推理 LLM 所以，在2024年底之前，Qwen（由阿里巴巴推出）强势回归，发布了另一个开源 LLM，Qwen QVQ-72B，这是一个视觉推理 LLM，即一个推理模型（类似于 OpenAI-o1），支持对图像输入进行推理。 Qwen QVQ 是 Qwen2-VL 的改进版本，专注于视觉推理谈谈它的关键特性： 1. 多模态融合**视觉与语

OpenAI 的 O3 模型：崛起与信任的重构

从我第一次听到那些低声的传闻开始，我内心深处便感受到了一种变化。这是一种渴望的紧张感，夹杂着怀疑。柔和的声音围绕着一个神秘的“o3”推理模型。 o3 Open AI ![](https://wsrv.nl/?url=https://cdn-images-1.readmedium.com/v2/resize:fit:800/1*fjKrpXECxJXGDgO5xxEvaw.p

DeepSeek-VL2：利用专家视觉语言混合模型促进多模态理解

Rifx.Online
Natural Language Processing , Computer Vision , Data Science
19 Dec, 2024

DeepSeek-VL2 在视觉语言模型领域代表了一个重要的飞跃，提供了先进的多模态理解能力。这一创新系列的大型混合专家（MoE）视觉语言模型在其前身 DeepSeek-VL 的基础上，提供了在广泛任务中的卓越性能。让我们深入探讨 DeepSeek-VL2 的关键方面，探索其架构、能力和潜在应用。在开始之前，如果您正在寻找一个一体化的 AI 平台，可以在一个地方管理您所有的 A

OpenAI o1 模型全面发布：用于科学、编码和写作的增强型多模态人工智能

Rifx.Online
Technology , Machine Learning , Computer Vision
07 Dec, 2024

发现 OpenAI 的新 o1 模型：更快、更智能、支持多模态。凭借先进的推理、编码精度和图像分析，o1 设定了新的 AI 标准。 OpenAI的o1模型现已全面发布：有什么新功能和改进？ OpenAI正式发布了o1模型的完整版本，超越了其预览版本的能力。以下是o1作为一款尖端AI模型所带来的增强和功能的详细分析。 Full o1 版本的关键增强功能

Magentic-One：执行复杂任务的通用多代理系统的崛起

Rifx.Online
Autonomous Systems , Collaborative Intelligence , Ethics
26 Nov, 2024

本期内容：Magentic-One 的革命性是什么？协调者在任务解决中的角色多代理系统的优势和局限性对未来自主协作的影响👋 介绍在历史的很大一部分时间里，人类的创造力依赖于合作。从建设城市到进行复杂的科学研究，我们的物种在专业化团队合作中蓬勃发展。今天，人工智能正进入这一领域，不再是作为解决孤立问题的个体代理，而是作为能

新版 Claude 3.5 可以控制计算机：在编码方面超越 o1，重新定义代理能力

Rifx.Online
Programming , Machine Learning , Chatbots
20 Nov, 2024

Anthropic的突破性AI，Claude 3.5，像人类一样使用计算机，并在自动化领域成为游戏规则改变者作者杨子健 (ORCID: 0009–0006–8301–7634)

满足 Qwen2.5-Coder-32B-Instruct -Coder - 开源比 gpt4o 更好

Rifx.Online
Programming , Generative AI , Data Science
14 Nov, 2024

认识 Qwen2.5-Coder-32B-Coder，您新的 AI 编码伙伴您是否曾希望编码变得更简单、更快速，甚至更有趣？那么，准备好迎接您的新 AI 编码朋友 Qwen2.5-Coder。Qwen2.5-Code 专门开发了这个模型，作为一个尖端语言模型，以简化您的编码体验。想象一下，拥有一个知识渊博的助手，可以为您编写代码、调试、解释复杂概念，并处理多种语言。感兴

Claude 3.5 Haiku：人类的速度之魔脑力大增

Rifx.Online
Programming , Machine Learning , Chatbots
13 Nov, 2024

在人工智能进步的无情竞赛中，Anthropic刚刚推出了一位新的竞争者。认识一下Claude 3.5 Haiku，这是他们最快AI模型的最新版本。就像他们把短跑运动员送到了脑力训练营。结果呢？一个不仅在行动上迅速，而且在某些智力领域能够超越其更强大兄弟的模型。让我们深入了解一下这个新生事物的运作原理。速度（和智慧）的需求 Anthropic 之前的 Haiku 模型已经是他

Claude 3.5 Sonnet（新）：利用计算机控制能力开拓人工智能的未来

Rifx.Online
Programming , Technology , Generative AI
27 Oct, 2024

Anthropic于2024年10月22日发布了最新的AI模型Claude 3.5 Sonnet。此次发布引入了革命性的计算机控制能力，并在多个基准测试中实现了显著改进，为AI行业设定了新标准。革命性的计算机控制：新前沿 Claude 3.5 Sonnet 的突出特点是其能够像人类一样与计算机进行交互。这一突破性的能力使得 AI 可以：使用鼠标和键盘输入导航桌面界面