Type something to search...
竞争对比:google Flash 2.0模型如何超越deepseek和openai的ai技术

竞争对比:google Flash 2.0模型如何超越deepseek和openai的ai技术

谷歌的Gemini Flash 2.0基准测试

三周前,当DeepSeek发布R1时,他们的廉价推理模型,我认为这是人工智能革命的巅峰。我从未如此印象深刻。

然而,OpenAI和谷歌以空前的速度做出了回应。

OpenAI以o3-mini作出回应,这是一款极其强大且廉价的大型推理模型。与o1和R1一样,o3-mini在生成最终响应之前需要“思考”一段时间,这个过程显著提高了最终输出的准确性,但代价是更高的延迟。

然而,谷歌以完全不同的方式做出了回应。他们只是制造了一个更好的模型,彻底击溃了OpenAI和DeepSeek最强大的推理模型。

我感到无比震撼。

DeepSeek R1的隐藏问题

当DeepSeek R1首次发布时,我忙于欢呼,以至于没有注意到它的缺陷。

但是,随着我的玫瑰色眼镜失去光泽,我开始注意到其中的许多问题。

其中之一是该模型对于现代大型语言模型来说,上下文窗口非常低。

Image 2

DeepSeek R1的上下文窗口为128,000

128,000个令牌在GPT-3时代可能还不错,但对于实际的真实世界用例来说,显然是不够的。

事实上,我不得不进行变换,以减少我的提示上下文窗口,并执行一些最复杂的提示,例如财务分析提示。这绝对降低了性能。

相比之下,谷歌的Gemini Flash 2.0模型,价格远低于R1,具有100万个输入令牌的上下文窗口!

Image 3

OpenAI o3-mini模型信息

同样,o3-mini的价格略高于DeepSeek R1,具有200,000个输入令牌的上下文窗口。

Image 4

OpenAI o3-mini模型信息

然而,考虑到我的应用程序是在低上下文窗口时代创建的,这只是一个小问题。我已经实现了提示链来拆分我大多数大型复杂提示。

DeepSeek R1的主要、不可饶恕的问题是它实在是太慢了。

Image 5

DeepSeek的延迟

使用任何两个价格合理的提供商都实在无法使用。提示组合完成需要几分钟,这不可接受。

相比之下,谷歌的Gemini只需几秒钟,而且在这个价格下惊人地准确。

虽然我已经确定O3-mini比DeepSeek R1更好,但我在想……价格便宜得多的Gemini Flash又如何呢?

Flash 2.0、DeepSeek R1 和 GPT o3-mini 在 SQL 查询生成上的并排比较

为了比较这些模型,我将进行一系列半随机的财务分析问题。我的目标是查看 Flash 2.0 与 DeepSeek R1 和 GPT o3-mini 在复杂推理任务中的表现。

具体来说,我们将测试它们生成 SQL 查询的能力。这个测试很重要,因为它相对复杂,需要模型仔细遵循系统提示的约束,最终的准确性对最终用户非常重要。

我们将测试的查询类型与财务分析有关。这是因为我的交易平台 NexusTrade 具有自然语言接口,允许投资者使用人工智能查询股票。

因此,确定哪个模型更好至关重要。为了测试这一点,我们将根据以下标准对这三种模型进行测试:

  • 准确性
  • 成本
  • 相对速度和其他考虑因素

让我们从准确性测试开始。

准确性测试 1:查询相关性

在第一次测试中,我将向这3个模型询问以下问题:

在过去一年中,reddit股票与SPY的回报相关性是什么?

以下是响应。

Gemini Flash 2.0的响应

令我惊讶的是,谷歌的Gemini在几秒钟内就做出了响应。

由谷歌Gemini生成的查询

在执行模型的查询时,我得到了以下结果:

它计算出的相关性为0.28

这是100%的准确性。Gemini得分为1/1。

DeepSeek R1的响应

与谷歌的Gemini相比,DeepSeek R1的速度极慢。生成响应耗时超过30秒,主要是因为其“推理”组件。

然后,在等待了这么久之后,它在生成响应时犯了一个愚蠢的错误。

执行查询时的错误

它将“adjustedClosingPrice”错误地拼写为“justedClosingPrice”。当我们手动修复这个错别字时,我们得到了与谷歌的Gemini相同的响应,尽管提供的信息比我们要求的还要多。

修正错别字后的Gemini查询结果

这是准确的,但我们不得不手动重试逻辑。因此,我给它的评分是0.7/1。

OpenAI o3-mini Response

最后,让我们测试一下o3-mini的响应。O3-mini比R1快得多,但由于其“推理”组件,仍然有点慢。几秒钟后,我们得到了这个响应。

O3-mini的查询结果

O3-mini不知道Reddit的股票代码!它猜测为REDDIT,这是不正确的,导致我们得到一个空相关。当我们手动修复时,得到了正确的响应。

修正拼写错误后的查询结果

与我们对R1的评分类似,O3-mini因为我们必须修复查询而被扣分。最终得分:0.7/1。

所以在这个测试中,谷歌的Gemini实际上表现得比这两个模型稍好!然而,这只是一次测试。让我们看看这些模型在生成另一种类型的SQL查询时的表现。

准确性测试 2:关于收入增长的查询

在这个测试中,我们将提出以下问题:

在过去的4个季度中,哪些生物技术股票每个季度的收入都有所增加?

以下是响应:

Gemini Flash 2.0的响应

谷歌的Gemini Flash 2.0模型的查询结果

谷歌Flash再次在几秒钟内做出了响应。从手动检查查询来看,它看起来是正确的。然而,为了进一步确认,我要求GPT-o3-mini-high对最终答案进行评分。它确认了我的怀疑。

o3-mini给这个响应打了9/10的分

该模型有些挑剔,但总体上表现得非常完美。谷歌又得到了1/1!

DeepSeek R1的响应

相比之下,DeepSeek R1的表现实际上很糟糕。查询甚至看起来不正确,当我尝试执行它时,它失败了。

查询的响应无效。

更不用说,该模型的响应时间漫长……又一次。

总的来说,这一轮的表现非常糟糕。0/1。

OpenAI o3-mini 响应

就像上次测试一样,o3-mini 返回响应的时间适中,但比 R1 快得多。以下是最终响应。

来自 OpenAI o3-mini 的查询结果

查询略有不同,并检索到不同的股票列表。然而,它仍然看起来基本准确。我以相同的方式进行评分。

O3-mini-high 对该查询的评分响应

再次强调,该模型有一些挑剔,但 o3-mini 模型的响应仍然在技术上是准确的。这一轮 OpenAI 获得了满分!

成本分析:哪个模型更便宜?

然而,准确性并不是唯一重要的因素。对于大型推理模型应用来说,成本同样重要。让我们来看看它们的情况。

Image 18

DeepSeek R1的成本截至OpenRouter

Image 19

谷歌Gemini Flash 2.0的成本截至OpenRouter

Image 20

OpenAI o3-mini的成本截至OpenRouter

迄今为止,最便宜的模型是Gemini Flash 2.0。它的成本是每百万输入令牌0.10美元,每百万输出令牌0.40美元。

相比之下,R1的成本要贵得多——大约贵7倍。它的成本是每百万输入令牌0.75美元,每百万输出令牌2.4美元。

最后,OpenAI o3-mini模型是所有模型中最贵的。它的成本是每百万输入令牌1.1美元,每百万输出令牌4.4美元,使其比Gemini Flash贵11倍,比R1贵1.5倍。

这太疯狂了!

其他考虑因素

正如我在整篇文章中提到的,谷歌的Gemini模型比这两个模型都要快得多。Gemini是一个传统的大型语言模型——它在给出响应之前并不会花时间“思考”问题。虽然这种思考通常会显著提高准确性,但对于Gemini模型来说,似乎并不需要这样做才能表现良好。

最后,Gemini模型的上下文窗口比这两个模型都要大。总结这些结果:

  • 谷歌的Gemini 2.0 Flash:速度极快,第一次尝试就将两个SQL查询的结果都正确无误
  • DeepSeek R1: 速度慢得令人难以忍受,两个SQL查询都错误。第一个有一个小的拼写错误,而第二个则完全错误
  • OpenAI o3-mini:速度较慢,但并不是非常慢。由于不知道Reddit的股票代码,它对第一个查询稍微错误,而对第二个查询则100%正确。

从这些测试中,我们看到谷歌的Gemini Flash 2.0是迄今为止最强大、性价比最高的模型,超越了更昂贵的推理模型。这是谷歌的彻底胜利。

以至于我立即重构了我的交易平台,完全移除了DeepSeek R1,并将Gemini集成到人工智能聊天中。

Image 21

Gemini是NexusTrade中的“平衡性能与价值”模型

Image 22

询问Aurora哪些人工智能股票增加了他们的自由现金流

结论思考

当我第一次看到谷歌Gemini的成本时,我计划将其与提炼过的、较弱的R1模型进行直接对比。我完全不相信如此便宜的模型会如此强大。

我错了。它不仅异常强大,而且价格极其便宜。在我的(有限的、受限的)测试中,它在每一个方面都比最好的模型更出色。

根据这一分析,谷歌的Gemini Flash 2.0模型是:

  • 比OpenAI的o3-mini便宜10倍,比DeepSeek的R1便宜7倍
  • 快速多个数量级
  • 拥有更高的上下文窗口
  • 在一部分复杂SQL任务中,其能力极强,甚至可以说比O3-mini更强

这个模型无可否认地证明了我们正在向更便宜、更强大的大型推理模型迈进。它显著超越了竞争对手,证明了昂贵、资源密集型模型的时代已经结束。这一突破标志着行业的变革性转变,为在实际应用中提供更可及的高性能人工智能解决方案铺平了道路。

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

AI 研究报告和论文写作 合并两个系统指令以获得两个模型的最佳效果 Perplexity AI 的 Deep Research 工具提供专家级的研究报告,而 OpenAI 的 ChatGPT-o3-mini-high 擅长推理。我发现你可以将它们结合起来生成令人难以置信的论文,这些论文比任何一个模型单独撰写的都要好。你只需要将这个一次性提示复制到 **

阅读更多
让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

Non members click here作为一名软件开发人员,多年来的一个发现总是让我感到惊讶,那就是人们还在 Excel

阅读更多
使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

10 个常见问题解答 本文是我推出的一个名为“10 个常见问题解答”的新系列的一部分。在本系列中,我旨在通过回答关于该主题的十个最常见问题来分解复杂的概念。我的目标是使用简单的语言和相关的类比,使这些想法易于理解。 图片来自 [Solen Feyissa](https://unsplash.com/@solenfeyissa?utm_source=medium&utm_medi

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

在AI军备竞赛中分辨事实与虚构 DeepSeek AI真的是它所宣传的游戏规则改变者,还是仅仅聪明的营销和战略炒作?👀 虽然一些人将其视为AI效率的革命性飞跃,但另一些人则认为它的成功建立在借用(甚至窃取的)创新和可疑的做法之上。传言称,DeepSeek的首席执行官在疫情期间像囤积卫生纸一样囤积Nvidia芯片——这只是冰山一角。 从其声称的550万美元培训预算到使用Open

阅读更多
Type something to search...