
竞争对比:google Flash 2.0模型如何超越deepseek和openai的ai技术
谷歌的Gemini Flash 2.0基准测试
三周前,当DeepSeek发布R1时,他们的廉价推理模型,我认为这是人工智能革命的巅峰。我从未如此印象深刻。
然而,OpenAI和谷歌以空前的速度做出了回应。
OpenAI以o3-mini作出回应,这是一款极其强大且廉价的大型推理模型。与o1和R1一样,o3-mini在生成最终响应之前需要“思考”一段时间,这个过程显著提高了最终输出的准确性,但代价是更高的延迟。
然而,谷歌以完全不同的方式做出了回应。他们只是制造了一个更好的模型,彻底击溃了OpenAI和DeepSeek最强大的推理模型。
我感到无比震撼。
DeepSeek R1的隐藏问题
当DeepSeek R1首次发布时,我忙于欢呼,以至于没有注意到它的缺陷。
但是,随着我的玫瑰色眼镜失去光泽,我开始注意到其中的许多问题。
其中之一是该模型对于现代大型语言模型来说,上下文窗口非常低。
128,000个令牌在GPT-3时代可能还不错,但对于实际的真实世界用例来说,显然是不够的。
事实上,我不得不进行变换,以减少我的提示上下文窗口,并执行一些最复杂的提示,例如财务分析提示。这绝对降低了性能。
相比之下,谷歌的Gemini Flash 2.0模型,价格远低于R1,具有100万个输入令牌的上下文窗口!
同样,o3-mini的价格略高于DeepSeek R1,具有200,000个输入令牌的上下文窗口。
然而,考虑到我的应用程序是在低上下文窗口时代创建的,这只是一个小问题。我已经实现了提示链来拆分我大多数大型复杂提示。
DeepSeek R1的主要、不可饶恕的问题是它实在是太慢了。
使用任何两个价格合理的提供商都实在无法使用。提示组合完成需要几分钟,这不可接受。
相比之下,谷歌的Gemini只需几秒钟,而且在这个价格下惊人地准确。
虽然我已经确定O3-mini比DeepSeek R1更好,但我在想……价格便宜得多的Gemini Flash又如何呢?
Flash 2.0、DeepSeek R1 和 GPT o3-mini 在 SQL 查询生成上的并排比较
为了比较这些模型,我将进行一系列半随机的财务分析问题。我的目标是查看 Flash 2.0 与 DeepSeek R1 和 GPT o3-mini 在复杂推理任务中的表现。
具体来说,我们将测试它们生成 SQL 查询的能力。这个测试很重要,因为它相对复杂,需要模型仔细遵循系统提示的约束,最终的准确性对最终用户非常重要。
我们将测试的查询类型与财务分析有关。这是因为我的交易平台 NexusTrade 具有自然语言接口,允许投资者使用人工智能查询股票。
因此,确定哪个模型更好至关重要。为了测试这一点,我们将根据以下标准对这三种模型进行测试:
- 准确性
- 成本
- 相对速度和其他考虑因素
让我们从准确性测试开始。
准确性测试 1:查询相关性
在第一次测试中,我将向这3个模型询问以下问题:
在过去一年中,reddit股票与SPY的回报相关性是什么?
以下是响应。
Gemini Flash 2.0的响应
令我惊讶的是,谷歌的Gemini在几秒钟内就做出了响应。
由谷歌Gemini生成的查询
在执行模型的查询时,我得到了以下结果:
它计算出的相关性为0.28
这是100%的准确性。Gemini得分为1/1。
DeepSeek R1的响应
与谷歌的Gemini相比,DeepSeek R1的速度极慢。生成响应耗时超过30秒,主要是因为其“推理”组件。
然后,在等待了这么久之后,它在生成响应时犯了一个愚蠢的错误。
执行查询时的错误
它将“adjustedClosingPrice”错误地拼写为“justedClosingPrice”。当我们手动修复这个错别字时,我们得到了与谷歌的Gemini相同的响应,尽管提供的信息比我们要求的还要多。
修正错别字后的Gemini查询结果
这是准确的,但我们不得不手动重试逻辑。因此,我给它的评分是0.7/1。
OpenAI o3-mini Response
最后,让我们测试一下o3-mini的响应。O3-mini比R1快得多,但由于其“推理”组件,仍然有点慢。几秒钟后,我们得到了这个响应。
O3-mini的查询结果
O3-mini不知道Reddit的股票代码!它猜测为REDDIT,这是不正确的,导致我们得到一个空相关。当我们手动修复时,得到了正确的响应。
修正拼写错误后的查询结果
与我们对R1的评分类似,O3-mini因为我们必须修复查询而被扣分。最终得分:0.7/1。
所以在这个测试中,谷歌的Gemini实际上表现得比这两个模型稍好!然而,这只是一次测试。让我们看看这些模型在生成另一种类型的SQL查询时的表现。
准确性测试 2:关于收入增长的查询
在这个测试中,我们将提出以下问题:
在过去的4个季度中,哪些生物技术股票每个季度的收入都有所增加?
以下是响应:
Gemini Flash 2.0的响应
谷歌的Gemini Flash 2.0模型的查询结果
谷歌Flash再次在几秒钟内做出了响应。从手动检查查询来看,它看起来是正确的。然而,为了进一步确认,我要求GPT-o3-mini-high对最终答案进行评分。它确认了我的怀疑。
o3-mini给这个响应打了9/10的分
该模型有些挑剔,但总体上表现得非常完美。谷歌又得到了1/1!
DeepSeek R1的响应
相比之下,DeepSeek R1的表现实际上很糟糕。查询甚至看起来不正确,当我尝试执行它时,它失败了。
查询的响应无效。
更不用说,该模型的响应时间漫长……又一次。
总的来说,这一轮的表现非常糟糕。0/1。
OpenAI o3-mini 响应
就像上次测试一样,o3-mini 返回响应的时间适中,但比 R1 快得多。以下是最终响应。
来自 OpenAI o3-mini 的查询结果
查询略有不同,并检索到不同的股票列表。然而,它仍然看起来基本准确。我以相同的方式进行评分。
O3-mini-high 对该查询的评分响应
再次强调,该模型有一些挑剔,但 o3-mini 模型的响应仍然在技术上是准确的。这一轮 OpenAI 获得了满分!
成本分析:哪个模型更便宜?
然而,准确性并不是唯一重要的因素。对于大型推理模型应用来说,成本同样重要。让我们来看看它们的情况。
谷歌Gemini Flash 2.0的成本截至OpenRouter
迄今为止,最便宜的模型是Gemini Flash 2.0。它的成本是每百万输入令牌0.10美元,每百万输出令牌0.40美元。
相比之下,R1的成本要贵得多——大约贵7倍。它的成本是每百万输入令牌0.75美元,每百万输出令牌2.4美元。
最后,OpenAI o3-mini模型是所有模型中最贵的。它的成本是每百万输入令牌1.1美元,每百万输出令牌4.4美元,使其比Gemini Flash贵11倍,比R1贵1.5倍。
这太疯狂了!
其他考虑因素
正如我在整篇文章中提到的,谷歌的Gemini模型比这两个模型都要快得多。Gemini是一个传统的大型语言模型——它在给出响应之前并不会花时间“思考”问题。虽然这种思考通常会显著提高准确性,但对于Gemini模型来说,似乎并不需要这样做才能表现良好。
最后,Gemini模型的上下文窗口比这两个模型都要大。总结这些结果:
- 谷歌的Gemini 2.0 Flash:速度极快,第一次尝试就将两个SQL查询的结果都正确无误
- DeepSeek R1: 速度慢得令人难以忍受,两个SQL查询都错误。第一个有一个小的拼写错误,而第二个则完全错误
- OpenAI o3-mini:速度较慢,但并不是非常慢。由于不知道Reddit的股票代码,它对第一个查询稍微错误,而对第二个查询则100%正确。
从这些测试中,我们看到谷歌的Gemini Flash 2.0是迄今为止最强大、性价比最高的模型,超越了更昂贵的推理模型。这是谷歌的彻底胜利。
以至于我立即重构了我的交易平台,完全移除了DeepSeek R1,并将Gemini集成到人工智能聊天中。
Gemini是NexusTrade中的“平衡性能与价值”模型
询问Aurora哪些人工智能股票增加了他们的自由现金流
结论思考
当我第一次看到谷歌Gemini的成本时,我计划将其与提炼过的、较弱的R1模型进行直接对比。我完全不相信如此便宜的模型会如此强大。
我错了。它不仅异常强大,而且价格极其便宜。在我的(有限的、受限的)测试中,它在每一个方面都比最好的模型更出色。
根据这一分析,谷歌的Gemini Flash 2.0模型是:
- 比OpenAI的o3-mini便宜10倍,比DeepSeek的R1便宜7倍
- 快速多个数量级
- 拥有更高的上下文窗口
- 在一部分复杂SQL任务中,其能力极强,甚至可以说比O3-mini更强
这个模型无可否认地证明了我们正在向更便宜、更强大的大型推理模型迈进。它显著超越了竞争对手,证明了昂贵、资源密集型模型的时代已经结束。这一突破标志着行业的变革性转变,为在实际应用中提供更可及的高性能人工智能解决方案铺平了道路。