Google Gemini-Exp-1206:新的最佳法律硕士
Beats GPT-4.0, OpenAI-o1, Claude3.5 Sonnet and Gemini 1.5 on LMArena
谷歌的 Gemini 在几个月前在生成式 AI 领域的首次亮相表现平平,但如今其发展速度相当快。现在,它发布了一个新的实验模型 Gemini-1206-Exp,该模型在 ChatArena 排行榜上超越了所有其他模型,从而在生成式 AI 领域领先。
Gemini-exp-1206 在 LMArena 上排名第一,这是一个著名的 LLM 排名平台,如下图所示
LMArena 是什么?
LMArena,或 Chatbot Arena,是一个用于评估大型语言模型(LLMs)的开源平台。该平台由 LMSYS 和 UC Berkeley SkyLab 开发,旨在通过实时测试和直接比较,支持社区驱动的 LLM 性能评估。
理解排行榜
- Arena Score: Arena Score 表示模型在各种任务中的平均表现,分数越高表示整体能力越强。例如,Gemini-Exp-1206 的 Arena Score 为 1379,是排行榜上最高的,略高于 ChatGPT-4.0 的 1366 分,表明其在评估中平均表现更好。它甚至超过了其同类 Gemini-Exp-1114。
- Rank (StyleCtrl 和 UB): Rank (UB) 反映了模型在多个任务中的表现,不考虑特定的风格调整。相比之下,Rank (StyleCtrl) 测量模型根据风格提示(如语气和正式程度)调整响应的能力。
值得注意的是,Gemini-Exp-1206 在这两种情况下均排名第一,超过了 ChatGPT-4o-latest。
- Votes: 这个指标表示每个模型在 LMArena 上收到的评价数量。ChatGPT-4.0 以 21,929 票领先,远高于 Gemini-Exp-1206 的 5052 票。较高的票数通常表明由于广泛的测试和用户参与,其可靠性更高。
4. 95% 置信区间 (CI): 置信区间展示了模型得分的变异范围,置信水平为 95%。对于 Gemini,CI 为 ±10/-5,而对于 ChatGPT,CI 为 ±4/-5。较小的置信区间表示性能更一致;因此,虽然 Gemini 平均得分略高,但 ChatGPT-4.0 在评估中的稳定性更强。
Gemini 实验模型是什么?
Gemini 实验模型是为测试和反馈设计的前沿原型。它们让开发者能够提前访问 Google 的最新 AI 进展,并展示正在进行的创新。
这些模型是临时的,可能会在没有通知的情况下被替换,并且可能不会发展为稳定版本。因此,它们不适合用于生产环境。
如何免费使用 Gemini-Exp-1206?
- 只需访问 Google AI Studio 并登录(免费)
- 点击创建提示
- 在设置中将模型更改为 Gemini Experimental 1206
- 开始聊天
结论
尽管结果令人印象深刻,但请记住这仍然只是一个实验模型。其全部潜力将随着时间的推移而逐渐显现。能够见证如此激烈的竞争令人兴奋,而稳定版的发布更是值得期待。