Claude 3.5 Sonnet V/S GPT-4O：哪一个更好

Rifx.Online
Generative AI , Machine Learning , Natural Language Processing
27 Oct, 2024

在2022年11月，OpenAI推出了ChatGPT，这一模型彻底改变了我们搜索和与信息互动的方式。次年3月，由前OpenAI员工创办的美国初创公司“Anthropic”推出了他们自己的AI模型“Claude”。自发布以来，这两家AI公司一直在竞争，以通过其AI模型为客户提供最佳的功能和体验。最近，OpenAI推出了“GPT-4o”，这是一个令人惊叹的模型，能够出色地处理文件、语音和视频数据。同样，Claude推出了“Claude 3.5 Sonnet”，他们声称这是最先进的AI模型，能够处理复杂任务。在本文中，我们将确定Claude 3.5 Sonnet和GPT-4o之间哪个更好，并比较其在相同输入下的功能和输出，以检查哪个更适合您。

能力和特性

GPT-4o

GPT-4o 是 OpenAI 最新推出的 LLM。“o” 代表 omni，意为拉丁语中的“每一个”。该模型可以分析语音、图像、视频和文件作为输入，并相应地做出回应。它可以接受语音输入，并以不同角色的声音输出，包括语调、情感等。整个过程与人类对话的延迟相当低，平均为 0.32 秒，而其他语音模型则为 2.8 秒。它还允许用户生成书面内容，如文章、博客、产品描述、不同编程语言的代码、数据分析、图表等。此外，GPT-4o 还可以分析图像和视频，使该模型可以充当语言翻译器、个人助理、虚拟教师或购物助手。它还可以用于医学、工程、军事等领域。要使用此功能，GPT-4o 可以使用用户的摄像头获取实时视图，并在语音模式下相应地回应。它还可以访问您的计算机屏幕，并描述屏幕上显示的内容，用户可以询问与屏幕上显示的内容相关的问题。

例如，用户可以在屏幕上启用该模型，打开 VS 代码，并提示模型充当编码助手，以获取编码问题的答案。或者，您可以启用摄像头，充当健身教练，检查您是否做得正确。

该模型具有独特的功能，如数据分析、代码解释器和实时网页浏览，使其与竞争对手不同。该模型还有大量的 GPTs，这是 ChatGPT 的定制版本。

Claude 3.5 Sonnet

Claude 3.5 Sonnet 是由 Anthropic 推出的 AI 聊天机器人。它是 Claude AI 模型系列的第三代。这一模型在多个评估中表现出色，保持了高基准，避免了幻觉和错误信息。虽然它不支持像 GPT-4o 那样的语音和视频功能，但它仍然可以执行所有基本任务，例如文本生成和不同编程语言的代码生成、头脑风暴等。根据 Anthropic 的报告，Claude 3.5 Sonnet 是市场上最好的计算机视觉模型之一，可以用于分析图表和图形，从图像中转录文本等。Claude 拥有一个先进的功能，“Artifacts”，这是一个在对话中出现的特殊弹出窗口，允许用户查看代码片段、文本文件或网站设计，并允许他们实时编辑输出。

例如，用户可以在工作流程中使用计算机视觉和 artifacts。用户可以在纸上进行网站设计的基本原型制作，将文件附加到 Claude 3.5 Sonnet，并提示它根据原型设计网站。生成的代码和网站设计会出现在 artifacts 中。用户可以根据自己的需求编辑代码和设计。用户还可以将他们的项目实时发布到互联网上。

逐项比较

在本节中，我们将根据复杂推理和代码生成等因素比较这两个 LLM，检查它们在处理复杂任务方面的能力，并看看哪个模型更好。

**研究生水平推理(GPQA, Diamond)**此因素评估模型处理研究生水平教育中复杂、高级推理任务的能力。在此任务中，研究人员在 GPQA 测试中比较模型，该测试由专家设计，包含448个不同领域的问题。这些问题是 Google Proof，因此任何人都无法在线找到它们。Claude 的得分接近 59.4%，而 GPT-4o 的得分仅为 53.6%。虽然两个得分相对接近，但正如我们所见，Claude 在需要高级分析思维的任务中可能是更好的选择，例如研究分析、复杂问题解决和高学术水平的问题。
**本科水平知识(MMLU)**MMLU，即大规模多任务语言理解，是一个基准，解释任何 AI 模型在本科水平上对各个学科的通用知识理解。Claude 3.5 Sonnet 在此实验中的得分为 88.3%，而 GPT-4o 的得分为 88.7%。这表明这两个 LLM 在多个领域进行了训练，并对这些领域有更深入的理解。这使得 AI 模型成为通用知识任务、多个学科的基础辅导等的合适工具。

**代码(HumanEval)**HumanEval 是一个基准，评估模型生成、理解和调试代码的能力。在这个基准中，Claude 3.5 Sonnet 达到了 92%的得分，而 GPT-4o 的得分为 90.2%。Claude 3.5 Sonnet 在此任务中的结果非常出色，因为它提供了比 GPT-4o 更好的编码环境“Artifacts”和更好的代码生成。Claude 允许用户在 Artifacts 弹出窗口中设计、编辑和运行代码。在 Claude 3.5 Sonnet 发布后，大家都在开发工具、网站和基本游戏，并在互联网上分享它们。另一方面，GPT-4o 的得分也不错，但它的界面中没有任何编码环境，因此开发人员必须花费很多精力，因为它生成的代码很难达到结果。
**文本推理(DROP, FLscore)**DROP（段落离散推理）是一个基准，测量模型理解复杂文本信息的能力。在这个挑战中，Claude 3.5 Sonnet 的得分为 87.1%，而 GPT-4o 的得分为 83.4%。这表明 Claude 3.5 Sonnet 在涉及详细文本分析、文本审查、复杂问答系统等任务时更好且更有效。

**数学问题解决(MATH)**此测试评估任何 AI 模型解决各种数学问题的能力。Claude 3.5 Sonnet 的得分仅为 71.1%，而 GPT-4o 的得分为 76.6%。这些得分使 GPT-4o 成为数学问题解决任务的更好模型，并可用于财务建模、科学计算和高级数据分析等数学计算。
**多语言数学(MSGM)**此因素描述任何 AI 模型在多种语言中解决数学问题的能力。两个模型的得分接近：GPT-4o 90.5% 和 Claude 3.5 Sonnet 91.6%。这表明两个模型表现出色，Claude 略胜一筹。该能力对于教育应用或任何需要跨语言障碍进行数学推理交流的场景特别有用。
**视觉问答(MMU/val)**此因素描述 LLM 分析图像中呈现的信息的能力。GPT-4o 在这一基准中以 69.1% 超过 Claude 3.5 Sonnet 的 68.3%。另一方面，在分析文档中的文本时，Claude 3.5 Sonnet 的得分为 95.2%，而 GPT-4o 的得分为 92.1%。

图像生成图像生成是 LLM 从文本生成图像的能力。GPT-4o 集成了 DallE-2，可以通过文本生成图像，结果非常出色。另一方面，Claude 3.5 Sonnet 无法创建任何图像。此功能还帮助 GPT-4o 更好地设计网站和参考，因为它在许多图像上进行了训练。
知识截止在这里，两个模型都在特定日期之前的有限数据集上进行了训练。Claude 3.5 Sonnet 在 2024 年 4 月之前的数据上进行了训练，而 GPT-4o 则在 2024 年之前的数据上进行了训练。GPT-4o 的真正优势在于它具有实时网页浏览功能，这有助于 LLM 定期在新数据上进行训练。

GPT-4o 的优点：

处理语音、图像和视频输入。
实时网页浏览能力。
更快的响应时间（平均 0.32 秒）。
在数学问题解决方面表现优越。
可以使用 DALL-E 2 生成图像。

GPT-4o 的缺点：

研究生水平推理的性能稍低。
没有内置的编码环境。
文档视觉问答得分较低。
代码生成能力稍逊。
在详细文本分析方面效果较差。

Pros Claude 3.5 Sonnet:

在研究生级别的推理方面表现出色。
优越的代码生成和内置的“工件”功能。
在详细文本分析中表现更佳。
在文档视觉问答中得分更高。
在多语言数学方面略有优势。

Cons Claude 3.5 颂：

无法处理语音或视频输入。
没有图像生成能力。
在视觉问答方面性能稍低。
无法访问实时网络信息。
在数学问题解决方面较弱。

结论

GPT-4o 和 Claude 3.5 Sonnet 在各种任务中展现了令人印象深刻的能力，各自有其优势。GPT-4o 在多模态输入、实时信息访问和图像生成方面表现出色，使其在多种应用中非常灵活。Claude 3.5 Sonnet 在复杂推理、代码生成和详细文本分析方面表现突出，在特定的学术和专业背景下提供了更优的性能。选择这两种模型取决于具体的使用案例和所需的功能。随着人工智能技术的进步，我们可以期待进一步的改进和针对不同需求的专业模型。