ChatGPT 4 与 Claude 3.5 Sonnet：谁更胜一筹？让我们回顾一下

ChatGPT 4 与 Claude 3.5 Sonnet：谁更胜一筹？让我们回顾一下

Rifx.Online
Natural Language Processing , Chatbots , Programming/Scripting
20 Nov, 2024

我进行了测试 — ChatGPT 4 与 Claude 3 Sonnet，谁胜出？

热议中，城里出现了一个新的聊天机器人玩家，Claude 3 Sonnet。它被描述为比 ChatGPT 更好，但也有相互矛盾的评价，比如 ChatGPT 依然是王者。

注意：随着 2024 年 6 月的最新更新，Claude 3.5 Sonnet 已发布，它比 GPT-4o 和 Claude 3 Opus 强大得多！

您可以通过 Anakin AI 立即进行测试：

使用 Anakin AI，您可以在一个订阅下访问多种 AI 工具，包括 Claude 3.5 Sonnet。
这意味着您无需单独管理多个 AI 模型，从而节省时间和潜在的金钱。

Anakin AI 提供用户友好的界面，轻松构建无代码 AI 应用！

如果您想在自己的服务器上部署 AI 模型，Anakin AI 提供适合商业使用的 API！

互联网上发布了很多基准测试，但我是一个喜欢看到结果来支持这些数据的人，所以我不得不亲自尝试，通过在不同测试中使用相同的提示对这两个模型进行比较，以查看哪个模型提供最佳结果。

在这次测试中，我将比较 ChatGPT 4 和 Claude 3 Sonnet，我不会使用任何图像生成。这些测试将专注于两个聊天机器人共享的功能，以保持公平性。

注意：所使用的图像与其原生平台不匹配，因为这些图像是在 AnakinAI 上生成的，该平台与 ChatGPT 和 Claude API 相关联，使我能够在同一平台上使用这两个模型。这非常方便。

1. 自然语言理解

我决定首先测试两个模型的能力，看看这两个聊天机器人能否解读模糊性并澄清言语。

我使用的提示是：“约翰告诉玛丽，‘我完成了一半的工作。’玛丽回复，‘太好了！但我希望你今天能全部完成。’玛丽所说的‘它’是什么意思？”

两个模型都给出了合理的回应，ChatGPT直截了当，而Claude则提供了更深入的解释。

在离开之前，我又做了一次测试，使用了CRT（认知反思测试），看看它会输出什么结果，我对此感到兴奋。

这是提示：“如果5台机器需要5分钟制造5个小部件，那么100台机器需要多长时间才能制造100个小部件？”答案应该是5分钟。

赢家：Claude 3 Sonnet因其解释的清晰度而获胜。

2. 文本生成

在第二个测试中，我们将专注于文本生成，这可能有点难以判断，因为这基于个人偏好。

我给了两个模型以下提示：“写一首关于机器人爱上人类的十四行诗。”

我将根据原创性、情感深度、遵循十四行诗结构和韵律来评判，记住我的结果会有偏见。最后，我根据给我提供真正十四行诗的模型进行了评判，作为参考，以下是十四行诗的简短定义；十四行诗是一种由十四行组成的诗。 我不确定为什么 ChatGPT 给了我这么长的诗，那根本就不是十四行诗，胜者显而易见。

获胜者：Claude 3 十四行诗

3. 编码挑战

AI被认为可以给已经会编程的人带来优势，同时也可以帮助那些甚至不知道如何编程的人仅凭提示生成正确的代码，但聊天机器人在生成代码方面的表现如何呢？我要求两个模型生成一个简单的Python代码。

提示：编写一个Python程序，打印给定月份和年份的日历。

获胜者：ChatGPT 4，因为代码实际上运行并且工作顺利。

4. 情感分析

这些语言模型在文本中分析人类情感的能力如何？如果我这样说，这确实是个好问题。推理是AI模型的一个基准，而一些模型未能通过测试。让我们用这个来测试一下。

提示：Sarah：“我对最近一次去你们餐厅的访问感到非常失望。服务非常慢，我的食物在最终到达时还是冷的。我不会很快再来了。” 识别Sarah的情感。

这个问题的答案显然是负面的，让我们看看聊天机器人是如何回应的。

赢家：Claude 3 Sonnet，它的细节更丰富

5. 信息提取与推理

我们将测试聊天机器人的能力，从句子中提取关键信息，进行基本推理，并根据提取的信息回答问题，使用以下提示。

提示：一列火车以每小时60英里的速度从芝加哥向西出发。一个小时后，正午12点，另一列火车以每小时80英里的速度从芝加哥向东出发。两列火车何时与芝加哥的距离相同？

这个问题的答案应该是下午3点，让我们看看聊天机器人表现如何。

赢家：平局。我认为他们都值得获胜。

6. 翻译

最后但并非最不重要的是，我想测试这两个模型的翻译技能，以及它们在文化意识方面的处理方式。我将提供一篇语言的事实新闻文章，并评估翻译版本的准确性和对原意的遵循。

提示：谷歌表示，它正在利用2022年算法调整所学到的经验，以“减少无帮助、无原创内容”，并将其应用于新的更新。该公司表示，这些变化将为“有帮助和高质量的网站”带来更多流量。结合两年前的更新，谷歌估计此次修订将减少40%的垃圾和无原创搜索结果。

我将两者翻译成了格鲁吉亚语。它们的准确性并不是百分之百，ChatGPT 4 确实偏离了目标，而更好的一个是 Claude 3 Sonnet。

赢家：Claude-3 Sonnet。

ChatGPT4与Claude 3 Sonnet之间的较量突显了大型语言模型的持续进步。这两个模型展示了令人印象深刻的能力，各有其优势。但对于上述测试，Claude 3 Sonnet 更胜一筹。

最终，“最佳”模型取决于您的具体需求。

Tags :

Share :

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示：提升论文写作质量的终极指南

结合chatgpt-o3-mini与perplexity Deep Research的3步提示：提升论文写作质量的终极指南

Rifx.Online
Natural Language Processing , AI Applications , AI Research
05 Mar, 2025

AI 研究报告和论文写作合并两个系统指令以获得两个模型的最佳效果 Perplexity AI 的 Deep Research 工具提供专家级的研究报告，而 OpenAI 的 ChatGPT-o3-mini-high 擅长推理。我发现你可以将它们结合起来生成令人难以置信的论文，这些论文比任何一个模型单独撰写的都要好。你只需要将这个一次性提示复制到 **

让 Excel 过时的 10 种 Ai 工具：实现数据分析自动化，节省手工作业时间

让 Excel 过时的 10 种 Ai 工具：实现数据分析自动化，节省手工作业时间

Rifx.Online
AI Applications , Data Science , Tech Trends
05 Mar, 2025

Non members click here作为一名软件开发人员，多年来的一个发现总是让我感到惊讶，那就是人们还在 Excel

使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如，提示和输出你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务，而不仅仅是基本的网络搜索吗？对于那些不知道的人，ChatGPT 新的“搜索网络”功能提供实时信息。截至撰写此帖时，该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

掌握Ai代理：解密Google革命性白皮书的10个关键问题解答

掌握Ai代理：解密Google革命性白皮书的10个关键问题解答

Rifx.Online
AI Applications , Natural Language Processing , Machine Learning
05 Mar, 2025

10 个常见问题解答本文是我推出的一个名为“10 个常见问题解答”的新系列的一部分。在本系列中，我旨在通过回答关于该主题的十个最常见问题来分解复杂的概念。我的目标是使用简单的语言和相关的类比，使这些想法易于理解。图片来自 [Solen Feyissa](https://unsplash.com/@solenfeyissa?utm_source=medium&utm_medi

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

Rifx.Online
Technology , Generative AI , Data Science
16 Nov, 2024

在人工智能和科技这样一个动态的行业中，保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析，还是希望通过人工智能转变传统领域如法律，这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表，可以助力你的职业发展，并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

揭开真相！深度探悉DeepSeek AI的十大误区，您被误导了吗？

揭开真相！深度探悉DeepSeek AI的十大误区，您被误导了吗？

在AI军备竞赛中分辨事实与虚构 DeepSeek AI真的是它所宣传的游戏规则改变者，还是仅仅聪明的营销和战略炒作？👀 虽然一些人将其视为AI效率的革命性飞跃，但另一些人则认为它的成功建立在借用（甚至窃取的）创新和可疑的做法之上。传言称，DeepSeek的首席执行官在疫情期间像囤积卫生纸一样囤积Nvidia芯片——这只是冰山一角。从其声称的550万美元培训预算到使用Open