Type something to search...
ChatGPT 4 与 Claude 3.5 Sonnet:谁更胜一筹?让我们回顾一下

ChatGPT 4 与 Claude 3.5 Sonnet:谁更胜一筹?让我们回顾一下

我进行了测试 — ChatGPT 4 与 Claude 3 Sonnet,谁胜出?

热议中,城里出现了一个新的聊天机器人玩家,Claude 3 Sonnet。它被描述为比 ChatGPT 更好,但也有相互矛盾的评价,比如 ChatGPT 依然是王者。

注意:随着 2024 年 6 月的最新更新,Claude 3.5 Sonnet 已发布,它比 GPT-4o 和 Claude 3 Opus 强大得多!

您可以通过 Anakin AI 立即进行测试:

  • 使用 Anakin AI,您可以在一个订阅下访问多种 AI 工具,包括 Claude 3.5 Sonnet。
  • 这意味着您无需单独管理多个 AI 模型,从而节省时间和潜在的金钱。

  • Anakin AI 提供用户友好的界面,轻松构建无代码 AI 应用!

  • 如果您想在自己的服务器上部署 AI 模型,Anakin AI 提供适合商业使用的 API!

互联网上发布了很多基准测试,但我是一个喜欢看到结果来支持这些数据的人,所以我不得不亲自尝试,通过在不同测试中使用相同的提示对这两个模型进行比较,以查看哪个模型提供最佳结果。

在这次测试中,我将比较 ChatGPT 4 和 Claude 3 Sonnet,我不会使用任何图像生成。这些测试将专注于两个聊天机器人共享的功能,以保持公平性。

注意:所使用的图像与其原生平台不匹配,因为这些图像是在 AnakinAI 上生成的,该平台与 ChatGPT 和 Claude API 相关联,使我能够在同一平台上使用这两个模型。这非常方便。

1. 自然语言理解

我决定首先测试两个模型的能力,看看这两个聊天机器人能否解读模糊性并澄清言语。

我使用的提示是:“约翰告诉玛丽,‘我完成了一半的工作。’玛丽回复,‘太好了!但我希望你今天能全部完成。’玛丽所说的‘它’是什么意思?”

两个模型都给出了合理的回应,ChatGPT直截了当,而Claude则提供了更深入的解释。

在离开之前,我又做了一次测试,使用了CRT(认知反思测试),看看它会输出什么结果,我对此感到兴奋。

这是提示:“如果5台机器需要5分钟制造5个小部件,那么100台机器需要多长时间才能制造100个小部件?”答案应该是5分钟。

赢家:Claude 3 Sonnet因其解释的清晰度而获胜。

2. 文本生成

在第二个测试中,我们将专注于文本生成,这可能有点难以判断,因为这基于个人偏好。

我给了两个模型以下提示:“写一首关于机器人爱上人类的十四行诗。”

我将根据原创性、情感深度、遵循十四行诗结构和韵律来评判,记住我的结果会有偏见。最后,我根据给我提供真正十四行诗的模型进行了评判,作为参考,以下是十四行诗的简短定义;十四行诗是一种由十四行组成的诗。 我不确定为什么 ChatGPT 给了我这么长的诗,那根本就不是十四行诗,胜者显而易见。

获胜者:Claude 3 十四行诗

3. 编码挑战

AI被认为可以给已经会编程的人带来优势,同时也可以帮助那些甚至不知道如何编程的人仅凭提示生成正确的代码,但聊天机器人在生成代码方面的表现如何呢?我要求两个模型生成一个简单的Python代码。

提示:编写一个Python程序,打印给定月份和年份的日历。

获胜者:ChatGPT 4,因为代码实际上运行并且工作顺利。

4. 情感分析

这些语言模型在文本中分析人类情感的能力如何?如果我这样说,这确实是个好问题。推理是AI模型的一个基准,而一些模型未能通过测试。让我们用这个来测试一下。

提示:Sarah:“我对最近一次去你们餐厅的访问感到非常失望。服务非常慢,我的食物在最终到达时还是冷的。我不会很快再来了。” 识别Sarah的情感。

这个问题的答案显然是负面的,让我们看看聊天机器人是如何回应的。

赢家:Claude 3 Sonnet,它的细节更丰富

5. 信息提取与推理

我们将测试聊天机器人的能力,从句子中提取关键信息,进行基本推理,并根据提取的信息回答问题,使用以下提示。

提示:一列火车以每小时60英里的速度从芝加哥向西出发。一个小时后,正午12点,另一列火车以每小时80英里的速度从芝加哥向东出发。两列火车何时与芝加哥的距离相同?

这个问题的答案应该是下午3点,让我们看看聊天机器人表现如何。

赢家:平局。我认为他们都值得获胜。

6. 翻译

最后但并非最不重要的是,我想测试这两个模型的翻译技能,以及它们在文化意识方面的处理方式。我将提供一篇语言的事实新闻文章,并评估翻译版本的准确性和对原意的遵循。

提示:谷歌表示,它正在利用2022年算法调整所学到的经验,以“减少无帮助、无原创内容”,并将其应用于新的更新。该公司表示,这些变化将为“有帮助和高质量的网站”带来更多流量。结合两年前的更新,谷歌估计此次修订将减少40%的垃圾和无原创搜索结果。

我将两者翻译成了格鲁吉亚语。它们的准确性并不是百分之百,ChatGPT 4 确实偏离了目标,而更好的一个是 Claude 3 Sonnet。

赢家:Claude-3 Sonnet。

ChatGPT4与Claude 3 Sonnet之间的较量突显了大型语言模型的持续进步。这两个模型展示了令人印象深刻的能力,各有其优势。但对于上述测试,Claude 3 Sonnet 更胜一筹。

最终,“最佳”模型取决于您的具体需求。

Related Posts

使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
10 个强大的 Perplexity AI 提示,让您的营销任务自动化

10 个强大的 Perplexity AI 提示,让您的营销任务自动化

在当今快速变化的数字世界中,营销人员总是在寻找更智能的方法来简化他们的工作。想象一下,有一个个人助理可以为您创建受众档案,建议营销策略,甚至为您撰写广告文案。这听起来像是一个梦想? 多亏了像 Perplexity 这样的 AI 工具,这个梦想现在成为现实。通过正确的提示,您可以将 AI 转变为您的 个人营销助理。在本文中,我将分享 10 个强大的提示,帮助您自动

阅读更多
10+ 面向 UI/UX 设计师的顶级 ChatGPT 提示

10+ 面向 UI/UX 设计师的顶级 ChatGPT 提示

人工智能技术,如机器学习、自然语言处理和数据分析,正在重新定义传统设计方法。从自动化重复任务到实现个性化用户体验,人工智能使设计师能够更加专注于战略思维和创造力。随着这一趋势的不断增长,UI/UX 设计师越来越多地采用 AI 驱动的工具来促进他们的工作。利用人工智能不仅能提供基于数据的洞察,还为满足多样化用户需求的创新设计解决方案开辟了机会。 1. 用户角色开发 目的

阅读更多
在几分钟内完成数月工作的 100 种人工智能工具

在几分钟内完成数月工作的 100 种人工智能工具

人工智能(AI)的快速发展改变了企业的运作方式,使人们能够在短短几分钟内完成曾经需要几周或几个月的任务。从内容创作到网站设计,AI工具帮助专业人士节省时间,提高生产力,专注于创造力。以下是按功能分类的100个AI工具的全面列表,以及它们在现实世界中的使用实例。 1. 研究工具 研究可能耗时,但人工智能工具使查找、分析和组织数据变得更加容易。**ChatGPT, Cop

阅读更多
你从未知道的 17 个令人惊叹的 GitHub 仓库

你从未知道的 17 个令人惊叹的 GitHub 仓库

Github 隐藏的宝石!! 立即收藏的代码库 学习编程相对简单,但掌握编写更好代码的艺术要困难得多。GitHub 是开发者的宝藏,那里“金子”是其他人分享的精心编写的代码。通过探索 GitHub,您可以发现如何编写更清晰的代码,理解高质量代码的样子,并学习成为更熟练开发者的基本步骤。 1. notwaldorf/emoji-translate *谁需

阅读更多