ChatGPT 4 与 Claude 3.5 Sonnet:谁更胜一筹?让我们回顾一下
我进行了测试 — ChatGPT 4 与 Claude 3 Sonnet,谁胜出?
热议中,城里出现了一个新的聊天机器人玩家,Claude 3 Sonnet。它被描述为比 ChatGPT 更好,但也有相互矛盾的评价,比如 ChatGPT 依然是王者。
注意:随着 2024 年 6 月的最新更新,Claude 3.5 Sonnet 已发布,它比 GPT-4o 和 Claude 3 Opus 强大得多!
您可以通过 Anakin AI 立即进行测试:
- 使用 Anakin AI,您可以在一个订阅下访问多种 AI 工具,包括 Claude 3.5 Sonnet。
- 这意味着您无需单独管理多个 AI 模型,从而节省时间和潜在的金钱。
- Anakin AI 提供用户友好的界面,轻松构建无代码 AI 应用!
- 如果您想在自己的服务器上部署 AI 模型,Anakin AI 提供适合商业使用的 API!
互联网上发布了很多基准测试,但我是一个喜欢看到结果来支持这些数据的人,所以我不得不亲自尝试,通过在不同测试中使用相同的提示对这两个模型进行比较,以查看哪个模型提供最佳结果。
在这次测试中,我将比较 ChatGPT 4 和 Claude 3 Sonnet,我不会使用任何图像生成。这些测试将专注于两个聊天机器人共享的功能,以保持公平性。
注意:所使用的图像与其原生平台不匹配,因为这些图像是在 AnakinAI 上生成的,该平台与 ChatGPT 和 Claude API 相关联,使我能够在同一平台上使用这两个模型。这非常方便。
1. 自然语言理解
我决定首先测试两个模型的能力,看看这两个聊天机器人能否解读模糊性并澄清言语。
我使用的提示是:“约翰告诉玛丽,‘我完成了一半的工作。’玛丽回复,‘太好了!但我希望你今天能全部完成。’玛丽所说的‘它’是什么意思?”
两个模型都给出了合理的回应,ChatGPT直截了当,而Claude则提供了更深入的解释。
在离开之前,我又做了一次测试,使用了CRT(认知反思测试),看看它会输出什么结果,我对此感到兴奋。
这是提示:“如果5台机器需要5分钟制造5个小部件,那么100台机器需要多长时间才能制造100个小部件?”答案应该是5分钟。
赢家:Claude 3 Sonnet因其解释的清晰度而获胜。
2. 文本生成
在第二个测试中,我们将专注于文本生成,这可能有点难以判断,因为这基于个人偏好。
我给了两个模型以下提示:“写一首关于机器人爱上人类的十四行诗。”
我将根据原创性、情感深度、遵循十四行诗结构和韵律来评判,记住我的结果会有偏见。最后,我根据给我提供真正十四行诗的模型进行了评判,作为参考,以下是十四行诗的简短定义;十四行诗是一种由十四行组成的诗。 我不确定为什么 ChatGPT 给了我这么长的诗,那根本就不是十四行诗,胜者显而易见。
获胜者:Claude 3 十四行诗
3. 编码挑战
AI被认为可以给已经会编程的人带来优势,同时也可以帮助那些甚至不知道如何编程的人仅凭提示生成正确的代码,但聊天机器人在生成代码方面的表现如何呢?我要求两个模型生成一个简单的Python代码。
提示:编写一个Python程序,打印给定月份和年份的日历。
获胜者:ChatGPT 4,因为代码实际上运行并且工作顺利。
4. 情感分析
这些语言模型在文本中分析人类情感的能力如何?如果我这样说,这确实是个好问题。推理是AI模型的一个基准,而一些模型未能通过测试。让我们用这个来测试一下。
提示:Sarah:“我对最近一次去你们餐厅的访问感到非常失望。服务非常慢,我的食物在最终到达时还是冷的。我不会很快再来了。” 识别Sarah的情感。
这个问题的答案显然是负面的,让我们看看聊天机器人是如何回应的。
赢家:Claude 3 Sonnet,它的细节更丰富
5. 信息提取与推理
我们将测试聊天机器人的能力,从句子中提取关键信息,进行基本推理,并根据提取的信息回答问题,使用以下提示。
提示:一列火车以每小时60英里的速度从芝加哥向西出发。一个小时后,正午12点,另一列火车以每小时80英里的速度从芝加哥向东出发。两列火车何时与芝加哥的距离相同?
这个问题的答案应该是下午3点,让我们看看聊天机器人表现如何。
赢家:平局。我认为他们都值得获胜。
6. 翻译
最后但并非最不重要的是,我想测试这两个模型的翻译技能,以及它们在文化意识方面的处理方式。我将提供一篇语言的事实新闻文章,并评估翻译版本的准确性和对原意的遵循。
提示:谷歌表示,它正在利用2022年算法调整所学到的经验,以“减少无帮助、无原创内容”,并将其应用于新的更新。该公司表示,这些变化将为“有帮助和高质量的网站”带来更多流量。结合两年前的更新,谷歌估计此次修订将减少40%的垃圾和无原创搜索结果。
我将两者翻译成了格鲁吉亚语。它们的准确性并不是百分之百,ChatGPT 4 确实偏离了目标,而更好的一个是 Claude 3 Sonnet。
赢家:Claude-3 Sonnet。
ChatGPT4与Claude 3 Sonnet之间的较量突显了大型语言模型的持续进步。这两个模型展示了令人印象深刻的能力,各有其优势。但对于上述测试,Claude 3 Sonnet 更胜一筹。
最终,“最佳”模型取决于您的具体需求。