Type something to search...
Deepseek 与光标中的 Claude:哪种 Llm 能消灭编码任务?

Deepseek 与光标中的 Claude:哪种 Llm 能消灭编码任务?

深度搜索 V3 和 R1 比较

深度搜索的两个模型,深度搜索 V3 和 R1 已经新添加到光标中。目前,许多开发者正在使用 Claude 3.5 Sonnet(最新版本,claude-3-5-sonnet-20241022)作为他们在光标中的主要大语言模型(包括我自己),所以我想测试这些模型,看看它们在实践中的比较如何。

深度搜索

如果你还没听说过,深度搜索是一家中国的人工智能初创公司,这周在新闻中引起了广泛关注,因为它刚刚开源了其深度搜索 R1 模型,该模型在与开放人工智能的 o1 相比时表现出竞争力的指标,这当然不是一项小成就。其与编码相关的基准测试显示,它在大多数情况下应该优于 Claude 3.5 Sonnet 和 GPT-4o,这令人期待。光标一如既往地迅速添加新模型,因此让我们深入进行实际比较!

深度搜索的 R1 和 V3 基准测试与开放人工智能的 o1 和 o1-mini (由深度搜索发布)

任务

我们将测试每个模型的聊天和作曲家,并将结果与 Claude 3.5 Sonnet 进行比较。请注意,代理模式目前仅适用于人类中心主义模型和 GPT-4o,因此我们暂时无法测试代理模式。

聊天

聊天任务是告诉我如何在 Next.js 应用中正确地将服务器操作添加到对话框中。这是确切的提示:

我该如何实现一个服务器操作并将其正确传递给这个对话框?

我还明确提供了引用我拥有的对话组件文件的上下文。

深度搜索 R1

让我们从深度搜索 R1 模型开始,因为这是目前备受关注的模型。使用 R1 时,你会立即注意到两件事:

  • 在流式输出方面速度相对较慢
  • 在响应开始时生成一个较大的 <think>

如果这个 <think> 块能够真正改善响应,我其实并不介意它,尽管它相当大。然而,流式输出缓慢的问题在于这个大的起始块,使得真正的响应需要花费相当多的时间才能到达。我相信通过设置光标规则来跳过这个块是可以解决的,但我只是测试默认行为。

在输出方面,它表现得还不错,但主要问题是它建议我安装 next-safe-action/hooks 来解决问题,但在响应中并没有实际使用它。即使使用了,我认为对于这个简单的问题,安装一个包有点过于复杂。

Image 10

R1 对这个提示的块

深度搜索 V3

深度搜索 V3 表现得相当不错,特别推荐我使用 useFormStatus,这是一个 React 19 的特性。很高兴看到它显然是在一些比较新的代码库上进行过训练。话虽如此,它直接在客户端组件中使用了创建的服务器操作,如果你对 Next.js 不熟悉,这将是无法工作的。不过,回应并要求修订,或者再次设置光标规则并不是疯狂的事情。

值得注意的是,深度搜索 V3 在流式输出方面也相当慢,但由于它在开始时没有 <think> 块,最终情况并没有 R1 那么糟糕。

Image 11

V3 响应的示例

Claude 3.5 Sonnet

Claude 3.5 Sonnet 是响应速度最快的,即使在“慢请求模式”下(当您超过每月500个高级请求时)。它没有包含更近期的 React 特性,如 useFormStatus,而且它实际上也存在与深度搜索 V3 相同的问题,即它在客户端组件中直接使用了创建的服务器操作。然而,它的实现方式更接近真实解决方案,只需要在服务器操作中添加 use server

Image 12

Sample of Sonnet’s response

作曲家

对于作曲家任务,我给模型提供了一个 CircleCI 配置文件,该文件用于部署一个具有简单 React 前端和 Node.js 后端的全栈应用程序。工作流程中有几个步骤可以成功部署全栈,并在 Cypress 中运行 E2E 测试。

我给模型提供了以下提示(将 CircleCI 配置文件作为明确的上下文):

我想看看模型能做两件事:

  1. 移除与前端部署相关的所有部分
  2. 识别出 E2E 测试不再需要,因为现在只有后端,并移除相关步骤

深度搜索 R1

我原本希望深度搜索 R1 在处理几个片段的作曲家任务中能够表现得更好,因为它在开始时有那个 <think> 块。然而,它的表现并没有我预期的那么好。它错过了一些我认为与前端部署明显相关的地方(例如,提到构建 webapp)。它确实正确地判断出 deploy-netlify 步骤不再需要,这很好。

然而,R1 确实删除了与后端部署明显相关的步骤(例如,命名为 deploy_production_api)。不幸的是,R1 也没有意识到 E2E 测试不再需要。

深度搜索 V3

深度搜索 V3 做得更好了一些,并且没有遗漏掉一些R1遗漏的部分,但也遗漏了一些R1正确识别的部分,特别是保留了 deploy-netlify 步骤。V3没有移除任何后端部署步骤,这很好,尽管也没有识别出E2E测试不再需要。

Claude 3.5 Sonnet

Claude 3.5 Sonnet, old trusty, did in fact perform the best. Sonnet removed the most commands related to frontend deployment, but like V3, did miss the deploy-netlify steps. Sonnet also did not remove any backend deployment steps.

The real gold model though is that Sonnet was able to figure out that the E2E tests were no longer needed since now there’s just a backend, and correctly removed everything related to them, including the caching of Cypress binaries!

结论

看到更多模型被添加到光标中真是太好了,发现新的最爱模型总是令人兴奋的。虽然这些测试相当简单,但它们确实展示了深度搜索的模型在实际应用中的表现,与Sonnet相比。

这些测试的赢家显然是Claude 3.5 Sonnet,在速度和输出质量两个类别中都是如此。我相信速度方面会继续改善,因为他们在北美的服务器数量可能没有开放人工智能和人类中心主义那么多。但就输出而言,至少在这些实际测试中,尽管基准测试结果如此,Sonnet至今仍然是王者。

Related Posts

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

结合chatgpt-o3-mini与perplexity Deep Research的3步提示:提升论文写作质量的终极指南

AI 研究报告和论文写作 合并两个系统指令以获得两个模型的最佳效果 Perplexity AI 的 Deep Research 工具提供专家级的研究报告,而 OpenAI 的 ChatGPT-o3-mini-high 擅长推理。我发现你可以将它们结合起来生成令人难以置信的论文,这些论文比任何一个模型单独撰写的都要好。你只需要将这个一次性提示复制到 **

阅读更多
让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

让 Excel 过时的 10 种 Ai 工具:实现数据分析自动化,节省手工作业时间

Non members click here作为一名软件开发人员,多年来的一个发现总是让我感到惊讶,那就是人们还在 Excel

阅读更多
使用 ChatGPT 搜索网络功能的 10 种创意方法

使用 ChatGPT 搜索网络功能的 10 种创意方法

例如,提示和输出 你知道可以使用 ChatGPT 的“搜索网络”功能来完成许多任务,而不仅仅是基本的网络搜索吗? 对于那些不知道的人,ChatGPT 新的“搜索网络”功能提供实时信息。 截至撰写此帖时,该功能仅对使用 ChatGPT 4o 和 4o-mini 的付费会员开放。 ![](https://images.weserv.nl/?url=https://cdn-im

阅读更多
掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

掌握Ai代理:解密Google革命性白皮书的10个关键问题解答

10 个常见问题解答 本文是我推出的一个名为“10 个常见问题解答”的新系列的一部分。在本系列中,我旨在通过回答关于该主题的十个最常见问题来分解复杂的概念。我的目标是使用简单的语言和相关的类比,使这些想法易于理解。 图片来自 [Solen Feyissa](https://unsplash.com/@solenfeyissa?utm_source=medium&utm_medi

阅读更多
在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和技术领域保持领先地位的 10 项必学技能 📚

在人工智能和科技这样一个动态的行业中,保持领先意味着不断提升你的技能。无论你是希望深入了解人工智能模型性能、掌握数据分析,还是希望通过人工智能转变传统领域如法律,这些课程都是你成功的捷径。以下是一个精心策划的高价值课程列表,可以助力你的职业发展,并让你始终处于创新的前沿。 1. 生成性人工智能简介课程: [生成性人工智能简介](https://genai.works

阅读更多
揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

揭开真相!深度探悉DeepSeek AI的十大误区,您被误导了吗?

在AI军备竞赛中分辨事实与虚构 DeepSeek AI真的是它所宣传的游戏规则改变者,还是仅仅聪明的营销和战略炒作?👀 虽然一些人将其视为AI效率的革命性飞跃,但另一些人则认为它的成功建立在借用(甚至窃取的)创新和可疑的做法之上。传言称,DeepSeek的首席执行官在疫情期间像囤积卫生纸一样囤积Nvidia芯片——这只是冰山一角。 从其声称的550万美元培训预算到使用Open

阅读更多
Type something to search...